成对方法:预处理传入数据
我们决定根据全球数据库(美国、西班牙、法国、意大利、德国和其他国家)中的一组 600,000 个关键词、前 20 个搜索结果中的 url 位置以及假定的排名因素列表开展研究。
由于我们不打算使用相关性分析,因此我们必须在应用机器学习算法之前执行第一个二元分类。
该任务是使用 pairwise 方法实现的 – 这是机器学习中最流行的分类方法之一,微软在其研究项目中也使用了该方法。
成对方法意味着不是检查整
个数据集,而是单独研究每个搜索结果。
我们根据每个定义的特征比较所有可能的 url 对(页面上的第一个结果与第五个结果、第七个结果与第二个结果,等等)。
每对都被分配了一组绝对值,其中每个值都是将第一个 url 的特征值除以第二个 url 的特征值所得的商。
除此之外每对都分配有一个目
标值,指示第一个 url 在结果中的排名是否高于第二个 url(目标值 = 1)还是低于第二个 url(目标值 = 0)。
所用程序的结果:
每个 url 对都赋予每个特征的一组商和一个 1 或 0 的目标 巴哈马 whatsapp 号码列表 值。该变量将用作决策树的数据集。
因此,我们可以通过统计观察发现,某些特征值及其组合往往会导致某个 url 在搜索结果中排名更高。这使我们能够对某些特征的重要性建立假设,并对某一组特征值是否会导致更高的排名做出预测。
构建决策树:监督学习
我们在上一步之后获得的数据集是通用的,可以与任何机器学习算法一起使用。
我们选择了随机森林,一组决策树。
在这些决策树能够合理地完成其工作之前,它们需要学习。
为此我们进行了监督机器学习
为了确保正确进行训练并对主数据集做出公正的决策,我们使用了装袋和子空间方法。
提到的第一个方法,bagging,是通过放回抽样来创建数据集的过程。
假设我们有 x 行数据。
根据 bagging 方法的原理,我们将为每棵决策树创建 手机号码 一个数据集,并且该集合将具有相同的行数 x。
但是,由于这些样本集是经过替换随机分配的,大约会包含原始x行的三分之二,因此会有重复的值。
大约三分之一的原始价值仍然完好无损,并且
监督学习完成后将会被使用。
我们使用随机子空同的操作:决策树中填充的是特征的随机样本,而不是一整套特征。
没有一棵树使用整个数据集和选定特征的整个列表。
但是有了多树林,我们可以说每个值和每个特征很可能被使用大致相同的次数。
培育森林我们用该系统创建的每棵决策
树都会根据最重要的变量对样本数据集进行划分,直到每个子集都 法在分类因素研 由同质的数据条目组成。
该树扫描整个数据集并选择最重要的特征及其精确值,这些特征及其精确值成为一种枢轴点(节点),并将数据分成两组。
对于第一组,上面选择的条件为真;对于另一个,则为假(因此创建了 yes 和 no 分支)。
所有最终子组都会根据放置在给定子组中的 url 对的目标值获得平均目标值。
由于树木使用样本数据集来生长,因此它们在生长的同时进行学习。
当正确猜测值的百分比达到可接受的目标值时,我们认为学习是高质量的。