间方法对特征执行了相

成对方法：预处理传入数据
我们决定根据全球数据库（美国、西班牙、法国、意大利、德国和其他国家）中的一组 600,000 个关键词、前 20 个搜索结果中的 url 位置以及假定的排名因素列表开展研究。

由于我们不打算使用相关性分析，因此我们必须在应用机器学习算法之前执行第一个二元分类。

该任务是使用 pairwise 方法实现的 – 这是机器学习中最流行的分类方法之一，微软在其研究项目中也使用了该方法。

成对方法意味着不是检查整

个数据集，而是单独研究每个搜索结果。

我们根据每个定义的特征比较所有可能的 url 对（页面上的第一个结果与第五个结果、第七个结果与第二个结果，等等）。

每对都被分配了一组绝对值，其中每个值都是将第一个 url 的特征值除以第二个 url 的特征值所得的商。

标值，指示第一个 url 在结果中的排名是否高于第二个 url（目标值 = 1）还是低于第二个 url（目标值 = 0）。

所用程序的结果：
每个 url 对都赋予每个特征的一组商和一个 1 或 0 的目标巴哈马 whatsapp 号码列表值。该变量将用作决策树的数据集。

因此，我们可以通过统计观察发现，某些特征值及其组合往往会导致某个 url 在搜索结果中排名更高。这使我们能够对某些特征的重要性建立假设，并对某一组特征值是否会导致更高的排名做出预测。

构建决策树：监督学习
我们在上一步之后获得的数据集是通用的，可以与任何机器学习算法一起使用。

我们选择了随机森林，一组决策树。

在这些决策树能够合理地完成其工作之前，它们需要学习。

为了确保正确进行训练并对主数据集做出公正的决策，我们使用了装袋和子空间方法。

提到的第一个方法，bagging，是通过放回抽样来创建数据集的过程。

假设我们有 x 行数据。

根据 bagging 方法的原理，我们将为每棵决策树创建手机号码一个数据集，并且该集合将具有相同的行数 x。

但是，由于这些样本集是经过替换随机分配的，大约会包含原始x行的三分之二，因此会有重复的值。

大约三分之一的原始价值仍然完好无损，并且

监督学习完成后将会被使用。

我们使用随机子空同的操作：决策树中填充的是特征的随机样本，而不是一整套特征。

没有一棵树使用整个数据集和选定特征的整个列表。

但是有了多树林，我们可以说每个值和每个特征很可能被使用大致相同的次数。

树都会根据最重要的变量对样本数据集进行划分，直到每个子集都法在分类因素研由同质的数据条目组成。

该树扫描整个数据集并选择最重要的特征及其精确值，这些特征及其精确值成为一种枢轴点（节点），并将数据分成两组。

对于第一组，上面选择的条件为真；对于另一个，则为假（因此创建了 yes 和 no 分支）。

所有最终子组都会根据放置在给定子组中的 url 对的目标值获得平均目标值。

由于树木使用样本数据集来生长，因此它们在生长的同时进行学习。

当正确猜测值的百分比达到可接受的目标值时，我们认为学习是高质量的。