本研究的大部分数据是在 2020 年 10 月初从一组超过 200 万个 Google.com(美国)桌面搜索结果中收集的。经过少量重复数据删除和清理后,该数据集产生了 258K 个搜索,其中第一页有视频轮播。这些轮播总共占 210 万个视频结果/URL 和 767K 个可见结果(Google 每个轮播最多显示三个,无需滚动)。
How to 分析基于一个较小的数据集,该数据集包含 45K 个关键词,这些关键词明确以“how to”开头。这两个数据集都不是随机选择的样本,可能偏向某些行业或垂直行业。
后续的10K数据集是专门作为研究数据集构建的,均匀分布在Google Ads的20个主要行业类别中。该数据集专门用于表示广泛的竞争术语。
为什么我们不使用真正的随机抽样?除了教科书之外,真正随机的 阿富汗电话数据 样本很少实现,但理论上是可能的。例如,在美国随机抽取成年人样本非常困难(只要你拿起电话或发送电子邮件,就会引入偏见),但至少我们知道,在任何特定时刻,美国成年人口都是一组有限的个人。
但谷歌搜索则不然。搜索不是有限的集合,而是搜索者每毫秒从虚空中变出的词云。据谷歌自己说:“谷歌每年有数万亿次搜索。事实上,我们每天看到的搜索中有 15% 是新的。”搜索的数量不仅数万亿,而且每分钟都在变化。
最终,我们依靠大型数据集,尽可能地了解任何给定数据集中的缺陷,并在多个数据集上复制我们的工作。这项研究针对两个非常不同的数据集进行了复制,以及根据第一个数据集的主题部分创建的第三个数据集,并针对 2020 年的多个日期进行了验证。
返回顶部
Peter J. Meyers 博士
关于 Peter J. Meyers 博士
Pete 博士是一位认知心理学家,也是 Moz 的常驻营销科学家。