维基百科示例非常清楚地说明了其中一些其他页面可能是多余的。 也没有必要把所有这些关键短语塞进标题标签中。如果有足够的入站链接,并且网站足够可信,那么您可能只需要搜索搜索量最高的术语,只要该术语与所提供的服务相关(永远不要忘记可用性!),如果您处于这个位置,请放松,等待小家伙赶上来! 去年年底,我工作的网站LocateTV迁移到了 Amazon Web Services (AWS) 的云端,以利用更大的灵活性和更低的运行成本。
转换后不久,我发现 Googlebot 抓取该网站的次数几乎是 意大利 whatsapp 资源 以前的两倍。进一步研究后,我发现 Google 一直在从 的子域抓取该网站。 问题是,当您在 AWS 上启动服务器时,它会自动获取一个类似于ec 的公共 DNS 条目。这意味着服务器将通过此域以及您注册到同一 IP 地址的主域访问。对于我们来说,这个问题加倍了,因为我们的主域有两个 Web 服务器,因此整个网站是通过两个不同的域和进行抓取的。
现在这些 AWS 子域没有外部链接,但作为域名注册商,Google 收到了新的 DNS 条目通知,并继续索引大量页面。所有这些都给我们的服务器带来了额外的负载和巨大的重复内容问题(经过一番努力,我终于解决了这个问题 - 详情见下文)。 真是一片混乱。 我想分析一下有多少其他网站受到此问题的影响。在 Google 上快速搜索发现索引了近 50 万个网页(使用此命令通常会得到不可靠的统计数据,但它可以反映出问题的规模): 站点:compute-1.amazonaws.com 我猜想这些页面大部分都是重复内容,因为网站所有者为其网站设置了单独的 DNS 条目。