谷歌不久后宣布了他们独立的“ Google-Extende

nusaiba123 · Post by **nusaiba123** » Tue Dec 17, 2024 9:07 am

d”机器人，允许网站专门阻止谷歌的 AI 工具访问部分或所有页面。此后一直存在一些争论。Moz、我们的母公司 Ziff Davis 以及整个 SEO 行业都在讨论如何最好地利用这种新发现的拒绝访问（某些）AI 工具的能力，以及它是否具有任何实际影响。由于目前可用的信息有限，特别是关于这些数据和这些工具的未来走向，我认为没有一个肯定的万能答案。在这篇文章中，我想阐述哪些论点、信念、前提或业务背景可能导致您阻止这些机器人或不阻止它们。首先，你做的事情真的有区别吗？ “他们已经拥有了我所有的内容” 也许吧。

OpenAI 过去曾使用过各种数据源，直到最近才发布（披露？）自己的土耳其电话号爬虫。例如，Common Crawl是 GPT-3 训练数据的很大一部分，这与 GPTBot 不同。很少有网站会屏蔽 Common Crawl CCbot，在少数听说过它的人中，它被认为对服务器的需求相当小，但可能带来的好处非常广泛，远远超出了训练 AI 模型的范围。此外，如果您现在屏蔽较新的 AI 专用机器人，您不会删除它们过去从您的网站收集的任何内容。因此，最糟糕的情况是，你只是减慢了他们访问你发布的新内容的速度。尽管如此，你还是可能相信这些新内容具有某种独特的价值，尤其是当它们最新鲜的时候。

（新闻网站目前倾向于屏蔽这些内容，这并非巧合。）然而，它很可能在其他抓取网站上被复制。我怀疑更复杂的模型确实包含某种权威信号（可能是链接！），因此抓取网站可能不像你自己的网站那样受信任，或者被自由或定期重新抓取。不过，我无法证实这一点。 “他们不需要我的内容” 您可能认为，即使您是行业中更大运动的一部分，人工智能机器人最终也能够像您一样出色地针对您的网站所涉及的主题制作内容。即使没有您新发布或最近更新的页面的输入。如果是这样，我首先要说，这可能是对任何以内容为中心的网站的价值主张相当严厉的控诉，可能对其在 SEO 方面的持续可行性产生严重影响，无论未来人工智能是否有发展。