用於搜尋引擎索引的元標記
Posted: Thu Dec 12, 2024 6:09 am
元標籤是嵌入到您網站中的一小段程式碼,可以告訴 Google 您希望它了解的資訊。例如,您希望您的頁面以某種方式顯示在搜尋引擎結果中嗎?這是透過元標籤控制的。
元標記要么在頁面級別,要么用作內聯指令:
頁面級元標記:這些是與您的網站各個層級(包括其標題或標題)互動的最突出的標記。您可以將它們直接新增到網站的 HTML 頁面 <head> 部分。
內嵌指令元標記:這些標記用於禁止 HTML 頁面的各個部分,在目標 HTML 標記上使用「data-nosnippet」屬性。這些標籤是布林屬性,這意味著它們會忽略您在其中聲明的任何值。
元機器人標籤是影響 SEO 的標籤,告訴搜尋引擎機器人如 沙烏地阿拉伯 電話號碼數據
何為您的網站建立索引。您甚至可以在 TXT 檔案中使用「無索引」標籤來禁止搜尋引擎索引頁面。
Google 的一些常用元標記
「描述」標籤:格式類似於<meta name=“description” content=“text” />,它給出了頁面的簡短元描述。您在搜尋引擎結果頁面上看到的片段通常會使用從這些單獨頁面的 HTML 檔案中取得的描述元標記。
「Robots」:格式類似於 < meta name=“robots” content=“text” />,這是最重要的標籤,可以精確指導谷歌機器人進行索引和爬行。您可以使用 robots 標記 <meta name=“googlebot” />專門針對 Google 抓取工具,但 robots 元標記本身則針對所有搜尋引擎抓取工具。
「Google Site Verification」:格式如下<meta name=“google” content=“text” />,此元標記用於顯示網站的所有者是誰,並將該資訊直接提供給 Google Search Console。此資訊需要與網站設定期間提供給您的格式(有關「名稱」和「內容」屬性)相符。
網路抓取管理
如果您使用的是 Blogger 或 WordPress 等 CMS 平台,那麼每次您對網站進行更改時,該平台都會向 Google 和其他搜尋引擎提交更新的索引。如果您正在管理自己的網站,則需要在進行更新時手動要求對您的網站進行抓取,以便搜尋結果頁面反映這些變更。
向 Google 提交抓取或重新抓取請求
您可以請 Google 重新抓取各個網址或整個網站地圖。當您一次更新多個頁面時,收集它們並將其作為單一網站地圖提交可能是最好的方法。
即使您之前已經建立並提交了網站地圖,但在進行任何變更後仍然需要再次執行此操作。 Google 網路爬蟲不會再次檢查它,除非您對它們執行 ping 操作,或直到它們自己注意到更改(這種情況可能會發生不可預測)。只需在 XML 檔案中使用標記指示更新的頁面,<lastmod>即可告訴網路爬蟲對哪些網站再次建立索引。
對於單一URL,您可以使用簡單的網路爬蟲URL檢查工具 來請求索引。它將為您提供測試網站實時 URL 的選項,以便您測試所做的任何更新,而不會對已編入索引的網站版本產生負面影響。
管理抓取預算
您必須注意抓取預算,但前提是您的網站擁有數萬頁或更多頁面。萬維網比您想像的要大,甚至 Google 機器人也無法花費無限的時間抓取您的網站。有兩個因素會影響您的抓取預算:
抓取速率限制:Google 使用一種稱為「抓取容量限制」的演算法來查看其網路爬蟲機器人可以與您的網站建立多少個連接,而不會使您的伺服器不堪重負。
抓取速度需求:這是衡量抓取和索引您的網站與其他網站相比所需時間的指標。熱門 URL、不經常更新的 URL 以及重複內容等可能會對網站的抓取需求產生不利影響。
網頁抓取錯誤
您可能會看到與您的網站和 Google 搜尋相關的錯誤代碼的原因有很多。例如,HTTP 狀態代碼來自託管您網站的伺服器。
常見 HTTPS 狀態碼清單。
適用於 SEO 的常見 HTTP 狀態碼
它們有多種含義,每種含義都屬於特定類別。其中一些是:
2xx(成功):像200或201這樣的程式碼意味著網路爬蟲已經抓取了您的URL並清除了索引。
3xx(重定向):如果您在 Google Search Console 上看到重定向錯誤,則表示 Googlebot 收到了至少 10 個沒有內容的重定向。 301 程式碼意味著 Googlebot 被重定向,帶有強烈的訊號,表示該重定向是規範的,而 302 程式碼是帶有弱目標訊號的重定向。
4xx(客戶端錯誤):索引時不考慮 4xx 錯誤。其中任何一個(從 400 到 429)都將禁止爬網程式建立索引,如果問題仍然存在,則可以從索引中完全刪除該 URL。
5xx(伺服器錯誤):5xx 程式碼不會立即將您的 URL 從索引中刪除,但最終會發生。 5xx 錯誤表示 Googlebot 對您網站的抓取速度大大降低,這表示您的網址可能已損壞。當 Google 因網路/DNS 原因而無法存取某個網站時(例如最近 Facebook 服務中斷期間發生的情況),Google 會將其視為 5xx HTTP 伺服器錯誤。
元標記要么在頁面級別,要么用作內聯指令:
頁面級元標記:這些是與您的網站各個層級(包括其標題或標題)互動的最突出的標記。您可以將它們直接新增到網站的 HTML 頁面 <head> 部分。
內嵌指令元標記:這些標記用於禁止 HTML 頁面的各個部分,在目標 HTML 標記上使用「data-nosnippet」屬性。這些標籤是布林屬性,這意味著它們會忽略您在其中聲明的任何值。
元機器人標籤是影響 SEO 的標籤,告訴搜尋引擎機器人如 沙烏地阿拉伯 電話號碼數據
何為您的網站建立索引。您甚至可以在 TXT 檔案中使用「無索引」標籤來禁止搜尋引擎索引頁面。
Google 的一些常用元標記
「描述」標籤:格式類似於<meta name=“description” content=“text” />,它給出了頁面的簡短元描述。您在搜尋引擎結果頁面上看到的片段通常會使用從這些單獨頁面的 HTML 檔案中取得的描述元標記。
「Robots」:格式類似於 < meta name=“robots” content=“text” />,這是最重要的標籤,可以精確指導谷歌機器人進行索引和爬行。您可以使用 robots 標記 <meta name=“googlebot” />專門針對 Google 抓取工具,但 robots 元標記本身則針對所有搜尋引擎抓取工具。
「Google Site Verification」:格式如下<meta name=“google” content=“text” />,此元標記用於顯示網站的所有者是誰,並將該資訊直接提供給 Google Search Console。此資訊需要與網站設定期間提供給您的格式(有關「名稱」和「內容」屬性)相符。
網路抓取管理
如果您使用的是 Blogger 或 WordPress 等 CMS 平台,那麼每次您對網站進行更改時,該平台都會向 Google 和其他搜尋引擎提交更新的索引。如果您正在管理自己的網站,則需要在進行更新時手動要求對您的網站進行抓取,以便搜尋結果頁面反映這些變更。
向 Google 提交抓取或重新抓取請求
您可以請 Google 重新抓取各個網址或整個網站地圖。當您一次更新多個頁面時,收集它們並將其作為單一網站地圖提交可能是最好的方法。
即使您之前已經建立並提交了網站地圖,但在進行任何變更後仍然需要再次執行此操作。 Google 網路爬蟲不會再次檢查它,除非您對它們執行 ping 操作,或直到它們自己注意到更改(這種情況可能會發生不可預測)。只需在 XML 檔案中使用標記指示更新的頁面,<lastmod>即可告訴網路爬蟲對哪些網站再次建立索引。
對於單一URL,您可以使用簡單的網路爬蟲URL檢查工具 來請求索引。它將為您提供測試網站實時 URL 的選項,以便您測試所做的任何更新,而不會對已編入索引的網站版本產生負面影響。
管理抓取預算
您必須注意抓取預算,但前提是您的網站擁有數萬頁或更多頁面。萬維網比您想像的要大,甚至 Google 機器人也無法花費無限的時間抓取您的網站。有兩個因素會影響您的抓取預算:
抓取速率限制:Google 使用一種稱為「抓取容量限制」的演算法來查看其網路爬蟲機器人可以與您的網站建立多少個連接,而不會使您的伺服器不堪重負。
抓取速度需求:這是衡量抓取和索引您的網站與其他網站相比所需時間的指標。熱門 URL、不經常更新的 URL 以及重複內容等可能會對網站的抓取需求產生不利影響。
網頁抓取錯誤
您可能會看到與您的網站和 Google 搜尋相關的錯誤代碼的原因有很多。例如,HTTP 狀態代碼來自託管您網站的伺服器。
常見 HTTPS 狀態碼清單。
適用於 SEO 的常見 HTTP 狀態碼
它們有多種含義,每種含義都屬於特定類別。其中一些是:
2xx(成功):像200或201這樣的程式碼意味著網路爬蟲已經抓取了您的URL並清除了索引。
3xx(重定向):如果您在 Google Search Console 上看到重定向錯誤,則表示 Googlebot 收到了至少 10 個沒有內容的重定向。 301 程式碼意味著 Googlebot 被重定向,帶有強烈的訊號,表示該重定向是規範的,而 302 程式碼是帶有弱目標訊號的重定向。
4xx(客戶端錯誤):索引時不考慮 4xx 錯誤。其中任何一個(從 400 到 429)都將禁止爬網程式建立索引,如果問題仍然存在,則可以從索引中完全刪除該 URL。
5xx(伺服器錯誤):5xx 程式碼不會立即將您的 URL 從索引中刪除,但最終會發生。 5xx 錯誤表示 Googlebot 對您網站的抓取速度大大降低,這表示您的網址可能已損壞。當 Google 因網路/DNS 原因而無法存取某個網站時(例如最近 Facebook 服務中斷期間發生的情況),Google 會將其視為 5xx HTTP 伺服器錯誤。