如何撰寫和提交 robots.txt 檔案

如何撰寫和提交 robots.txt 檔案

控制搜尋引擎能抓取和不能抓取的內容,是管理線上存在的重要部分。其中一個最有效的方法就是使用 robots.txt 檔案。這個純文字檔會告訴搜尋引擎可以存取您網站上的哪些內容,哪些內容不可以,協助您引導流量、保護敏感內容,並改善網站的 SEO。
在這篇部落格中,我們將探討 robots.txt 檔案的重要性、如何建立,以及如何自訂以符合您的需求。無論您是初學者或是有網站管理經驗的人,本指南都能幫助您確保搜尋引擎能有效抓取您的網站。

什麼是 Robots.txt 檔案?

A robots.txt 檔案 是一個簡單的文字檔,放置在您網站的根目錄中。其目的是指示網路爬蟲(例如 Google 的 Googlebot)可以造訪和索引您網站上的哪些部分。遵循 機器人排除標準此檔案可協助您控制特定目錄或網頁的存取權,同時確保重要內容仍可供搜尋引擎編入索引。

例如,如果您的網站是 www.example.com, 您的 robots.txt 檔案應該位於 www.example.com/robots.txt.

Robots.txt 檔案如何運作?

robots.txt 檔案由一系列規則組成,每條規則指定特定網路爬蟲(稱為「使用者代理」)是否可以存取您網站的特定部分。這些規則包括以下指令 不允許, 允許以及 網站地圖,可以限制或允許存取各種 URL。

讓我們來看看 robots.txt 檔案的簡單範例:

User-agent:Googlebot
禁止:/nogooglebot/

User-agent:*
允許:/

網站地圖: https://www.example.com/sitemap.xml

檔案的說明:

  • Googlebot (Google的爬蟲) 無法抓取任何以 https://www.example.com/nogooglebot/.
  • 所有其他使用者代理(以 *,意思是「所有爬蟲」)可以抓取整個網站。
  • 本網站的網站地圖位址如下 https://www.example.com/sitemap.xml.

如果沒有 robots.txt 檔案,預設情況下所有爬蟲都可以存取整個網站。robots.txt 檔案會精簡這些權限。

為什麼需要 Robots.txt 檔案?

使用 robots.txt 檔案有幾個優點:

  • 控制爬行:它允許您管理搜尋引擎抓取網站的哪些部分,減少伺服器的負載,並防止敏感內容被索引。
  • 改善 SEO:您可以讓搜尋引擎爬蟲專注於您網站上最重要的網頁,確保它們索引正確的內容,以提高您的搜尋排名。
  • 保護敏感內容:雖然 robots.txt 檔案無法防止敏感資料的存取,但它可以幫助隱藏私人頁面,讓搜尋引擎爬蟲無法讀取,例如登入頁面或管理區段。

如何建立 Robots.txt 檔案

建立 robots.txt 檔案很容易,您可以使用任何純文字編輯器,例如 記事本, 文字編輯, viEmacs.避免使用 Microsoft Word 等文字處理器,因為它們可能會引入可能會干擾檔案正常運作的格式。

1. 建立檔案

開啟文字編輯器,儲存一個名為 robots.txt.確保編碼為 UTF-8 格式。

2. 新增規則

開始新增規則,指定規則適用於哪些使用者代理,以及允許 (或禁止) 抓取網站的哪些部分。
以下是如何封鎖所有網路爬蟲存取特定目錄的範例:

使用者代理:*
禁止:/private-directory/

3. 上傳檔案

上傳 robots.txt 檔案到您網站的根目錄。例如,如果您的網站是 www.example.com, 檔案必須在 www.example.com/robots.txt.如果您不確定如何存取根目錄,請聯絡您的主機供應商。

4. 測試檔案

上傳檔案後,您可以開啟私人模式的瀏覽器,並導航至 https://www.example.com/robots.txt.如果您可以檢視檔案,表示檔案已成功上傳。

常見的 Robots.txt 規則

以下是一些在 robots.txt 檔案中常用的規則:

1. 阻止所有爬蟲進入整個網站

使用者代理:*
禁止:/

此規則會阻止所有爬蟲存取整個網站。請謹慎使用此規則,因為它會阻止搜尋引擎索引您的內容。

2. 允許所有爬蟲存取整個網站

使用者代理:*
允許:/

此規則允許所有網路爬蟲存取您的整個網站。如果您沒有在 robots.txt 檔案中指定任何規則,這是預設行為。

3.封鎖特定目錄

使用者代理:*
禁止:/private-directory/

此規則會阻止所有爬蟲存取 /private-directory/.請記住,尾部的斜線表示目錄內的所有內容也是不允許的。

4. 允許特定目錄,封鎖其他目錄

使用者代理:*
禁止:/
允許:/public/

此規則會封鎖整個網站的存取,除了 /public/ 目錄。當您想要將網站的大部分內容保密,但又允許特定的公開頁面被索引時,這就非常有用了。

5. 封鎖特定頁面

使用者代理:*
Disallow:/useless_page.html

此規則會阻止所有爬蟲存取您網站上的特定頁面。

6. 指定網站地圖

網站地圖: https://www.example.com/sitemap.xml

在您的 robots.txt 檔案中包含網站地圖,可協助搜尋引擎快速定位並抓取您網站上的所有重要頁面。

Robots.txt 檔案的最佳做法

建立您的 robots.txt 檔案時,請牢記下列最佳實務:

  • 具體說明:只封鎖您不希望搜尋引擎抓取的網頁或目錄。
  • 使用適當的案例:規則是區分大小寫的,因此 禁止:/Private/禁止:/private/ 會封鎖不同的目錄。
  • 請勿使用 Robots.txt 處理敏感資料:robots.txt 檔案是公開的,任何人都可以存取。如果您有敏感的內容,例如登入頁面或管理區域,請使用適當的驗證方法來保護它們,而不是依賴 robots.txt。
  • 定期更新:確保您的 robots.txt 檔案隨著網站結構的變更而保持更新。

如何測試並提交 Robots.txt 檔案

上傳您的 robots.txt 檔案後,您可以使用下列方式測試其有效性 Google 搜尋控制台的 robots.txt 測試器.此工具有助於確保您的檔案格式適當,並確保 Google 能正確解讀。

向 Google 提交您的 robots.txt 檔案:

  • 前往 Google Search Console。
  • 使用 Robots.txt 測試器 來驗證您的檔案。
  • 一經驗證,Google 就會自動找到並使用您的 robots.txt 檔案。

總結

結構良好的 robots.txt 檔案是管理搜尋引擎如何與您的網站互動的強大工具。透過瞭解如何建立和設定檔案,您可以確保您的網站最佳化以利爬行,同時將敏感或不必要的內容隱藏起來,不讓搜尋引擎爬蟲發現。
無論是管理個人部落格或大型企業網站,正確執行 robots.txt 檔案都能改善您的 SEO、保護敏感內容,並確保網站順暢運作。定期檢閱和更新檔案,以配合您網站的成長和變更。

相關文章

回應

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *