robots.txt 設定

使用 robots.txt 檔案來攔截或移除網頁
最簡單的 robots.txt 檔案使用兩項規則:
  • User-agent:遵循以下規則的漫遊器
  • Disallow:您想要封鎖的網址

系統會將這兩行視為檔案中的一個項目。您想包含多少項目都可以。您可以在一個項目中納入多個 Disallow 行和多個 user-agent。
robots.txt 檔案中的每個部分都是獨立的,並非根據前一個部分來建置。舉例來說:
User-agent: *
Disallow: /<資料夾1>/

User-Agent: Googlebot
Disallow: /<資料夾2>/
在這個範例中,只有符合 /<資料夾2>/ 的網址不允許 Googlebot 檢索。

使用者代理程式與漫遊器

使用者代理程式是指特定的搜尋引擎漫遊器。網頁漫遊器資料庫列有許多常見的漫遊器。您可將某個項目套用至單一個漫遊器 (列出名稱即可),或套用至所有漫遊器 (列出一個星號即可)。套用至所有漫遊器的項目看起來如下:
User-agent: *
Google 使用數個不同的漫遊器 (使用者代理程式)。我們用來搜尋網頁的漫遊器是「Googlebot」。其他像是 Googlebot-Mobile 和 Googlebot-Image 等漫遊器,會遵循您為 Googlebot 設定的規則,但您也可以個別為其設定特殊的規則。

封鎖使用者代理程式

Disallow 行會列出您想封鎖的網頁。您可以列出特定的網址或模式。項目須以正斜線 (/) 開頭。
  • 如要封鎖整個網站,請使用正斜線。
    Disallow: /
  • 如要封鎖目錄及其所有內容,請在目錄名稱後加上正斜線。
    Disallow: /垃圾目錄/
  • 如要封鎖某個網頁,請列出該網頁。
    Disallow: /私人檔案.html
  • 如要從 Google 圖片移除特定圖片,請加入下列內容:
    User-agent: Googlebot-Image
    Disallow: /圖片/狗.jpg
  • 如要從 Google 圖片移除您網站上的所有圖片
    User-agent: Googlebot-Image
    Disallow: /
  • 如要封鎖特定類型 (例如 .gif) 的檔案,請使用下列指令:
    User-agent: Googlebot
    Disallow: /*.gif$
  • 若要防止漫遊器檢索您網站上的網頁,但仍在網頁上顯示 AdSense 廣告,請禁止 Mediapartners-Google 以外的所有漫遊器。這樣就會將這些網頁排除在搜尋結果之外,但 Mediapartners-Google 漫遊器仍然可以分析網頁,以決定要放送的廣告。Mediapartners-Google 漫遊器不會與其他的 Google 使用者代理程式共用網頁。例如:
    User-agent: *
    Disallow: /
    
    User-agent: MediaPartners-Google
    Allow: /
請注意,指令必須區分大小寫。舉例來說,Disallow: /junk_file.asp 會封鎖 http://www.example.com/junk_file.asp,但會允許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 檔案中的空白字元 (尤其是空行) 以及未知的指令。
以上節錄至google

注意:

Disallow雖然是要告知網路蜘蛛不要來抓取我設定的內容
但是如果設定的是類似 admin這種不對外搜尋的目錄
強烈建議不要在robots.txt設定 
因為這同時也會告訴有心人士(如駭客) 
這裡有我不想被知道的東西 快來看 有一種此地無銀三百兩的感覺
建議方法:
在不想被知道的面表頭設定
<meta name="robots" content="NOINDEX,NOFOLLOW" />
這樣就不會被搜尋到了

留言

這個網誌中的熱門文章

[Windows]密碼複雜性需求 停用密碼複雜度

net use 系統發生 1219 錯誤