robots.txt 設定
使用 robots.txt 檔案來攔截或移除網頁
最簡單的 robots.txt 檔案使用兩項規則:
- User-agent:遵循以下規則的漫遊器
- Disallow:您想要封鎖的網址
robots.txt 檔案中的每個部分都是獨立的,並非根據前一個部分來建置。舉例來說:
User-agent: * Disallow: /<資料夾1>/ User-Agent: Googlebot Disallow: /<資料夾2>/
在這個範例中,只有符合 /<資料夾2>/ 的網址不允許 Googlebot 檢索。
使用者代理程式與漫遊器
使用者代理程式是指特定的搜尋引擎漫遊器。網頁漫遊器資料庫列有許多常見的漫遊器。您可將某個項目套用至單一個漫遊器 (列出名稱即可),或套用至所有漫遊器 (列出一個星號即可)。套用至所有漫遊器的項目看起來如下:
User-agent: *
Google 使用數個不同的漫遊器 (使用者代理程式)。我們用來搜尋網頁的漫遊器是「Googlebot」。其他像是 Googlebot-Mobile 和 Googlebot-Image 等漫遊器,會遵循您為 Googlebot 設定的規則,但您也可以個別為其設定特殊的規則。
封鎖使用者代理程式
Disallow 行會列出您想封鎖的網頁。您可以列出特定的網址或模式。項目須以正斜線 (/) 開頭。
- 如要封鎖整個網站,請使用正斜線。
Disallow: /
- 如要封鎖目錄及其所有內容,請在目錄名稱後加上正斜線。
Disallow: /垃圾目錄/
- 如要封鎖某個網頁,請列出該網頁。
Disallow: /私人檔案.html
- 如要從 Google 圖片移除特定圖片,請加入下列內容:
User-agent: Googlebot-Image Disallow: /圖片/狗.jpg
- 如要從 Google 圖片移除您網站上的所有圖片:
User-agent: Googlebot-Image Disallow: /
- 如要封鎖特定類型 (例如 .gif) 的檔案,請使用下列指令:
User-agent: Googlebot Disallow: /*.gif$
- 若要防止漫遊器檢索您網站上的網頁,但仍在網頁上顯示 AdSense 廣告,請禁止 Mediapartners-Google 以外的所有漫遊器。這樣就會將這些網頁排除在搜尋結果之外,但 Mediapartners-Google 漫遊器仍然可以分析網頁,以決定要放送的廣告。Mediapartners-Google 漫遊器不會與其他的 Google 使用者代理程式共用網頁。例如:
User-agent: * Disallow: / User-agent: MediaPartners-Google Allow: /
請注意,指令必須區分大小寫。舉例來說,
Disallow: /junk_file.asp
會封鎖 http://www.example.com/junk_file.asp,但會允許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 檔案中的空白字元 (尤其是空行) 以及未知的指令。
以上節錄至google
注意:
Disallow雖然是要告知網路蜘蛛不要來抓取我設定的內容
但是如果設定的是類似 admin這種不對外搜尋的目錄
強烈建議不要在robots.txt設定
因為這同時也會告訴有心人士(如駭客)
這裡有我不想被知道的東西 快來看 有一種此地無銀三百兩的感覺
建議方法:
在不想被知道的面表頭設定
<meta name="robots" content="NOINDEX,NOFOLLOW" />
這樣就不會被搜尋到了
留言
張貼留言