robots.txt 設定

使用 robots.txt 檔案來攔截或移除網頁

最簡單的 robots.txt 檔案使用兩項規則：

User-agent：遵循以下規則的漫遊器
Disallow：您想要封鎖的網址

系統會將這兩行視為檔案中的一個項目。您想包含多少項目都可以。您可以在一個項目中納入多個 Disallow 行和多個 user-agent。

robots.txt 檔案中的每個部分都是獨立的，並非根據前一個部分來建置。舉例來說：

User-agent: *
Disallow: /<資料夾1>/

User-Agent: Googlebot
Disallow: /<資料夾2>/

在這個範例中，只有符合 /<資料夾2>/ 的網址不允許 Googlebot 檢索。

使用者代理程式與漫遊器

使用者代理程式是指特定的搜尋引擎漫遊器。網頁漫遊器資料庫列有許多常見的漫遊器。您可將某個項目套用至單一個漫遊器 (列出名稱即可)，或套用至所有漫遊器 (列出一個星號即可)。套用至所有漫遊器的項目看起來如下：

User-agent: *

Google 使用數個不同的漫遊器 (使用者代理程式)。我們用來搜尋網頁的漫遊器是「Googlebot」。其他像是 Googlebot-Mobile 和 Googlebot-Image 等漫遊器，會遵循您為 Googlebot 設定的規則，但您也可以個別為其設定特殊的規則。

封鎖使用者代理程式

Disallow 行會列出您想封鎖的網頁。您可以列出特定的網址或模式。項目須以正斜線 (/) 開頭。

如要封鎖整個網站，請使用正斜線。
```
Disallow: /
```
如要封鎖目錄及其所有內容，請在目錄名稱後加上正斜線。
```
Disallow: /垃圾目錄/
```
如要封鎖某個網頁，請列出該網頁。
```
Disallow: /私人檔案.html
```
如要從 Google 圖片移除特定圖片，請加入下列內容：
```
User-agent: Googlebot-Image
Disallow: /圖片/狗.jpg
```
如要從 Google 圖片移除您網站上的所有圖片：
```
User-agent: Googlebot-Image
Disallow: /
```
如要封鎖特定類型 (例如 .gif) 的檔案，請使用下列指令：
```
User-agent: Googlebot
Disallow: /*.gif$
```
若要防止漫遊器檢索您網站上的網頁，但仍在網頁上顯示 AdSense 廣告，請禁止 Mediapartners-Google 以外的所有漫遊器。這樣就會將這些網頁排除在搜尋結果之外，但 Mediapartners-Google 漫遊器仍然可以分析網頁，以決定要放送的廣告。Mediapartners-Google 漫遊器不會與其他的 Google 使用者代理程式共用網頁。例如：
```
User-agent: *
Disallow: /

User-agent: MediaPartners-Google
Allow: /
```

請注意，指令必須區分大小寫。舉例來說，Disallow: /junk_file.asp 會封鎖 http://www.example.com/junk_file.asp，但會允許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 檔案中的空白字元 (尤其是空行) 以及未知的指令。

以上節錄至google

注意：

Disallow雖然是要告知網路蜘蛛不要來抓取我設定的內容

但是如果設定的是類似 admin這種不對外搜尋的目錄

強烈建議不要在robots.txt設定

因為這同時也會告訴有心人士(如駭客)

這裡有我不想被知道的東西 快來看 有一種此地無銀三百兩的感覺

建議方法：

在不想被知道的面表頭設定

<meta name="robots" content="NOINDEX,NOFOLLOW" />

這樣就不會被搜尋到了

搜尋此網誌

康拍樂 compiler note