如何在Linux网络服务器上设置禁止百度蜘蛛爬行的教程

小编：动力软件园时间：2012-07-30 15:37:12

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。就比如现在的中国互联网的现状，百度蜘蛛抓取的站点无数，但是内容却不被放出来，如果您此时正好在建设网站，或者在进行大范围的改版，那么此时您是不需要百度来抓取网页的比如，你要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重，这肯定是我们不想看到的结果。

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。我通过分析我自己博客的服务器日志文件，给出以下建议（同时欢迎网友补充）：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

<meta name="robots" content="noindex, nofollow">

3、通过服务器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

排行榜

易学车老版本

实用工具下载

天行健安卓版 v2.35770

手游软件下载

三星PC套件 samsung kies 官方正式版 3.2.15041.2

手机工具下载

4
会说话的饶舌艺人安卓版_八哥一般的安卓饶舌艺人V2.3.1
未知 · 80℃

这是一款非常好玩的如汤...

下载
5
抓包精灵pro版破解下载
14.84 MB · 80℃

抓包精灵pro版破解是一款...

下载
6
运动日志_对用户的运动情况进行跟踪测量2.0.0
0.59 MB · 80℃

利用android的GPS功能,Ru...

下载