robots.txt

如何禁止网站被搜索引擎收录

大家看到标题,是否瞬间觉得有些纳闷;

心里想:我做个网站,就想良好收录,谁犯傻,还要禁止收录咧?

嗯,且听Jimmy给你叨一叨。

 

试问,我们的网站是不是有些内容并与我们的目标关键词相关性不高?

那搜索引擎看了,是不是会对网站的评分大打折扣呢?

这个时候,我们就需要对网站进行适当的屏蔽了。

 

那如何操作呢?

1.首先要介绍的是robots.txt文件

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

 

2.robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://seo.wengjianming.cn)时,首先会检查该网站中是否存在http://seo.wengjianming.cn/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

 

3.robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

robots.txt文件下载

例2. 允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件 “/robots.txt”)

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider
Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /

例5. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

例6. 禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /jimmy/

[解释]在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即spider不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 “Disallow: /cgi-bin/ /tmp/”。

例7. 允许访问特定目录中的部分url

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hello
Allow: /jimmy/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /jimmy/

例8. 使用”*”限制访问url

User-agent: *
Disallow: /cgi-bin/*.htm

[解释]禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

例9. 使用”$”限制访问url

User-agent: *
Allow: /*.htm$
Disallow: /

[解释]仅允许访问以”.htm”为后缀的URL。

例10. 禁止访问网站中所有的动态页面

User-agent: *
Disallow: /*?*

例11. 禁止Baiduspider抓取网站上所有图片

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

[解释]仅允许抓取网页,禁止抓取任何图片。

例12. 仅允许Baiduspider抓取网页和.gif格式图片

User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

 

robots.txt文件的更具体设置,请参看以下链接

The Web Robots Pages

分享到:

发表评论

昵称

沙发空缺中,还不快抢~