用Google来检查你网站的robots.txt
5月 23rd, 2007 | Author: syber | In 综合, 网络 |
Print This Post
| Permalink
一个robots.txt能告诉搜索引擎机器有关网站的目录和文件。一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中。
这对网站站长来说是一个巨大的损坏。如果你做错了什么并重新编辑robots.txt文件的话,它需要两个星期才能看到效果。
一个好方法去检查你的robots.txt是否可用,你要做的是用Google’s Webmaster Central服务来即时检查它。当然,首先是设立一个免费账户和加入你的网站。
完成这步后,你可以进入一些它提供的服务。一种是robots.txt分析,它让你检查你网站的robots.txt。Google会自动从你的网站中收取robots.txt,如果它原来存在或添加到主网址到网址名单的话,他们会被检查。
你可以添加新入口到robots.txt,网址名单会被检查。这非常重要,因为两个原因,一是你想检查新入口或一个全新的robots.txt文件,这意味着你需要添加和编辑入口。
检查不同的网址也非常重要,而不仅仅是主网址。如果你用ghacks来做例子的话,所有文章有一个syntax,它不同于来自主网址。给你一个例子,我添加随后的robots.txt文件和文章网页。如果你运转的是一个Wordpress的blog,这是一个正确的方法。当然,如果你运转一个不同的网站你需要添加不同的robots.txt文件和网页……
robots.txt
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /date/
Disallow: /comments/
User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*?*
Disallow: /*?
# This is the ad bot for google
User-agent: Mediapartners-Google*
# Allow Everything
Allow: /*
Test URLs against this robots.txt file
http://www.ghacks.net/
http://www.ghacks.net/2007/05/20/support-ghacks/
http://www.ghacks.net/tag/
http://www.ghacks.net/category/
http://www.ghacks.net/2007/05/20/flitter-a-flickr-twitter-realtime-screensaver/trackback/
你可以添加一个第二搜索引擎爬虫,它可以试图爬找你的网站。选择Adsense爬虫也许是一个好方法。点击检查来看一下结果以确定是否Adsense爬虫试图爬找你的网站。
Allowed意味着Adsense爬虫能够在网站上爬行,Blocked意味着不能爬行。如果结果不能让你满意的话你可以很容易地编辑robots.txt,然后再检查一次。
Related posts
Leave a Reply
