robots.txt深度剖析

原创 明月SEO  2017-02-23 15:08  阅读 440 次

大家知道robots.txt是什么。
这里再详细介绍下:
搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。
robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。

如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。
上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。
访问如:/robots.txt
robots.txt文件的内容主要就是一个代码:Disallow:
注意,robots.txt文件中一般要包含至少一个Disallow:
如果都允许收录,你可以写一行Disallow:/search.html   这个文件(search.html)本来就不存在也没事。
格式如:
User-agent: *
Disallow: /search.html
Disallow: /index.php?
Disallow: /tempweb/

说明:
User-agent: *   星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。
Disallow: /search.html  说明不允许收录 /search.html 这个文件。
Disallow: /index.php?  说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/  说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。
这里介绍的是常用的几个代码。
如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.html
robots.txt那么复杂?
想成为SEO专业人士,你需要深入了解并充分利用robots.txt。
1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。
2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。
相关问题:

1、我发现有一个网站被K了,但它加了我的网站链接,我可以把它屏蔽吗?
被K的网站加你网站的链接,对你网站是没有太大影响的。通过robots.txt也没有办法屏蔽外部链接。
2、我的首页是index.html,我可以把index.php屏蔽吗?
理论上是没大问题,但为了安全起见,请不要屏蔽。不屏蔽是一定没事,但屏蔽了,可能存在隐患。
3、我不喜欢我网站的后台登陆地址被搜索引擎收录,同时也不希望放在robots.txt里被其他人知道。我怎么来屏蔽呢?
你可以在后台登陆地址的首页里,添加noindex标签。

4、如果我只是具体某一个页面不希望被收录,怎么办?
可以用robots.txt屏蔽这个页面,也可以用noindex标签在该页面里屏蔽这个页面。

5、有什么注意的经验?
1、首页文件尽量不要屏蔽。比如:index.html、index.php、Default.php,原因是,他的首页可能是index.asp,但通过以上这几个也能访问首页,于是,就想屏蔽了他们。这样的做法是不对的。首页,尽量都不要屏蔽。
2、如果网站上存在一些比较大的文件、比如:打包文件、大图片文件、音乐文件、或电影文件、日志文件夹等等,可以屏蔽掉,因为这些文件可能让你的流量过大,占用过多宽带

本文地址:http://www.brightmoonseo.com/basic/concept/51.html
关注我们:请关注一下我们的微信公众号:扫描二维码,公众号:明月网络营销
版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!
西安网站制作

发表评论


表情