dedecms系统专业robots.txt参考模板和详细的设置方法教程

原创 明月SEO  2017-07-08 11:02  阅读 705 次

网络上有一大部分的人想要一份现成的robots.txt模板。还有很多人需要DEDECMS系统下的robots.txt文件的设置书写方法和教程!所以明月SEO干脆整理出一份经典的模板,然后在给出具体的解说和设置方法教程。

网上主流的 robots.txt参考模板和详细的设置方法教程无非是WordPress网站和dedecms网站系统的,其中WordPress网站的在以前已经详细的讲过:WordPress网站robots.txt文件写法的参考案例与模板 。本文明月SEO主要讲解DEDECMS系统下的robots.txt文件的设置书写方法和教程

一.DEDECMS系统下的robots.txt文件模板

1.官方通用版:

User-agent: *

Disallow: /data/

Disallow: /dede/

Disallow: /images/

Disallow: /include/

Disallow: /plus/

Disallow: /special/

Disallow: /templets/

Disallow: /uploads/

Sitemap: http://www.brightmoonseo.com/sitemap.xml

2.结合自己的网站定制版:

User-agent: * 
Disallow: /data/
Disallow: /images/
Disallow: /include/
Disallow: /plus/
Disallow: /w*n/
Disallow: /phpMyAdmin/
Disallow: /templets/
Disallow: /uploads/
Disallow: /*?*
DEDECMS系统的robots.txt文件设置方法

二.DEDECMS系统下的robots.txt文件的设置书写方法和教程

1.设置步骤

第一步:新建robots.txt文件( 此处命名必须为robots.txt,小写 )

第二步:复制上面讲到的robots.txt模板代码到robots.txt文件

第三步:robots.txt模板文档,上传到自己网站的根目录。

这样就完了,设置的步骤很简单,主要在于设置的细节

2.详细的设置书写方法

当蜘蛛来到你网站的时候,他会首先抓取robots,然后才知道哪些可以抓,哪些不可以抓,所以我们要先给他看到可以抓的,然后才告诉他哪些不能抓

User-agent: *  允许所有蜘蛛来网站中抓起文件

Allow: /a/  织梦默认html文件生成位置,建议吧所有文件都生成在这问文件夹里,当你网站结构发生变化的时候,方便吧html全部删掉,然后重新生成一变,不然以前生成的文件不会删除,然后同一个页面就会出现两次在不同的文件夹里面,这样不利于蜘蛛的抓取。

Allow: /data/sitemap.html 织梦默认生成的网站地图 因为这个文件夹是被屏蔽了的,所以这里要单独写出来

Allow: /data/rssmap.html  织梦默认生成的rss地图 同上

Allow: /plus/flink.php  织梦默认生成的友情链接

以上三个文件是必须要蜘蛛抓取的

Disallow: /list_*_1.html$ 织梦在生成栏目文件夹得时候,会默认生成index.html,但是在这个目录下还会生成一个list_*_1.html的列表第一页的文件,所以我们要把所有的列表第一个页面禁止蜘蛛抓取,不然两个相同的页面对于收录是有很大影响的。

Disallow: /data/ 系统缓存或其它可写入数据存放目录,也是数据备份文件的存放地,所以一般这个文件夹是没有必要给蜘蛛抓取的

Disallow: /images/ 系统默认模板图片存放目录,完全可以静止抓取,因为对你网站一点用处都没有

Disallow: /include/  dede程序核心文件目录,

Disallow: /plus/  系统和安装的插件及辅助功能目录 ,没有特殊情况,建议禁止

Disallow: /templets/  默认模板存放目录,也没必要公开

Disallow: /uploads/ 上传下载文件保存目录,一般都是图片,如果不是做图片站的话,就禁止吧,因为蜘蛛也看不懂图片里面到底是什么

Disallow: /index.php  默认首页文件,如果有做html静态化的话,就可以直接屏蔽掉

Disallow: /tags.php   标签文件,也可以屏蔽掉

Disallow: /dede 管理后台目录,需要改名,具体设置后面具体讲

Disallow: /member 会员管理目录,有些文件可以开放,但是如果你网站没有开启会员功能,就可以直接删除这个文件夹

Disallow: /404.html   如果你有做404页面,也是可以直接屏蔽的,因为这个页面对优化没有什么用处,

Allow: /plus/search.php 开放禁止目录里的具体文件

...

基本设置就是这样,下面着重讲下后台管理目录和栏目页的设置:

1.dede目录,为了网站安全着想,根据自己的情况进行改名。改成一个你自己能记住的目录名字(英文)都行,但是这个目录还是需要用robots.txt屏蔽掉的,大家不免疑惑了:在robots.txt里面应该怎么设置呢?如果是直接禁止抓取,还是泄露了后台目录,改名所给网站带来的安全就无效了。那么我们就用通配符*来解决这个问题。比如我们网站后台目录改名为zixue66,那么我们就可以通过下面的方法开解决这个问题:

Disallow: /z*6  只保留文件的第一个字母和最后一个字母就行,或者只用*代替一部分字母都是可以的

这样设置我们即禁止了搜索引擎的抓取,又不会泄露了后台目录名称。保证了网站的安全

2.栏目页。有些站长会发现,如果网站没有做伪静态优化的话,栏目分页后会有两个链接指向栏目首页,如*/web/和*/web/list_1_1.html,其实*/web/是默认的index.html文件,他和目录第一页是完全一样的,为了网站的优化,建议先将栏目分页优化以下(具体做法大家可以在网上找),把首页和第一页的链接改为*/web/的形式,然后在robots.txt文件里做以下设置:

Disallow: /list_*_1.html$ 这样设置就不会造成两个页面一致的情况了,

我在写这篇文章之前,有看见网上有人这么设置的Disallow: /*1.html$,如果这样设置,那么在你文章页个位带1的是不是都被屏蔽掉了,比如说*/web/71.html。这点请大家注意

以上就是织梦dedecms robots.txt文件的设置方法,大家可以根据自己的情况开进行优化设置。

注意事项:

1.按官方说明设置好目录权限;这个权限你可以联系你的空间商帮你完成。

2.网站后台目录改名后的开头字母和结尾字母不要和其他目录一样,否则其他目录会被一起屏蔽掉

3.用百度站长工具测试一下robots.txt文件设置是否有效。

4.推荐阅读:网站SEO必会的robots设置


																								
						
本文地址:http://www.brightmoonseo.com/basic/link/1086.html
关注我们:请关注一下我们的微信公众号:扫描二维码,公众号:明月网络营销
版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!
西安网站制作

发表评论


表情