当前位置:网站首页 > SEO教程 > 正文

robots.txt怎么设置(robots.txt的作用)

三石哥三石哥 2022-10-01 13:43:17 241

写好robots.txt文件必看的10个注意事项

提起robots.txt文件可能站长们并不陌生。

是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件。也是为了告诉搜索引擎,这个 网站的哪些页面是允许被访问和爬取的,哪些页面是不允许访问的。

robots.txt怎么设置(robots.txt的作用)

一、robots.txt文件有什么作用?

通过robots.txt文件,可以和各大搜索引擎很友好的对话,引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页,例如网站后台、会员交互功能等,这在一定程度上也节省服务器网络资源。

另外,robots.txt文件对SEO的意义也很重要,可以很好的避免重复、相似网页,以及一些关键字权重流失;写好robots.txt文件,是每个SEOer必做的功课之一。

二、robots.txt文件写法

robots.txt文件写法非常简单,通常以User-agent开始,包含一行或多行Disallow或Allow记录;在robots.txt文件中可以使用“#”进行注释,具体使用方法和PHP一样;另外,robots.txt文件支持*|$|?等通配符。

看个简单的例子:

# robots.txt文件怎么写?

User-agent: * #对所有搜索引擎Robot开放

Disallow: /abc #允许访问abc文件夹下的所有文件

Disallow: /wp-content/ #禁止访问wp-content目录下任何内容

Disallow: /*?* #禁止访问动态页面

Disallow: /*.php$ #禁止访问php文件

Disallow: /*.css$ #禁止访问css

robots.txt怎么设置(robots.txt的作用)

三、robots.txt文件10个注意事项

01

robots.txt文件名必须全部小写,不要为追求个性写成RoboTs.txt等形式;并且只能放在网站根目录下面。

02

网站未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。

03

要检查robots.txt文件是否达到了预期的效果,可以通过枫树SEO网站长工具中的robots检测工具测试。

04

一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow;Allow默认搜索引擎是会抓取你网站所有内容的。

05

robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。

06

在robots.txt中至少要有一条Disallow,如果都允许收录,则写: Disallow: 如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。

07

允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。

08

有几个禁止,就得有几个Disallow函数,并分行描述。

09

不要使用 robots.txt 文件禁掉敏感数据(比如用户数据)

10

网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。

robots.txt怎么设置(robots.txt的作用)

以上就是robots.txt文件配置和使用方法详解了,掌握了这些也许可以让你的SEO技术再升一级!有关robots.txt文件的写法、用法,如果还有什么疑问,也可以到枫树圈子积极讨论。

robots.txt写法大全(网站优化人员必看!)

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,想要网站被收录,必须要些robots.txt

准备一个域名,空间。域名就是大家所谓的网址,空间就是这个网站所存储的地方。

那么怎么样能不让搜索引擎抓取呢?又怎么能让搜索引擎抓取呢?那么就要说下Disallow和Allow这两个命令的用法了。首先User-agent是代表搜索引擎能否抓取页面的开始。下面就是Disallow和Allow的选择了。详细的写法如下

robots.txt文件用法举例:

1. 允许所有的robot访问

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7. 使用”*”限制访问url

禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

8. 使用”$”限制访问url

仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

9. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

通常的robots写法就是上面的10种了,如果还有其他写法,后续会给大家详细的介绍

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《robots.txt怎么设置(robots.txt的作用)》

标签:

关于我

关注微信送SEO教程

搜索
最新文章
热门文章
热门tag
抖音优化提升网站排名百度SEO优化网站优化提高网站排名抖音小店SEO优化SEO优化技巧网站SEO优化网站排名seo优化seo网站优化关键词优化百度SEO排名小红书关键词排名seoSEO优化排名搜索引擎优化
友情链接