当前位置：网站首页 > SEO技术 > 正文

了解到底百度蜘蛛是怎样抓取网站内容的

访客 2021-05-18 11:03:35 545

最近一直在看关于SEO技术相关的资料，很好奇百度蜘蛛是怎样抓取网站内容的?

了解到底百度蜘蛛是怎样抓取网站内容的

百度蜘蛛是怎样抓取网站内容的?两步，教你正确识别百度蜘蛛

1、查看UA，如果UA都不对，可以直接判断非百度搜索的蜘蛛，目前对外公布过的UA是：

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA：Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

2、反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：

1)、在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

2)、在windows平台或者IBM OS/2平台下，您可以使用nslookup ip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

了解到底百度蜘蛛是怎样抓取网站内容的

3)、在mac os平台下，您可以使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

百度蜘蛛是怎样抓取网站内容的?百度蜘蛛对文章的抓取规则有哪些?

1、发表文章的转载与引证次数

文章想要被搜索引擎蜘蛛认可，首先需要文章被用户认可，即文章被转载与引证的次数。文章被转载和印证相当于网站的外链，是用户对内容的必定，自然而然也添加了查找引擎对网站的友好度

2、文章标题与网站内容的相关性

标题是网站的点睛之笔，好的标题能吸引用户，但切忌做标题党，不然即便用户点击进来，也只能添加跳出率，形成不良的用户体会。如果一篇文章的跳出率过高，自然也会增加搜索引擎的反感。

3、文章标题和内容的唯一性

蜘蛛来到网站进行抓取，首先看的是网页的头部信息，若是蜘蛛发现有和索引库中一样的标题，则食欲就大减。文章的内容应具有唯一性，站内不要有太多的相同内容，站外相同也需求有唯一性。

4、锚文字链接数量与外部链接

搜索引擎蜘蛛对网站的抓取，是顺着链接进行爬行，合理的內链不但能引导蜘蛛匍匐，还能引导用户检查更多的网页。外链的数量则影响着对应文章在查找成果中的排名，外链既导权又起了推行效果。

5、网站内容本身的质量

一篇好的软文，需要内容的层次独立，并且和主题的相关性及关键字的密度紧密相连。软文不同于通常的写作，它更注重的是用户体会，除了内容的实用性，需注意文章的排版，阶段层次分明。切忌为了添加关键字的.密度而堆积关键字。

了解到底百度蜘蛛是怎样抓取网站内容的