当前位置：网站首页 > SEO技术 > 正文

百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）

三石哥 2022-07-20 17:36:56 415

百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）

我们经常在网站日志中看到各种爬虫抓取记录，最常见的就是百度蜘蛛等搜索引擎，以百度为例，通常我们判断是否是百度蜘蛛抓取看用户代理字符串也就是User-Agent，但是User-Agent是可以模拟的，所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取，这时候我们就需要学会分辨真伪。

百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）

首先是百度User-Agent代理字符串，百度官方公布的有如下User-Agent：

移动UA：Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+

http://www.baidu.com/search/spider.html)

PC UA：Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html）

新增渲染UA:

移动UA：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +

http://www.baidu.com/search/spider.html)

PC UA：Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

需要注意的是百度新增了一个移动的User-Agent，和一个PC的User-Agent。我们知道了百度蜘蛛的User-Agent，如何正确识别和判断某条抓取是否是真实的百度蜘蛛。

如何识别百度蜘蛛

1、首选我们需要通过关键词找User-Agent中是否包含Baiduspider；

2、如果想区分移动和PC的蜘蛛的话，我们还需要在结果中再进行关键词过滤，移动端的User-Agent包含：Android 、iPhone、Mobile等三个中至少一个。

3、通过上述操作我们可以分辨出哪些抓取是百度蜘蛛抓取，但并不能分辨真伪。

判断百度蜘蛛真伪

1、验证百度蜘蛛真伪我们一般使用的是DNS反查IP的方式来进行判断，首选我们需要找到上述抓取记录中蜘蛛的IP。

百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）

百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）

2、以windows操作系统为例，开始运行中输入cmd 弹出窗口中输入 nslookup (上述IP地址)，判断百度蜘蛛的真伪，真是百度蜘蛛结果中会返回以*.baidu.com 或*.baidu.jp 的格式命名hostname，如不包含则为假百度蜘蛛。

3、也有在线百度蜘蛛真伪查询工具可直接查询。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 3561739510@qq.com 举报，一经查实，本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 - 8848SEO，本文标题：《百度蜘蛛抓取的主要特征模拟方法（如何正确认识百度蜘蛛）》

标签：百度蜘蛛 baiduspider 爬虫蜘蛛

上一篇：做网站需要投资多少钱（预算一个网站的费用有多少）
下一篇：百度蜘蛛特征（百度蜘蛛会自行比对抓取内容的重复性）

猜你喜欢

关于我

搜索

最新文章

热门文章

友情链接