搜索引擎蜘蛛的作用(seo蜘蛛陷阱怎么防)
三石哥
2022-08-27 10:16:17
275
seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解。搜索引擎有哪些功能模块?它的工作原理是什么?搜索引擎蜘蛛抓取会受到哪些因素影响?
搜索引擎功能模块:
1,蜘蛛,即Spider,类似浏览器的程序,专门用来下载web页面
2,爬虫,即Crawler,用来自动跟踪所有页面中的链接
3,索引,即Indexer,专门用来分析蜘蛛和爬虫下载下来的web页面
4,数据库,存储下载的页面信息和处理过的页面信息
5,结果引擎,从数据库中抽取出搜索结果
6,Web服务器,用来处理用户的搜索交互请求的web服务器
百度蜘蛛类型
般我们根据百度蜘蛛的爬取特点,可以将其分为三类: 批量型Spider、增量型Spider和垂直型Spider.
1、批量型Spider
般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider 大都属于批量型Spider,般只抓取固定网站的固定内容,或者设置对某资源的固定目标数据量,当抓取的数据或者时间达到设置限制后会自动停止,这种Spider是很典型的批量型Spider.
2、增量型Spider
增量型Spider 也可以称之为通用爬虫。般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎般是不需要Spider的。增量型Spider和批量型Spider 不同,没有固定目标、范围和时间限制,般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider 不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚在定时间之后该页面会被删除,优秀的增量型Spider 需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google 网页搜索等全文搜索引擎的Spider,般都是增量型Spider.
3、垂直型Spider
垂直型Spider 也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,般都会聚焦在某个限制范围内进行增量型的抓取。此类型的Spider 不像增量型Spider样追求大而广的覆盖面,而是在增量型Spider 上增加个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能地进行准确分类,并且垂直型Spider 也不能像增量型Spider 那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么会利用增量型Spider 以站点为单位进行内容分类,然后再派出垂直型Spider 抓取符合自己内容要求的站点: 没有增量型Spider 作为基础的垂直搜索引擎,般会采用人工添加抓取站点的方式来引导垂直型Spider 作业。当然在同个站点内也会存在不同的内容,此时垂直型Spider 也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。
影响搜索引擎抓取的因素
1、抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。
2、用抓取返回码示意
简单介绍几种百度支持的返回码:
1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。
3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
3、取优先级调配
由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等
4、取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《搜索引擎蜘蛛的作用(seo蜘蛛陷阱怎么防)》
- 搜索
- 最新文章
- 热门文章
-
- SEO核心基础要素是什么?如何正确应用它们优化网站?
- 网站高质量内容更新技巧有哪些?如何保持内容的高质量更新?
- 搜索引擎的排名规则及算法是什么?如何优化以提高网站排名?
- 亲测seo优化实践推广方法汇总?如何有效提升网站排名?
- 中小企业如何通过SEO优化提升在线可见性?SEO优化对中小企业有哪些具体好处?
- 网络SEO优化外链建设的10个技巧(从内部和外部两个方面提升网站的链接品质)
- 停止SEO优化工作|停止SEO优化的理由与方法|SEO优化
- 网站优化实践步骤全解析(从0到1的实战指南)
- 四个法则助你网站的优化之路走的更远(学会SEO的关键技巧)
- 如何做好百度seo排名优化?基础步骤有哪些?
- 怎么才能把网站做出排名?SEO优化有哪些关键步骤?
- 如何提升网站的用户体验?提升网站用户体验的五个关键步骤是什么?
- 内部链优化(如何利用内部链接来增强网站主题和提升SEO排名)
- 如何利用百度索引分析关键词的真实热度?分析方法有哪些?
- 核心关键词如何优化?SEO优化的常见问题有哪些?
- 四个设计要点提高网站即时搜索可见性(打造高效可靠的即时搜索功能)
- SEO网站引擎优化基础是什么?如何有效实施?
- 网站SEO优化多久才能见效?如何加速优化效果?
- SEO怎么做才能有效提升网站排名?常见问题有哪些?
- 哪些负面的行为在影响你的网站?如何识别和解决这些问题?
- 热门tag