java爬虫框架有哪些(搜索引擎的一般检索技术有哪些)
三石哥 2022-11-15 15:28:15 209
利于搜索引擎抓取的网站框架有哪些
很多网站在上线初期,就会对网站整体框架以及后期如何对网站进行维护优化做好了规划,网站的后期维护是一件长远的工作,但是网站整体框架结构是需要尽早完成的,网站上必须要拥有哪些框架才符合搜索引擎的抓取呢?
1.网站导航栏
导航栏,可以清楚的让用户选择想要进入的栏目,浏览的内容。从另一方面来讲,网站导航栏可以很好的将网站首页与栏目相互连接起来,增加网站页面之间的相关性,增加链接入口。
2.轮播图
轮播图的作用非常强大,主要有两个作用,一个是促进转化率,另一个是促进页面收录,只需要简单的对轮播图进行alt设置,与网站核心关键词相匹配,便可以很好的产生价值,也可以为营销活动、专题页面、新产品及新服务等提供入口。
3.文章动态更新版块
网站首页有新闻动态更新板块,并经常持续的更新,才会让搜索引擎认为这个是一个活着的网站,有新鲜的内容,以供搜索引擎抓取,供用户观看。
4.友情链接板块
友情链接的作用一个是可以作为一个很好的外链,为自己来带其它网站过来的蜘蛛进行抓取,另一方面可以添加一些高权重的友情链接,带动自己网站关键词的整体排名。
框架之力——主流的爬虫框架有哪些
正文
一、目前的主流java爬虫框架包括
Python中有Scrapy、Pyspider;
Java中有Nutch,WebMagic,WebCollector,heritrix3,Crawler4j
这些框架有哪些优缺点?
(1)、Scrapy:
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。
优点:
1.极其灵活的定制化爬取。
2.社区人数比较多、文档比较完善。
3.URL去重采用布隆过滤器方案。
4.可以处理不完整的HTML,Scrapy已经提供了selectors(一个在lxml的基础上提供了更高级的接口),
可以高效地处理不完整的HTML代码。
缺点:
1.对新学员不友好,需要一定新手期
(2)、Pyspider:
pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
优点:
1.支持分布式部署。
2.完全可视化,对用户非常友好:WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出。
3.简单,五分钟就能上手。脚本规则简单,开发效率高。支持抓取JavaScript的页面。
总之,Pyspider非常强大,强大到更像一个产品而不是一个框架。
缺点:
1.URL去重使用数据库而不是布隆过滤器,亿级存储的db io将导致效率急剧降低。
2.使用上的人性化牺牲了灵活度,定制化能力降低。
(3)Apache Nutch(高大上)
Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫,Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的.
Nutch这个框架运行需要Hadoop,Hadoop需要开集群,对于想要快速入门爬虫的我是望而却步了......
一些资源地址列在这里,说不定以后会学习呢。
Apache顶级项目列表
Nutch官网
Nutch官方教程
1.Nutch支持分布式抓取,并有Hadoop支持,可以进行多机分布抓取,存储和索引。另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展,正是由于有此框架,使得 Nutch 的插件开发非常容易,第三方的插件也层出不穷,极大的增强了 Nutch 的功能和声誉。
缺点
1.Nutch的爬虫定制能力比较弱
(4)、WebMagic
WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
优点:
1.简单的API,可快速上手
2.模块化的结构,可轻松扩展
3.提供多线程和分布式支持
缺点:
1.不支持JS页面抓取
(5)、WebCollector
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
优点:
1.基于文本密度的网页正文自动抽取
2.支持断点重爬
3.支持代理
缺点:
1.不支持分布式,只能单机
2.无URL优先级调度
3.活跃度不高
(6)、Heritrix3
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源
优点
Heritrix的爬虫定制参数多
缺点
1.单实例的爬虫,之间不能进行合作。
2.在有限的机器资源的情况下,却要复杂的操作。
3.只有官方支持,仅仅在Linux上进行了测试。
4.每个爬虫是单独进行工作的,没有对更新进行修订。
5.在硬件和系统失败时,恢复能力很差。
6.很少的时间用来优化性能。
7.相对于Nutch,Heritrix仅仅只是一个爬虫工具,没有提供搜索引擎。如果要对抓取的站点排序必须要实现类似于Pagerank的复杂算法。
(7)、Crawler4j
Crawler4j是一款基于Java的轻量级单机开源爬虫框架
优点
1.多线程采集
2.内置了Url 过滤机制,采用的是BerkeleyDB 进行url的过滤。
3.可扩展为支持结构化提取网页字段,可作为垂直采集用
缺点
1.不支持动态网页抓取,例如网页的ajax部分
2.不支持分布式采集,可以考虑将其作为分布式爬虫的一部分,客户端采集部分
为了更加直观这7种爬虫框架,小编做了一个框架优缺点对比图,如下:
- Jsoup(经典·适合静态网友)
这个框架堪称经典,也是我们暑期实训老师讲解的框架。有近乎完整的文档介绍。
和HtmlUnit同样,只能get到静态内容。
不过,这个框架有个有个优点,具有很强大的解析网页的功能。
Jsoup中文教程
- selenium(Google多名大佬参与开发)
感觉很厉害,实际真的很厉害,看官网以及其他人的介绍,说是真正模拟浏览器。GitHub1.4w+star,你没看错,上万了。但是我硬是没配好环境。入门Demo就是没法运行成功,所以就放弃了。
selenium 官方GitHub
- cdp4j(方便快捷,但是需要依赖谷歌浏览器)
使用前提:
安装Chrome浏览器,即可。
简单介绍:
HtmlUnit的优点在于,可以方便的爬取静态网友;缺点在于,只能爬取静态网页。
selenium的优点在于,可以爬取渲染后的网页;缺点在于,需要配环境变量等等。
将二者整合,取长补短,就有了cdp4j。
之所以选用它,是因为真的方便好用,而且官方文档详细,Demo程序基本都能跑起来,类名起的见名知意。想当年学软件工程的时候,一直在纳闷,为什么要写文档啊,我程序能实现功能不就得了?现如今,看着如此详实的文档,留下了激动而又悔恨的泪水......
cdp4j有很多功能:
a. 获得渲染后的网页源码
b. 模拟浏览器点击事件
c. 下载网页上可以下载的文件
d. 对网页进行截屏或转PDF打印
e. 等等
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《java爬虫框架有哪些(搜索引擎的一般检索技术有哪些)》
标签:
- 上一篇: 网站排名与什么有关(网站排名上不去的原因)
- 下一篇: 如何评价一个网站的质量等级(网页搜索质量评测)
- 搜索
- 最新文章
- 热门文章
-
- 快手小店退店流程是怎样的?退店后可以取消吗?
- 抖音橱窗商品如何开通?步骤和要求是什么?
- 抖音直播商品橱窗开通步骤是什么?常见问题有哪些?
- 抖音蓝v认证600元是否可以退还?退款流程是怎样的?
- 快手违规处置措施有哪些?违规后账号会受到哪些影响?
- 快手电商保健食品类目商品发布规范是什么?如何确保合规上架?
- 360近几年的算法有哪些变化?这些变化对SEO有何影响?
- 如何判断自己的小红书内容是否上了热门?上热门的标准是什么?
- 快手账号违反规定被封禁后多久可以解封?解封流程是什么?
- 如何打造出抖音高流量爆款标题文案?高流量标题有哪些特点?
- 谷歌图片识别如何使用?轻松查找图片的秘诀是什么?
- 抖音账号如何定位?定位策略有哪些?
- 抖音小黄车一个月能赚多少佣金?如何提高收益?
- 抖音直播收入需要交税吗?直播收入的税务政策是怎样的?
- 快手商家拉黑后资金如何处理?退款流程是怎样的?
- 抖音音浪收入怎么算?如何计算抖音音浪的收益?
- 如何让短视频火起来?掌握这些技巧让你的视频更受欢迎
- 快手38悦己季主播幸运挑战赛是什么?挑战赛有哪些规则?
- SEO如何学习才能成为高手?成为SEO高手需要掌握哪些技能?
- 网站文章标题书写有哪些注意事项?标题书写对SEO有何影响?
- 热门tag