软件行业资讯

知乎哪个开源多线程爬虫比拟好学 (知乎哪个开源软件好)

  2024-07-28 23:29:25  427

本文目录导航：

哪个开源多线程爬虫比拟好学知乎
知乎问答系统是用什么言语开发的。用了什么开源的系统吗？
大家感觉知乎怎样样？

哪个开源多线程爬虫比拟好学知乎

开发网络爬虫应该选用Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其余的？这里依照我的阅历随意扯淡一下：下面说的爬虫，基本可以分3类：1.散布式爬虫单机爬虫：Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫：scrapy第一类：散布式爬虫爬虫经常使用散布式，重要是处置两个疑问：1）海量URL治理2）网速如今比拟盛行的散布式爬虫，是Apache的Nutch。

然而关于大少数用户来说，Nutch是这几类爬虫里，最不好的选用，理由如下：1）Nutch是为搜查引擎设计的爬虫，大少数用户是须要一个做精准数据爬取（精抽取）的爬虫。

Nutch运转的一套流程里，有三分之二是为了搜查引擎而设计的。

对精抽取没有太大的意义。

也就是说，用Nutch做数据抽取，会糜费很多的期间在不用要的计算上。

而且假设你试图经过对Nutch启动二次开发，来使得它实用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目一新，有修正Nutch的才干，真的不如自己从新写一个散布式爬虫框架了。

2）Nutch依赖hadoop运转，hadoop自身会消耗很多的期间。

假设集群机器数量较少，爬取速度反而不如单机爬虫快。

3）Nutch只管有一套插件机制，而且作为亮点宣传。

可以看到一些开源的Nutch插件，提供精抽取的性能。

然而开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。

应用反射的机制来加载和调用插件，使得程序的编写和调试都变得意外艰巨，更别说在下面开发一套复杂的精抽取系统了。

而且Nutch并没有为精抽取提供相应的插件挂载点。

Nutch的插件有只要五六个挂载点，而这五六个挂载点都是为了搜查引擎服务的，并没有为精抽取提供挂载点。

大少数Nutch的精抽取插件，都是挂载在“页面解析”（parser）这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜查引擎提供一些易抽取的网页消息（网页的meta消息、text文本）。

4）用Nutch启动爬虫的二次开发，爬虫的编写和调试所需的期间，往往是单机爬虫所需的十倍期间不止。

了解Nutch源码的学习老本很高，何况是要让一个团队的人都读懂Nutch源码。

调试环节中会产生除程序自身之外的各种疑问（hadoop的疑问、hbase的疑问）。

5）很多人说Nutch2有gora，可以耐久化数据到avro文件、hbase、mysql等。

很多人其实了解错了，这里说的耐久化数据，是指将URL消息（URL治理所须要的数据）寄存到avro、hbase、mysql。

并不是你要抽取的结构化数据。

其实对大少数人来说，URL消息存在哪里次要。

6）Nutch2的版本目前并不适宜开发。

官方如今稳固的Nutch版本是nutch2.2.1，然而这个版本绑定了gora-0.3。

假构想用hbase配合nutch（大少数人用nutch2就是为了用hbase），只能经常使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。

而且nutch2的官方教程比拟有误导作用，Nutch2的教程有两个，区分是Nutch1.x和Nutch2.x，这个Nutch2.x官方上写的是可以允许到hbase 0.94。

然而实践上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不时降级。

而且十分不稳固（不时在修正）。

所以，假设你不是要做搜查引擎，尽量不要选用Nutch作为爬虫。

有些团队就青睐跟风，非要选用Nutch来开发精抽取的爬虫，其实是冲着Nutch的名望（Nutch作者是Doug Cutting），当然最后的结果往往是名目延期成功。

假设你是要做搜查引擎，Nutch1.x是一个十分好的选用。

Nutch1.x和solr或许es配合，就可以导致一套十分弱小的搜查引擎了。

假设非要用Nutch2的话，倡导等到Nutch2.3颁布再看。

目前的Nutch2是一个十分不稳固的版本。

第二类：JAVA单机爬虫这里把JAVA爬虫独自分为一类，是由于JAVA在网络爬虫这块的生态圈是十分完善的。

相关的资料也是最全的。

这里或许有争议，我只是随意扯淡。

其实开源网络爬虫（框架）的开发十分繁难，难疑问和复杂的疑问都被以前的人处置了（比如DOM树解析和定位、字符集检测、海量URL去重），可以说是毫无技术含量。

包含Nutch，其实Nutch的技术难点是开发hadoop，自身代码十分繁难。

网络爬虫从某种意义来说，相似遍历本机的文件，查找文件中的消息。

没有任何难度可言。

之所以选用开源爬虫框架，就是为了省事。

比如爬虫的URL治理、线程池之类的模块，谁都能做，然而要做稳固也是须要一段期间的调试和修正的。

关于爬虫的性能来说。

用户比拟关心的疑问往往是：1）爬虫允许多线程么、爬虫能用代理么、爬虫会爬取反双数据么、爬虫能爬取JS生成的消息么？不允许多线程、不允许代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环口头http恳求。

能不能爬js生成的消息和爬虫自身没有太大相关。

爬虫重要是担任遍历网站和下载页面。

爬js生成的消息和网页消息抽取模块无关，往往须要经过模拟阅读器（htmlunit,selenium）来成功。

这些模拟阅读器，往往须要消耗很多的期间来处置一个页面。

所以一种战略就是，经常使用这些爬虫来遍历网站，遇到须要解析的页面，就将网页的相关消息提交给模拟阅读器，来成功JS生成消息的抽取。

2）爬虫可以爬取ajax消息么？网页上有一些异步加载的数据，爬取这些数据有两种方法：经常使用模拟阅读器（疑问1中形容过了），或许剖析ajax的http恳求，自己生成ajax恳求的url，失掉前往的数据。

假设是自己生成ajax恳求，经常使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL治感性能（比如断点爬取）。

假设我曾经可以生成我所须要的ajax恳求（列表），如何用这些爬虫来对这些恳求启动爬取？爬虫往往都是设计成广度遍历或许深度遍历的形式，去遍历静态或许灵活页面。

爬取ajax消息属于deep web（深网）的领域，只管大少数爬虫都不间接允许。

然而也可以经过一些方法来成功。

比如WebCollector经常使用广度遍从来遍历网站。

爬虫的第一轮爬取就是爬取种子汇合（seeds）中的一切url。

繁难来说，就是将生成的ajax恳求作为种子，放入爬虫。

用爬虫对这些种子，启动深度为1的广度遍历（自动就是广度遍历）。

3）爬虫怎样爬取要登陆的网站？这些开源爬虫都允许在爬取时指定cookies，模拟登陆重要是靠cookies。

至于cookies怎样失掉，不是爬虫管的事件。

你可以手动失掉、用http恳求模拟登陆或许用模拟阅读器智能登陆失掉cookie。

4）爬虫怎样抽取网页的消息？开源爬虫普通都聚集成网页抽取工具。

重要允许两种规范：CSS SELECTOR和XPATH。

至于哪个好，这里不评估。

5）爬虫怎样保留网页的消息？有一些爬虫，自带一个模块担任耐久化。

比如webmagic，有一个模块叫pipeline。

经过繁难地性能，可以将爬虫抽取到的消息，耐久化到文件、数据库等。

还有一些爬虫，并没有间接给用户提供数据耐久化的模块。

比如crawler4j和webcollector。

让用户自己在网页处置模块中增加提交数据库的操作。哪个开源多线程爬虫比拟好学

至于经常使用pipeline这种模块好不好，就和操作数据库经常使用ORM好不好这个疑问相似，取决于你的业务。

6）爬虫被网站封了怎样办？爬虫被网站封了，普通用多代理（随机代理）就可以处置。

然而这些开源爬虫普通没有间接允许随机代理的切换。

所以用户往往都须要自己将失掉的代理，放到一个全局数组中，自己写一个代理随机失掉（从数组中）的代码。

7）网页可以调用爬虫么？爬虫的调用是在Web的服务端调用的，往常怎样用就怎样用，这些爬虫都可以经常使用。

8）爬虫速度怎样样？单机开源爬虫的速度，基本都可以讲本机的网速用到极限。

爬虫的速度慢，往往是由于用户把线程数开少了、网速慢，或许在数据耐久化时，和数据库的交互速度慢。

而这些物品，往往都是用户的机器和二次开发的代码选择的。

这些开源爬虫的速度，都很可以。

9）明明代码写对了，爬不到数据，是不是爬虫有疑问，换个爬虫能处置么？假设代码写对了，又爬不到数据，换其余爬虫也是一样爬不到。

遇到这种状况，要么是网站把你封了，要么是你爬的数据是javascript生成的。

爬不到数据经过换爬虫是不能处置的。

10）哪个爬虫可以判别网站能否爬完、那个爬虫可以依据主题启动爬取？爬虫不可判别网站能否爬完，只能尽或许笼罩。

至于依据主题爬取，爬虫之后把内容爬上去才知道是什么主题。

所以普通都是整个爬上去，而后再去挑选内容。

假设嫌爬的太泛，可以经过限度URL正则等形式，来增加一下范围。

11）哪个爬虫的设计形式和构架比拟好？设计形式纯属扯淡。

说软件设计形式好的，都是软件开发完，而后总结出几个设计形式。

设计形式对软件开发没有指点性作用。

用设计形式来设计爬虫，只会使得爬虫的设计愈加臃肿。

至于构架，开源爬虫目前重要是细节的数据结构的设计，比如爬取线程池、义务队列，这些大家都能控制好。

爬虫的业务太繁难，谈不上什么构架。

所以关于JAVA开源爬虫，我感觉，随意找一个用的随手的就可以。

假设业务复杂，拿哪个爬虫来，都是要经过复杂的二次开发，才可以满足需求。

第三类：非JAVA单机爬虫在非JAVA言语编写的爬虫中，有很多低劣的爬虫。

这里独自提取进去作为一类，并不是针对爬虫自身的品质启动探讨，而是针对larbin、scrapy这类爬虫，对开发老本的影响。

先说python爬虫，python可以用30行代码，成功JAVA 50行代码干的义务。

python写代码确实快，然而在调试代码的阶段，python代码的调试往往会消耗远远多于编码阶段省下的期间。

经常使用python开发，要保障程序的正确性和稳固性，就须要写更多的测试模块。

当然假设爬取规模不大、爬取业务不复杂，经常使用scrapy这种爬虫也是蛮不错的，可以轻松成功爬取义务。

关于C++爬虫来说，学习老本会比拟大。

而且不能只计算一团体的学习老本，假设软件须要团队开发或许交接，那就是很多人的学习老本了。

软件的调试也不是那么容易。

还有一些ruby、php的爬虫，这里不多评估。

确实有一些十分小型的数据采集义务，用ruby或许php很繁难。

然而选用这些言语的开源爬虫，一方面要调研一下相关的生态圈，还有就是，这些开源爬虫或许会出一些你搜不到的BUG（用的人少、资料也少）

知乎问答系统是用什么言语开发的。用了什么开源的系统吗？

操作系统Linux，Web主机Nginx，开发言语Python，Tornado框架，数据库存储MySQL，缓存Memcached，ORM用SQLAlchemy，极速搜查Redis，Javascript框架Closure Library

大家感觉知乎怎样样？

以前的知乎会有很多大手很仔细回答，大家相互分享，是网络环环境里难得的一片净土。

如今用的人越来越多，参差不齐泥沙俱下，和网络贴吧也没什么不同，以前看知乎的回答会感觉长常识无心思，如今是打心底里恶心，这些人和网络贴吧的用户惟一的区别就是，用网络贴吧的时刻可以喷人就喷人，可一旦他们换上知乎，骂人之前得先思量一下：知乎里都是精英，我如今用的可是高端物品，高端人物，不能间接喷。

他们自夸文明人，我一看回答，不想谈话。

真的，很逗。

所以没什么好评估的，知乎会越来越平民化，大手也会逐渐分开知乎，这是相对的趋向。

其实不应该评估知乎，而是该评估评估如今的用户。

其实知乎公众化低俗化的趋向是肯定的，我小学毕业照样能注册能回答。

我二本大专照样也能注册能回答。

而且要知道精英毕竟是少数，俗人多了慢慢答案的品质和档次也上去了。

由于俗人有俗人的逻辑，雷同一个疑问，一个抖伶俐回答在俗人看来或许很幽默继而随手一赞，但他们看法不到“这个抖伶俐的答案对这个疑问有没有协助”，继而他们也就不会想到“这样的回答其实是对疑问自身和题主的不尊重”。

看似抖伶俐编故事秀逼格答案高赞，实则只是俗人少量涌入的体现之一。

其实， app只是件衣服，哪件盛行穿的人就多。

假设说品味，那只属于有门槛限度或许出名度低的app，这也是前几年用知乎的人品质高的要素。

随着出名度的提高，知乎终于成了爆款，很多疑问也随之而来，涌入的俗人们给它贴上各种标签，以此来标榜经常使用着它的自己的优越。

在这些涌入的俗人手里，知乎成了刷存在成功自我满足的工具，实质上这样的做法和网络喷子骂人的目标没有区别，雷同地他们都想表白：“我存在，我很低劣.”惟一的区别在于，喷子经过丑化他人，俗人们经过..“秀和丑化他人.” 所谓的知乎用户看不起网络知道，知乎看不起贴吧，看不起快手看不起抖音，以及惹起的各种互撕，其实看似几方统一，实质是同一类人互刷存在而已。

他们的动机也无非就是下面我说的那点儿物品。

总得来说知乎没什么好评估的，就像快手一样，它只是一个记载用户的工具，真正须要的评估的是人。

普通人和繁难的人。

文明和还未文明的人.其实，文明的含意并不是你领有多少，而是你能接受多少。

有一天，当一个乞丐接受你的施舍后站起身对你破口大骂时，你仍能报以浅笑，那就足够了。

那并不代表你有如许善良多宽容，而仅仅只是由于，你能分明地看透他的一切，而它只是一个乞丐，就像自己也只不过是一团体而已。

当你能够接受一切你厌恶的你推戴的一切，并坚持自己对这一切的看法时。

你就曾经走进了文明。

下一篇： OBS直播软件中文版V2001汉化不要钱版OBS直播软件中文版V2001汉化不要钱版性能简介 (obs直播软件)
上一篇： 开发者授权是什么意思 (开发者授权在哪里打开)

软件行业资讯

知乎哪个开源多线程爬虫比拟好学 (知乎哪个开源软件好)

本文目录导航：

哪个开源多线程爬虫比拟好学知乎

知乎问答系统是用什么言语开发的。用了什么开源的系统吗？

大家感觉知乎怎样样？

相关内容查看全部 

OPPO ColorOS 地

新能源车价格波动

中国稀土断供对日

2025全球开发者先

华东理工大学万年

揭秘世界上第一台

北京量子院与清华

大模型领域新动态

OPPO ColorOS 地

Spotify HiFi无损

知乎 哪个开源多线程爬虫比拟好学 (知乎哪个开源软件好)

本文目录导航：

哪个开源多线程爬虫比拟好学 知乎

知乎问答系统是用什么言语开发的。用了什么开源的系统吗？

大家感觉知乎怎样样？

相关内容 查看全部 

知乎哪个开源多线程爬虫比拟好学 (知乎哪个开源软件好)

哪个开源多线程爬虫比拟好学知乎

相关内容查看全部 