发布信息

爬虫底线:链接背后的网页不待见!

作者:软荐小编      2023-09-15 01:05:47     197

爬虫软件能干什么_爬虫软件干嘛用_爬虫软件推荐

获取到链接标签后,我就可以进一步抓取链接后面的网页了。 如此重复,用不了多久,我就能爬取一个网站所有暴露的内容了。

其实我们作为爬行动物还是有底线的。 在我们的工作中,有一个既定的规则,那就是机器人合同。

只要你在网站根目录下放置一个叫robots.txt的文件,并且上面写着严禁访问任何目录,我就绕道走,像这样:

用户代理:*

禁止:/a/

禁止:/b/

禁止:/c/

就像程序员经常互相讨厌一样,我们的爬虫圈子里也存在着厌恶链。

地位最高的是搜索引擎爬虫。 他们光明正大地爬行,每个网站都希望在欢迎他们之前被搜索引擎收录,从而为网站带来流量。 这些爬行动物是这个行业的掠食者爬虫软件干嘛用,我们不能得罪它们。

爬虫软件推荐_爬虫软件能干什么_爬虫软件干嘛用

此外,还有一些爬虫。 有的不遵守机器人合同,随意爬行。 有的整天爬行爬取女孩的图片,搞垮别人的服务器。 我们也讨厌这些爬虫。

对于我这样一个诚实的爬虫来说,每天的工作就是从一些网站上爬取数据,比如购物网站、评论网站等,其实我们是遵守规则的,但是这种网站还是不喜欢我们。 为了拿到数据,我们展开了一场持久战。

爬虫软件能干什么_爬虫软件干嘛用_爬虫软件推荐

反爬虫技术

现在很多网站都在云上,云上的资源非常昂贵。 CPU、内存和存储都很昂贵,尤其是网络带宽。 价格确实很贵。

爬虫软件推荐_爬虫软件能干什么_爬虫软件干嘛用

这些网站不喜欢我们这样的爬虫,这是可以理解的。 与搜索引擎爬虫不同,我们可以给他们带来好处。 相反,我们会消耗他们的服务器性能,花费他们宝贵的流量,这就是人民币的浪费。 ,谁不心痛呢?

所以那些网站就增加了一个功能:一旦HTTP请求中的user-agent数组发现这是一个爬虫,那么就忽略我们。

该用户代理是一个表示 HTTP 合约中的客户端名称的数组。 那时我刚刚进入这个行业,经验很少,而且不懂得伪装,所以很容易被发现。

为了继续爬取数据,我不得不改变自己的外表,冒充浏览器的名字。 圈内有些兄弟还冒充搜索引擎爬虫的名字。 我不像他们那样离线。

这一招奏效后不久,那些网站就升级了策略,利用我们的行为来识别是否是真正的浏览器。 我们其实就是程序,速度比人的点击快很多。 一旦网站发现我们在短时间内发起了很多请求,就会切断连接。

我不得不增加抓取的频率,以防止被列入黑名单。

有些网站就比较狠,在网页上插入一些假图片。 它们只有几个像素。 它们是人耳看不见的,我们也不知道。 对我来说,他们都是

标签,我一访问就掉进陷阱了! 立即列入黑名单。

没办法,我只好想办法改变IP地址,重新开始登山。 实在是难以忍受。

据说,圈内一些大佬已经利用分布式技术,组团攀爬。 IP 地址有很多,您不必担心其中一个或多个 IP 地址被屏蔽。 我真的很羡慕。

前后端分离

在我的职业生涯中,我遇到过一些奇怪的网站。 网页中显然有数据,但我访问它时收到的 HTML 中没有任何内容。 这让我很生气。

后来我才知道他们采用了一种叫做前后端分离开发的技术。 数据不再从服务器渲染到 HTML 网页,而是由浏览器通过单独的 API 套接字接收,然后动态加载。 为什么我得到了它? 到达的只是一个空壳。

爬虫软件推荐_爬虫软件能干什么_爬虫软件干嘛用

为了获取数据,我不得不学会请求那些数据套接字爬虫软件干嘛用,但是因为那些网站有API网段,他们会检测请求的Token或Authorization等认证数组,而我不知道他们的套接字参数。 格式化,经常取不到数据。

这三年来,我收到的网页的HTML变得越来越简单。 浏览器里丰富多彩的页面,我看源码,只有简单的几行。 实在是太奇怪了!

三天后,一位专家告诉我,单页应用SPA现在很流行。 所有页面都是在后端动态生成的,收到的HTML没有任何价值。

爬虫软件推荐_爬虫软件干嘛用_爬虫软件能干什么

这简直太骗人了!

我没有停下来,决定买一个真正的浏览器。 这个内置浏览器没有界面,是为我服务而设计的。 它嵌入到我的程序中并允许它实际渲染网页。 渲染完成后,我去获取数据!

这是对人类访问网站的真实模拟。 我不再需要模拟复杂的数据套接字访问,也不必害怕单页应用程序。 后端渲染就是后端渲染。 我不再害怕了!

验证码

后来不知道是谁发明的,但是网站纷纷使用了一种叫做验证码的技术,这让我们陷入了两难的境地。

最初的验证码比较简单,通常由简单的数字和经过一些修改的英文字符组成,如下所示:

爬虫软件能干什么_爬虫软件推荐_爬虫软件干嘛用

很快就有圈内大佬教我们使用文字识别技术OCR来手动识别这些验证码。 我也费了一番功夫,经过一番努力,终于能够认出他们了。 我不能说准确率是100%,但仍然是99%。

但没过多久,验证码就变得越来越复杂。 汉字识别、物体识别、滑动解锁都比上一个困难。 这超出了我的理解范围。 看下面的验证码。 这是由人类完成的。 一些有关?

爬虫软件干嘛用_爬虫软件推荐_爬虫软件能干什么

嘿嘿,这真是只有人类才能做到的事,我们爬虫类做不到啊~

现在,那些网站的反爬虫技术越来越先进,我们可以发挥的空间正在被一步步挤压。

前段时间,一个愚蠢的绿色爬虫使一家公司的服务器崩溃,停止了正常业务。 他甚至被捕了。 现在监管越来越严,让人感到担心。

内忧外患不断,不少爬虫兄弟失业,有的转行。 爬行动物变得越来越难吃。 。 。

相关内容 查看全部