1.SpringMVC执行流程及源码分析
SpringMVC主要是围绕DispatcherServlet设计的,可以作为指挥中心。 这里我们首先解释一下SpringMVC文档中给出的执行流程,然后是我们稍微具体一点的执行流程,最后是该流程的粗略源码跟踪。
2.使用Vue2和Yii2进行前后端分离开发
本文介绍了使用Vue2单页面程序作为前端,使用Yii2构建后端提供API,进行前后端分离开发的入门知识。 本文适合 Vue2 和 Yii2 爱好者。 完成本教程预计需要 30 分钟。
3.SSM(十一)基于dubbo的分布式架构
如今,越来越多的互联网公司为自己公司的项目提供服务。 这确实是未来项目发展的一个趋势。 此时,我们可以依靠之前的SSM项目,让刚接触它的同学能够快速上手。
独家翻译
4. 从 Python 转向 Go 语言的五个理由
Python非常强大,尤其是Python3具有异步能力,但是GO将完全取代它在大型企业中的存在......
5. 软件复杂性:命名的艺术
写好东西是很难的。 为什么? 因为只要写得好,你就会有很好的阅读体验。 我们倾向于关注前者而忽略后者。 我们忘记了代码是写一次但读多次的。
码云推荐
1.强大的Java爬虫
2、方便二次开发的爬虫框架
3.分布式爬虫系统
4、Go语言实现的高性能爬虫
5. Node.js爬虫系统
6.人脸识别爬虫
7. PornHub爬虫,全球最大的成人网站
1.强大的Java爬虫Spiderman
项目简介:Spiderman是一个Java开源Web数据提取工具。 它能够收集指定的网页并从这些页面中提取有用的数据。
Spiderman主要使用XPath、正则表达式等技术来提取数据。
主要特征:
- 微内核+插件架构,灵活可扩展
- 无需编写程序代码即可完成数据提取
- 多线程保证性能
2.Webmagic,方便二次开发的爬虫框架
项目简介:webmagic是一个无需配置、易于二次开发的爬虫框架。 它提供了简单灵活的API,只需要少量的代码就可以实现爬虫。
主要特征:
- 核心简单,灵活性高。
- 用于 HTML 提取的简单 API。
- 使用POJO进行注解来定制爬虫,无需配置。
- 多线程和分发支持。
- 易于集成
3.分布式爬虫系统YayCrawler
项目简介:分布式爬虫系统,使用简单,配置高级。 可扩展,减少开发工作量网络爬虫软件教程,可docker化,适应各种迫切需求。 核心框架:WebMagic、Spring Boot、MongoDB、ActiveMQ、Spring + Quartz、Spring Jpa、Druid、Redis、Ehcache、SLF4J、Log4j2、Bootstrap + Jquery等。
4、Go语言实现的高性能爬虫DenseSpider
项目简介:Go语言实现的高性能爬虫,基于go_spider开发。 实现了单机并发采集、深度遍历、自定义深度级别等功能。
基本结构:
- Spider模块(主控)
- 下载器模块(下载器)
- PageProcesser模块(页面分析)
- 历史记录(URL收集历史记录)
- 调度程序模块(任务队列)
- 管道模块(结果输出)
主要特点:
- 基于Go语言的并发采集
- 页面下载、分析、持久化模块化,可定制扩展
- 收集日志记录(Mongodb支持)
- 页面数据的自定义存储(Mysql、Mongodb)
- 具有可定制深度级别的深度遍历
- Xpath解析
5.Node.js爬虫系统neocrawler
项目简介:NEOCrawler(中文名:牛卡)是一个由nodejs、redis、phantomjs实现的爬虫系统。 代码完全开源,适合垂直领域的数据采集和爬虫二次开发。
特征:
- 支持通过Web界面配置提取规则(css选择器和正则表达式);
- 包含无界面浏览器引擎(phantomjs)网络爬虫软件教程,支持捕获js生成的内容;