程序员导航-媒帮派

  • 百度
  • Google
  • 头条
  • 知乎
  • github
  • 站内
更多
特别推荐 智能写作 软文营销

pyspider 强大的爬虫系统

  • 别名:introduction-pyspider
  • 特性: 🇨🇦CA加拿大
  • 分类: 开源推荐
  • 热度:341
  • 更新:2022-05-20 02:00:01
  • 注意:国外网站,有时会打不开或者很慢

详细介绍

由国人 binux 大神开发,GitHub Star 数超过 15 K,足以证明它的知名度。可以说,学习爬虫不能不会使用这个框架。

网上关于这个框架的介绍和实操案例非常多,这里仅简单介绍一下。

我们之前的爬虫都是在 Sublime 、PyCharm 这种 IDE 窗口中执行的,整个爬取过程可以说是处在黑箱中,内部运行的些细节并不太清楚。而 pyspider 一大亮点就在于提供了一个可视化的 WebUI 界面,能够清楚地查看爬虫的运行情况。

点击查看大图

pyspider 的架构主要分为 Scheduler(调度器)、Fetcher(抓取器)、Processer(处理器)三个部分。Monitor(监控器)对整个爬取过程进行监控,Result Worker(结果处理器)处理最后抓取的结果。

该框架比较容易上手,网页右边是代码区,先定义类(Class)然后在里面添加爬虫的各种方法(也可以称为函数),运行的过程会在左上方显示,左下方则是输出结果的区域。

Python中强大的蜘蛛(网络爬虫)系统。

A Powerful Spider(Web Crawler) System in Python.

标签:

非特殊说明,本文版权归原作者所有,转载请注明出处
本文地址:http://code.meibp.com/367.html

评论

wechat

媒帮派

可直接搜工具的公众号

微信号:MeiBP_com

联系客服

程序员客服

联系客服