Scrapy

Scrapy/ˈskrpi/ SKRAY-pee[2]是一个用Python编写的自由且开源网络爬虫框架。它在设计上的初衷是用于爬取网络数据,但也可用作使用API来提取数据,或作为生成目的的网络爬虫[3]。该框架目前由网络抓取的开发与服务公司Scrapinghub公司维护。

Scrapy
開發者Scrapinghub, Ltd.
首次发布2008年6月26日 (2008-06-26)
当前版本
  • 2.11.1 (2024年2月14日;穩定版本)[1]
源代码库
编程语言Python
操作系统WindowsmacOSLinux
类型网络爬虫
许可协议BSD许可证
网站scrapy.org 编辑维基数据

Scrapy项目围绕“蜘蛛”(spiders)建构,蜘蛛是提供一套指令的自包含的爬网程序(crawlers)。遵循其他如Django框架的一次且仅一次精神[4],允许开发者重用代码将便于构建和拓展大型的爬网项目。Scrapy也提供一个爬网shell,开发者可用它测试对网站的效果。[5]

使用Scrapy的知名公司和产品有:Lyst[6][7]Parse.ly[8]Sayone Technologies[9]Sciences Po Medialab[10]Data.gov.uk的世界政府数据网站[11]等。

历史

Scrapy诞生于网络聚合和电子商务公司Mydeco,它由Mydeco和Insophia公司的员工开发和维护。2008年8月首次以BSD许可证公开发布,2015年6月发布有里程碑意义的1.0版本[12]。2011年,Scrapinghub成为新的官方维护者[13][14]

参考文献

  1. . 2024年2月14日 [2024年2月20日].
  2. How do you pronounce "Scrapy"? 页面存档备份,存于
  3. Scrapy at a glance 页面存档备份,存于.
  4. . [28 July 2015]. (原始内容存档于2020-11-11).
  5. . [28 July 2015]. (原始内容存档于2020-10-31).
  6. Bell, Eddie; Heusser, Jonathan. . [28 July 2015]. (原始内容存档于2016-10-09).
  7. . [2020-12-08]. (原始内容存档于2020-11-12).
  8. Montalenti, Andrew. . [2020-12-08]. (原始内容存档于2020-09-19).
  9. . Scrapy website. [2020-12-08]. (原始内容存档于2020-11-12).
  10. . [2020-12-08]. (原始内容存档于2016-06-13).
  11. Ben Firshman [@bfirsh]. (推文). 21 January 2010 Twitter.
  12. Medina, Julia. . scrapy-users (邮件列表). 19 June 2015 [2018-09-13]. (原始内容存档于2011-01-22).
  13. Pablo Hoffman. . 2013 [18 November 2013]. (原始内容存档于2017-05-29).
  14. Interview Scraping Hub 页面存档备份,存于.

外部链接

参见

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.