网页抓取
网页抓取(英語:)是一种从网页上获取页面内容的计算机软件技术。通常透過软件使用低级别的超文本传输协议模仿人类的正常访问。
网页抓取和网页索引极其相似,其中网页索引指的是大多数搜索引擎采用使用的机器人或网络爬虫等技术。与此相反,网页抓取更侧重于转换网络上非结构化数据(常见的是HTML格式)成为能在一个中央数据库和电子表格中储存和分析的结构化数据。网页抓取也涉及到网络自动化,它利用计算机软件模拟了人的浏览。网页抓取的用途包括在线的价格比较,联系人抓取,气象数据监测,网页变化检测,科研,混搭和Web数据集成。
技术层面
网络抓取用于自动化获取万维网上的信息
- 人工复制与粘贴:最好的网页抓取技术也比不上人类的手工复制与粘贴,尤其是在某些网站采取技术手段禁止自动化网页抓取的情况下,人工的复制与粘贴就成了唯一的解决方案。
- 文本搜索与正则表达式:文本搜索并且配合正则表达式可以有效的从页面上提取需要的内容。在基于UNIX的系统上可以使用grep,在其他平台或其他编程语言(例如Perl,Python)中也有相应的命令或语法。
- 基于HTTP编程:无论是静态网页还是动态网页均可以通过发送HTTP请求给服务器来获得,所以可以通过直接进行socket编程来实现。
著名工具
- Apache Camel
- archive.is
- Automation Anywhere
- Convertigo
- cURL
- Data Toolbar
- Diffbot
- Firebug
- Greasemonkey
- Heritrix
- HtmlUnit
- HTTrack
- iMacros
- Import.io
- Jaxer
- Node.js
- nokogiri
- PhantomJS
- ScraperWiki
- Scrapy
- Selenium
- SimpleTest
- UiPath
- watir
- Wget
- Wireshark
- WSO2 Mashup Server
- Yahoo! Query Language (YQL)
参见
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.