本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。
通过阅读本书,你将能够:
解析复杂的HTML页面
遍历多个网页和网站
了解API的基本概念和工作原理
学习存储数据的方法
下载、读取并抽取网络文档中的数据
使用工具和方法清洗格式异常的数据
读取并处理自然语言
越过表单和登录窗口采集数据
学习采集JavaScript的方法
学习图像处理和文字识别方法目录
1. Introduction to Web Scraping
2. Scraping the Data
3. Caching Downloads
4. Concurrent Downloading
5. Dynamic Content
6. Interacting with Forms
7. Solving CAPTCHA
8. Scrapy
9. Putting It All Together这里提供了Python网络数据采集2017 第二版官方英文版下载