《精通Scrapy网络爬虫》深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。《精通Scrapy网络爬虫》共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。
《精通Scrapy网络爬虫》案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。
第1章 初识Scrapy 1
第2章 编写Spider 12
第3章 使用Selector提取数据 23
第4章 使用Item封装数据 41
第5章 使用Item Pipeline处理数据 48
第6章 使用LinkExtractor提取链接 58
第7章 使用Exporter导出数据 66
第8章 项目练习 75
第9章 下载文件和图片 89
第10章 模拟登录 110
第11章 爬取动态页面 136
第12章 存入数据库 155
第13章 使用HTTP代理 174
第14章 分布式爬取 199