python 爬虫基础结构 - python scrapy模块

一、爬虫调用程序

对爬虫进行启动，停止，查看运行状况

二、爬虫核心

1、URL地址管理器：包括已经爬去的地址和即将爬取得地址

2、网页下载管理器：从URL管理中获取一个即将爬取的地址，通过此URL地址，下载代码，存储为字符串。

3、网页解析器：通过存储的字符串，以及解析器中的规则获取有价值的数据，进行存储。同时解析出字符串中的URL，传递给URL管理器。如此可以形成URL地址管理器、网页下载管理器、网页解析器三者的循环。

三、获取有价值的数据进行存储

.....