一、爬虫调用程序
对爬虫进行启动,停止,查看运行状况
二、爬虫核心
1、URL地址管理器:包括已经爬去的地址和即将爬取得地址
2、网页下载管理器:从URL管理中获取一个即将爬取的地址,通过此URL地址,下载代码,存储为字符串。
3、网页解析器:通过存储的字符串,以及解析器中的规则获取有价值的数据,进行存储。同时解析出字符串中的URL,传递给URL管理器。如此可以形成URL地址管理器、网页下载管理器、网页解析器三者的循环。
三、获取有价值的数据进行存储
转载请注明:谷谷点程序 » python 爬虫基础结构