最新消息: 新版网站上线了!!!

python 爬虫基础结构

一、爬虫调用程序

    对爬虫进行启动,停止,查看运行状况

二、爬虫核心

    1、URL地址管理器:包括已经爬去的地址和即将爬取得地址

    2、网页下载管理器:从URL管理中获取一个即将爬取的地址,通过此URL地址,下载代码,存储为字符串。

    3、网页解析器:通过存储的字符串,以及解析器中的规则获取有价值的数据,进行存储。同时解析出字符串中的URL,传递给URL管理器。如此可以形成URL地址管理器、网页下载管理器、网页解析器三者的循环。

三、获取有价值的数据进行存储


.....

转载请注明:谷谷点程序 » python 爬虫基础结构