一、Scrapy Splash
Scrapy Splash需要结合docker
docker只支持Linux
windows环境下
windows7 + Docker ToolBox + Scrapy Splash
windows10 + 原生的Docker + Scrapy Splash
原生的Docker :系统要求,Windows10x64位,支持Hyper-V
下面以windows7 + Docker ToolBox + Scrapy Splash环境为实例说明
1、win7系统安装Docker Toolbox
Windows 7/8.1可以使用 Docker Toolbox 在Windows运行Docker。
Docker ToolBox通过国外下载困难,推荐国内下载地址如下
http://get.daocloud.io/#install-docker-for-mac-windows
Scrapy-Splash的安装
Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具,安装分为两部分。一个是Splash服务的安装,通过Docker安装,安装之后,会启动一个Splash服务,我们可以通过它的接口来实现JavaScript页面的加载。另一个是Scrapy-Splash的Python库的安装,安装之后即可在Scrapy中使用Splash服务。
通过Docker安装Splah
首先要确保Docker已启动,
键入docker run -p 8050:8050 scrapinghub/splash,下载时间比较长,也可以使用国内的镜像源,docker run -p 8050:8050 scrapinghub/splash --registry-mirror=http://hub-mirror.c.163.com,这里使用了网易的镜像,直接设置--registry-mirror参数,仅对当前的命令有效。
安装完成
下面就是启动Splash
docker run -p 8050:8050 scrapinghub/splash
你会看到以下的图示内容
这个时候,打开你的浏览器,输入192.168.99.100:8050你会看到出现了这样的界面。
在搜索框中输入动态网页的网址,点击Render me!开始解析页面(测试一下Scrapy)
最后一步安装安装scrapy-splash
在win7 的cmd命令中执行如下命令安装scrapy-splash
pip install scrapy-splash
转载请注明:谷谷点程序 » win7 python scarpy抓取动态页面Scrapy Splash,Docker ToolBox