scrapy+selenium+phantomjs获取aqistudy.cn的历史数据不成功,获取京东的商品价格数据成功

试图用scrapy爬取以下网址的每日空气数据(这个实际上是python数据分析这门课第二讲的课间工程):
https://www.aqistudy.cn/histor ... ty%3D北海&month=2014-02 
发现网页数据是动态加载的,用scrapy爬取不到,于是自己查资料,用了scrapy+selenium+phantomjs的办法,结果发现爬取京东动态生成的商品价格没有问题,但是爬取上面那个链接的数据仍旧不成功,百思不得其解,求老师解答!
代码如下:
settings.py

settings.py.png

 
middlewares.py
 

midware.py.png

 
调试结果如下:
调试京东的商品页:

shelljd.com_.png

 
view(response)的结果:

jdview.png

 
调试https://www.aqistudy.cn/histor ... ty%3D北海&month=2014-02 :

shellAQI.png

view(response)的结果:

viewAQI.png

 

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish

qaistudy.cn的空气历史数据页面使用最基本的scrapy就可以获取到。比如这个页面 https://www.aqistudy.cn/historydata/monthdata.php?city=%E5%8C%97%E4%BA%AC 可以查看源码发现数据是已经加载的页面里了,不需要使用动态加载工具的中间件。 可以试试直接使用scrapy做。  

UKnow1

赞同来自:

老师,上课那会儿还能抓到,但是现在已经改版了,直接用scrapy绝对抓不到啊,您可以直接用scrapy然后shell一下试试,根本抓不到,QQ群里有好几个人都在问 https://www.aqistudy.cn/historydata/monthdata.php?city=北京 这个页面用f12是能看见数据的,但是直接右键-->查看源代码是没有数据的,table里面只有表头一行

o78456123

赞同来自:

确实是抓不到了,之前可以抓到的,selenium也抓不到吗?

要回复问题请先登录注册