杨真

杨真

威望 : 25 赞同 : 27 感谢 : 5

擅长话题

更多 »回复

0

if in 是用来判断是不是已经下载过了,如果True就是是的,那么continue就不再处理这个url

0

我曾经尝试过反编译APK文件,然后找里面关于网络协议、网络通信的代码,同时加密有可能用.so这样的库,通过JNI本地方法来让本地库加密,这样的话需要把这些反编译的代码都提取出来,加入到自己的APP里 这个比较复杂,在这里的问答上可能不容易回答清楚

0

试试看强制关机然后开机呢?或者看看你的virtualbox的设置,把虚拟化这些关闭掉

0

微信的抓取比较复杂,我在网上查了有两种方式,一种是通过搜狗,另一种是设置代理,通过代理来获取 我没具体试过,下一次课我可以考虑把微信的抓取内容放进来,如果有更新我联系你

0

lxml webdriver urllib2 pymongo mysql-connector mysql beautifulsoup4 bitarray hdfs jieba redis

0

有可能你返回的页面不一样,你试试看把网页保存下来,同时看看 save_screenshot 是什么情况   另外,url 用 weibo.com ,不要带后面的login

0

知乎一直是爬虫的重灾区 如果遇到了验证码,尤其是你显示的那种情况,几乎很难搞定   有可能是你访问太频繁被识别出来了 一般的建议,如果是家里网络,重新链接后IP会换,然后减慢爬取的速度   另外phatomjs 的 header 里要记得修改 user-age...

0

这是典型的ajax异步获取数据的请求 通过chrome能看到有大量的后续 ajax 请求,来获取数据   比如这个请求,就是获取网页新闻的标题及链接 http://roll.news.qq.com/interface/roll.php?0.8473608115...

0

以搜索特斯拉为例   http://www.autohome.com.cn/2357/undefinednbsp;   注意看,TAG 的正文就是真实的URL,你通过正则或者 xpath 都能解析

0

客户端不仅仅协议是私有的,而且往往数据还会加密   所以我们当时处理客户端的时候,下载 ipa 或者 APK,反编译,分析出其中网络通信部分的代码,这些代码经常还可能用到本地的库 xxx.so  来执行加解密,所以需要把整个这部分的代码抓出来,编译到自己的项目...

0

上课的时候有提到,HEADER 里的 HOST 需要手动设置上去,比如 xxxx.amazon.com,不设置的话,IP 会被当成 HOST,然后到了服务端没法解析 virtual host

0

pygoose 可以等爬虫把url抓取下来后,通过文本的方式来解析 我建议这样做,而不是直接传入url

0

scrapy 不是可以启动多个spider吗?每个spider负责抓一个网站,这应该是推荐的做法   你有 generate spider 吗?   scrapy crawl 命令只是开始执行那个爬虫,先要 scrapy startproject tuortu...

0

IP 池是指的什么?对方服务器不同线路的服务器IP吗?   如果被封了,减慢速度。即使有IP池,每个IP单位时间访问也一般会有限制的

1

您好,你给的代码看起来并没有问题   header 要保存下来 请求的方法是 GET,参数可以用 字典然后 urllib.urlencode 的方式转换为 GET 方法的请求参数   请问你具体问题是什么呢?

0

你好,微信公众号的抓取,我参考了一下网上的文章,大致两种思路,第一是直接从 weixin.sougou.com 抓取,这种的缺陷是数量有限;第二种是获取key之后,模拟客户端直接抓取,这需求了解一些破解的知识,关于这一点,麻烦在网上找一些资料照着做,第一种方式...

0

显然是在磁盘里存储的,因为这些HASH值可能被反复用,需要持久化 此外这么大量的数据也不可能常驻内存 我们提出的思路,都是对HASH值建立存储区块,顺序写在磁盘上的

0

没有遇到过,你能把代码片段粘贴出来吗?我运行可靠

0

这个需要二维码登录吗?给我的链接没看到二维码登录的地方   二维码登录没处理过,最好的办法是先登录,把cookie存下来,直接用。我没试过也没想出来怎么可以直接实现二维码登录

更多 »发问

没有内容

更多 »动态

发问

回复

文章

最新动态

我的交易

类型 时间 数额 支付方式 状态 描述

提现记录

时间 金额 卡号 银行 持卡人 手续费 状态 描述

审核记录

时间 类型 状态 描述
更多 » 关注 13

邹博 admin ChinaHadoop hello_world 木舟

更多 » 40 人关注

admin wangchenftb 三七 张亚荣89m Janzen

关注 1 话题
主页访问量 : 2379 次访问