爬虫在比价网站应用中的爬取频率如何设计

比照一淘等比价网站网页,除了价格外其它信息往往都是一样的,同时在各种电商大战中价格变动还很快,如何设定网页抓取频率以及判断网页库中的重爬问题,有了解的吗

mengmeng - 大数据工程师

赞同来自:

频率这个看自己的设备及业务需求,网页重爬问题,还是用哈希,url存哈希里

要回复问题请先登录注册