数据分析面试题(2)

今天去某招聘网站的公司面试,面试官问:如何从海量简历数据中找到你的同学?我回答:“先搜索学校,然后选出同一年在那个学校读书的人。”这样回答对吗?貌似找到的是校友啊。
 
面试官问:如何判断这几个简历是同一个人。这个问题好像不是很难,有很多的维度相同可以判断出来。
 
面试官又问:如何获取其他招聘网站的资料?比如把某个招聘网站的数据用爬虫工具爬下来,然后怎么把多余的数据去掉,只留下有用的(即别人的简历信息)。做这个事情的难点是什么?

fish - Hadooper

赞同来自:

难点是不同的招聘网站可能网页结构不一样,针对不同的网页结构做不同的页面解析并从中获取到简历。 不同招聘站的简历信息组织形式也不一样,如果需要解析出不同站简历中的信息,也要针对不同的结构配好解析模板。

要回复问题请先登录注册