关于文本内容提取的问题,请大神指教一下

需要提取的一段文本的部分关键内容如下,姓名:张三,性别:男,小学:北京市XX小学,中学:北京市XX中学,大学:北京市XX大学,手机号码:10086,工资:1万元,公司:北京市移动公司,住宿:北京市XX小区。
想要提取的内容分别是:张三,男,北京市XX小学,北京市XX中学,北京市XX大学,10086,1万元,北京市移动公司,北京市XX小区。
但是每个提取的内容之间有未知的内容,比如:姓名:张三,cwhduiwhda性别:男wfefewf,
 
请问有没有好的办法提取想要的内容

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

如果是“性别”这种,是方便做过滤的。但如果姓名后面跟着若干“无效”字符,或许不是很方便处理。

要回复问题请先登录注册