正则表达式

麻烦老师详细讲解以下第二句话    filter_pattern = re.compile('[^\u4E00-\u9FD5]+')
    chinese_only = filter_pattern.sub('', raw_line)
我理解:第一句就是生成匹配中文字符的正则表达式,但对于第二句理解不了。在网上搜索发现re.sub是一个替换函数,但代码中sub的第一个参数是空格,第二个参数是提取到的文本,而最终的结果是去掉非中文字符,将剩余的字符连接起来,对此不是很明白,特别是第一个参数‘’的意义,按理不是用空格替换掉该文本吗?

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish

在这里是将中文全部连接到一起,然后做分词,所以没有用空格。比如:   "今天,天气很不错" -> "今天天气很不错"   然后对“今天天气很不错”进行分词操作。

要回复问题请先登录注册