条件随机场进行中文词性标注的编码步骤的疑问

使用条件随机场进行中文词性标注时,
编码过程有点晕,有些疑问, 如下是我的理解,不知道对不对,请纠正下? 
另外还有两个疑问!
一. 梯度下降计算Wj时,图中的y' 和 y'' 表示的是全部可能的词性标注序列 还是 当前的词性序列 ???
                                   看公式推导,感觉是全部可能的词性序列。
                                   如果是全部的词性序列,恐怕无法枚举吧!!
二. 该条件随机场是有监督,还是无监督学习?
     上课时,在计算Wj时,提到了有监督。
     仅仅是在计算Wj这一步时,是在已知某个y下进行的,仅仅这一个步骤是有监督。
三. 编码步骤感觉如下:
1. 概念的理解 :
   x : 某样本,就是经过分词后的具体的某段文章
       (注意:文章需要先进行分词)
       例如:中国 最 活跃 、最  专业的  Hadoop  培训  ,  大数据  在线  教育  平台
   y : 每个样本词的词性标记。
       例如:"中国"标记为名词,"最"标记为形容词,"活跃"标记为形容词
   Fj(x,y):整个x样本在某个特征j上的取值,就等于各个位置的词在该特征上的取值的和。
               下图的 i 表示每个位置的词,就死全部词运用该特征函数进行求和。
               
1484107075934.png


2. 步骤0初始化:
   (1).先对样本x进行分词
   (2).为分词后的每个词随机分配一个词性,这样就初始化了一个词性序列y
   (3).选择一些特征函数Fj(x,y):每个特征函数j的取值只能是1或者0.
   (4).为每个特征函数Fj(x,y)初始化权重Wj : Wj的取值为 (0,1)
3. 步骤1更新权重Wj:这里需要使用已知的词性序列y
                                使用极大似然估计,进行求导,并使用梯度下降,
                                得到当前y下,各个特征Fj(x,y)的最好的权重Wj
   
    下图中的y' 和 y'' 表示的是全部的词性标注序列 还是 当前的词性序列 ???
                              如果是全部的词性序列,恐怕无法枚举吧!!
1484107225312.png
 

4. 步骤2得到最优序列y*: 得到当前W下,最好的状态序列y*
   使用前向算法得到最优的y*
  
1484107764363.png


5. 再不停地迭代,反复执行:步骤1(已知y,更新Wj), 步骤2(已知Wj,得到最优的y*)
   直到收敛(一般执行很多次就可以停止了)。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

首先感谢对咱们《机器学习》课程的“条件随机场”部分做了很好的总结和分步。 对于题目中的问题回答如下: 1、梯度下降计算Wj时,图中的y' 和 y'' 表示的是全部可能的词性标注序列 还是 当前的词性序列 ? 答:这里的y'并不需要枚举X^n所有情形,这也是不可能的;但这里需要枚举样本中出现的那些情况。——只有这些情况的概率p(y|x;w)才是不为0的。 2、条件随机场是有监督,还是无监督学习? 答:为了训练参数w,必须已知标记y(如词性),因此,CRF是有监督学习。

要回复问题请先登录注册