请选择 进入手机版 | 继续访问电脑版
点击联系客服
客服QQ:509006671 客服微信:mengfeiseo
查看: 80|回复: 50

干货|条件随机场详细模型文章

[复制链接]

1

主题

1

帖子

-7

积分

限制会员

积分
-7
发表于 2021-4-8 21:39:07 | 显示全部楼层 |阅读模式
干货 | 条件随机场详解之模型篇

余梁机器学习算法与python学习

条件随机场部分分为两个部分。今天,本文简要介绍了什么是条件随机场,之前的概率无向图模型,以及如何在优化算法级别优化这个问题。(理解这句话需要一些数学统计和图论的基础。)

国家随机场(CRF)是判别概率图模型。条件随机字段是给定随机变量X条件下随机变量Y的马尔可夫随机字段。原则上,可以任意指定条件随机字段的图形模型布局,但更常见的是定义线性链的特殊条件随机字段(线性链条件随机字段)。因为无论是训练、推理还是解码,都有更有效的算法。

CRF是一种概率无向度模型,它结合了2001年John  D. Lafferty等人提出的最大熵模型和隐藏马尔可夫模型(生成型模型)的特点。它经常用于顺序标记、词性标记、语义分析等自然语言处理问题(如分词、词性标记)和命名实体识别(Named  Entity  Recognition)操作。常见的序列分类问题经常使用隐藏的马尔可夫模型(HMM),但隐藏的马尔可夫模型有两个假设:输出独立假说和马尔可夫假说。其中,输出独立性假定序列数据必须严格独立,以确保派生的准确性,但实际上,大多数序列数据不能表示为一系列独立事件。条件随机场利用具有表达远距离依赖和重叠特性能力的概率图模型,可以更好地解决尺寸(分类)偏移等问题,并且可以对所有功能进行全局规范化,从而获得整体最优的解决方案。

概率无向图模型

条件随机场在给定的输入随机变量条件集中,而其他输出随机变量的条件概率分布模型的特点是假设输出随机变量构成马尔可夫随机场。因此,本节首先介绍马尔可夫随机场,即概率无向图模型。

概率无向图模型定义

插图是由节点和连接节点的边缘组成的集合。节点和边分别用V和E记录,节点和边的集合分别用V和E记录,图中用G=(V,E)记录。无向度意味着图片的边缘没有方向。

概率图模型是由图表示的概率分布。有共同概率分布P(Y),YY是任意变量集。无向图G=(V,E)表示概率分布P(Y)。也就是说,在图G中,节点VV代表随机变量Yv,Y=(YV)VV。边缘EE表示随机变量之间的概率依赖关系。

给出了联合概率分布P(Y)和表示它的无向度G。首先定义无向度表达的随机变量之间存在的马尔科夫性对、局部马尔科夫性和整体马尔科夫性。概率无向图模型的定义:有组合概率分布P(Y),用无向图G=(V,E)表示。在图G中,节点代表随机变量,边缘代表随机变量之间的依赖关系。如果耦合概率分布P(Y)满足对、局部或全局马尔科夫性,则该耦合概率分布称为概率无向图模型或马尔可夫随机场模型。

概率无向图模型的因子分解

组和最大组:无向图G的两个节点都有边连接的节点子集称为组。如果C是无向图G的组,并且不能再添加G的节点(称为更大的组),则C称为最大组。

概率无向图模型的组合概率分布由最大组中任意变量的函数乘积表示的任务称为概率无向图模型的系数分解。给定概率模型,放弃无向度表示G,C表示G的最大组,Yc表示C的随机变量。然后,概率无向图模型的联合概率分布P(Y)可以写出图中所有最大组中函数的乘积形式。





其中,z是正则化系数,提供如下:





正则化因子保证P(Y)构成概率分布。其中要求函数严格为正数,通常定义为指数函数。
0,type_ZmFuZ3poZW5naGVpdGk=" alt="干货 | 条件随机场详解之模型篇" />
条件随机场
一般的条件随机场定义:设X与Y是随机变量,P(X|Y)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由 G=(V,E)表示的马尔科夫随机场,即
P(Yv|X,Yw,w≠v) = P(Yv|Yw,w-v),对任意的节点v成立,则称条件概率分布P(Y|X)为条件随机场。式中w—v表示在图G中与结点v有变连接的所有节点w,w≠v表示节点v以外的所有结点,Yv,Yu与Yw为结点v,u,与w对应的随机变量。在定义中并没有要求X与Y具有相同的结构。但是在实际中,一般假设X和Y具有相同的图结构。


下面主要介绍一种特殊的条件随机场模型,即无向图为如图1所示的线性链的情况。即G=(V={1,2,…,n}, E={(i,i+1)}), i=1,2,…,n-1.在此情况下,X=(X1,X2,…,Xn) , Y=(Y1,Y2,…,Yn),最大团是相邻两个结点的集合。线性链条件随机场有下面的定义。

线性链条件随机场:
设X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔科夫性P(Yi|X,Y1,…,Yi-1,Yi+1,…,Yn)=P(Yi|X,Yi-1,Yi+1), i=1,2,…n,(在i=1和n时只考虑单边)。则称P(Y|X)为线性链条件随机场。在标注问题中,X表示输入观测序列,Y表示对应的输出标记序列或状态序列。

参数化形式
设P(Y|X)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率具有如下的形式:

其中

式中,tk和sl是特征函数,λk和μl是对应的权值。Z(X)是规范因子,求和是在所有可能的输出序列上进行的。上面的两个式子是线性链条件随机场模型的基本形式,表示给定输入序列x,对输出序列y预测的条件率。tk是定义在边上的特征函数,称为转移特征。依赖于当前和前一个位置。sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1和0;当满足特征条件时取值为1,否则为0.条件随机场完全由特征函数tk,sl和对应的权值λk和μl确定。线性链条件随机场也是对数线性模型。
条件随机场的对数模型可以做相应的简化,以使它的形式看起来比较简洁。设有K1个转移特征,K2个状态特征,K=K1+K2,记

然后对转移与状态特征在各个位置i求和,记作:


用wk表示特征fk(y,x)的权值,即

于是条件随机场可以表示为:

其中

若以w表示权值向量,即

F(y,x)表示全局特征向量,即

则,条件随机场可以写成向量w与F(y,x)的内积形式:

其中,

为了以后计算方便,下面将给出条件随机场的矩阵形式。引入特殊的起点和y0=start,yn-1=stop,这时pw(y|x)可以通过矩阵形式表示。对于观测序列x的每一个位置i=1,2,…,n+1,定义一个m阶矩阵(m是标记yi取值的个数)。

这样,给定观测序列x,标记序列y的非规范化概率可以通过n+1个矩阵的乘积表示,于是,条件概率Pw(y|x)是

其中
回复

使用道具 举报

1

主题

195

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2021-4-8 21:39:15 | 显示全部楼层
难得一见的好帖
回复

使用道具 举报

0

主题

195

帖子

41

积分

新手上路

Rank: 1

积分
41
发表于 2021-4-8 21:59:25 | 显示全部楼层
相当不错,感谢无私分享精神!
回复

使用道具 举报

1

主题

177

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2021-4-8 22:19:45 | 显示全部楼层
路过,支持一下啦
回复

使用道具 举报

0

主题

190

帖子

-2

积分

限制会员

积分
-2
发表于 2021-4-8 22:39:49 | 显示全部楼层
相当不错,感谢无私分享精神!
回复

使用道具 举报

0

主题

191

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2021-4-8 22:59:57 | 显示全部楼层
不错,支持下楼主
回复

使用道具 举报

1

主题

189

帖子

-33

积分

限制会员

积分
-33
发表于 2021-4-8 23:20:10 | 显示全部楼层
过来看看的
回复

使用道具 举报

0

主题

175

帖子

22

积分

新手上路

Rank: 1

积分
22
发表于 2021-4-8 23:40:33 | 显示全部楼层
沙发!沙发!
回复

使用道具 举报

0

主题

190

帖子

31

积分

新手上路

Rank: 1

积分
31
发表于 2021-4-9 06:00:53 | 显示全部楼层
谢谢楼主,共同发展
回复

使用道具 举报

0

主题

182

帖子

30

积分

新手上路

Rank: 1

积分
30
发表于 2021-4-9 06:20:57 | 显示全部楼层
路过,学习下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|无图版|手机版|小黑屋|汕头@IT精英团

Powered by Discuz! X3.4 © 2021 Comsenz Inc.

GMT+8, 2021-4-24 02:01 , Processed in 0.078799 second(s), 19 queries .

快速回复 返回顶部 返回列表