`

【文本分类】 特征抽取之χ2统计量

阅读更多

全文转载:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html

作者:Jasper

 

 

大家应该还记得,开方检验(χ2,又称Chi-square) 其实是数理统计中一种常用的检验两个变量独立性的方法。

开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

那么用什么来衡量偏差程度呢?假设理论值为E,实际值为x,如果仅仅使用所有样本的观察值与理论值的差值x-E之和
                                                    
来衡量,单个的观察值还好说,当有多个观察值x1,x2,x3的时候,很可能x1-E,x2-E,x3-E的值有正有负,因而互相抵消,使得最终的结果看上好像偏差为0,但实际上每个都有偏差,而且都还不小!此时很直接的想法便是使用方差代替均值,这样就解决了正负抵消的问题,即使用
                                                       
这时又引来了新的问题,对于500的均值来说,相差5其实是很小的(相差1%),而对20的均值来说,5相当于25%的差异,这是使用方差也无法体现的。因此应该考虑改进上面的式子,让均值的大小不影响我们对差异程度的判断

                                                          (1)

上面这个式子已经相当好了。实际上这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x1,x2,……xi ,……xn之后,代入到式(1)中就可以求得开方值,用这个值与事先设定的阈值比较,如果大于阈值(即偏差很大),就认为原假设不成立,反之则认为原假设成立。

在文本分类问题的特征选择阶段,我们主要关心一个词t(一个随机变量)与一个类别c(另一个随机变量)之间是否相互独立?如果独立,就可以说词t对类别c完全没有表征作用,即我们根本无法根据t出现与否来判断一篇文档是否属于c这个分类。但与最普通的开方检验不同,我们不需要设定阈值,因为很难说词t和类别c关联到什么程度才算是有表征作用,我们只想借用这个方法来选出一些最最相关的即可。

此时我们仍然需要明白对特征选择来说原假设是什么,因为计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的。我们能不能把原假设定为“词t与类别c相关“?原则上说当然可以,这也是一个健全的民主主义社会赋予每个公民的权利,但此时你会发现根本不知道此时的理论值该是多少!你会把自己绕进死胡同。所以我们一般都使用”词t与类别c不相关“来做原假设。选择的过程也变成了为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。

好,原理有了,该来个例子说说到底怎么算了。

比如说现在有N篇文档,其中有M篇是关于体育的,我们想考察一个词“篮球”与类别“体育”之间的相关性(任谁都看得出来两者很相关,但很遗憾,我们是智慧生物,计算机不是,它一点也看不出来,想让它认识到这一点,只能让它算算看)。我们有四个观察值可以使用:

1.         包含“篮球”且属于“体育”类别的文档数,命名为A

2.         包含“篮球”但不属于“体育”类别的文档数,命名为B

3.         不包含“篮球”但却属于“体育”类别的文档数,命名为C

4.         既不包含“篮球”也不属于“体育”类别的文档数,命名为D

用下面的表格更清晰:


如果有些特点你没看出来,那我说一说,首先,A+B+C+D=N。其次,A+C的意思其实就是说“属于体育类的文章数量”,因此,它就等于M,同时,B+D就等于N-M。

好,那么理论值是什么呢?以包含“篮球”且属于“体育”类别的文档数为例。如果原假设是成立的,即“篮球”和体育类文章没什么关联性,那么在所有的文章中, “篮球”这个词都应该是等概率出现,而不管文章是不是体育类的。这个概率具体是多少,我们并不知道,但他应该体现在观察结果中(就好比抛硬币的概率是二分之一,可以通过观察多次抛的结果来大致确定),因此我们可以说这个概率接近 (A+B)/N

 

(因为A+B是包含“篮球”的文章数,除以总文档数就是“篮球”出现的概率,当然,这里认为在一篇文章中出现即可,而不管出现了几次)而属于体育类的文章数为A+C,在这些个文档中,应该有 En=(A+C)(A+B)/N 篇包含“篮球”这个词(数量乘以概率嘛)。

此时对这种情况下实际值与理论值的偏差程度就可以使用最开始的公式(1),即开方检验使用的差值衡量公式。
                                                     

同样,我们还可以计算剩下三种情况的差值D12,D21,D22。有了所有观察值的差值,就可以计算“篮球”与“体育”类文章的开方值 χ2(篮球,体育)=D11+D12+D21+D22 把D11,D12,D21,D22的值分别代入并化简,可以得到

    
词t与类别c的开方值更一般的形式可以写成
(2)

接下来我们就可以计算其他词如“排球”,“产品”,“银行”等等与体育类别的开方值,然后根据大小来排序,选择我们需要的最大的数个词汇作为特征项就可以了。

实际上式(2)还可以进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则N,M,N-M(即A+C和B+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们从式(2)中去掉是完全可以的,故实际计算的时候我们都使用

                         (3)

好啦,并不高深对不对?

针对英文纯文本的实验结果表明:作为特征选择方法时,开方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果);文档频率方法的性能同前两者大体相当,术语强度方法性能一般;互信息方法的性能最差。

但开方检验也并非就十全十美了。回头想想A和B的值是怎么得出来的,它统计文档中是否出现词t,却不管t在该文档中出现了几次,这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷“。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

好啦,关于开方检验先说这么多,有机会还将介绍其他的特征选择算法。

附:给精通统计学的同学多说几句,式(1)实际上是对连续型的随机变量的差值计算公式,而我们这里统计的“文档数量“显然是离散的数值(全是整数),因此真正在统计学中计算的时候,是有修正过程的,但这种修正仍然是只影响具体的开方值,而不影响大小的顺序,故文本分类中不做这种修正。

分享到:
评论
1 楼 十一文 2010-09-25  
天天关注博主,可是天天都有些弄不懂。
后悔大学没好好学数学特别是概率论数理统计。


不知道博主能不能共享些基本的文本分类资料给我?

相关推荐

    中文文本分类中特征抽取方法的比较研究.pdf

    益 IG、 互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不...

    论文研究-基于动词名词和CHI特征选择的中文人物社会关系抽取.pdf

    为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法(CHI)相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM分类器进行...

    论文研究-一种基于PCA的组合特征提取文本分类方法.pdf

    为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)...

    WordFeature文本分类器

    实现的功能 ...开方(χ2) 方法:衡量特征与类别的独立性 信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。 三、文本分类。 分类快速。 能对单个文件、目录、文件列表进行分类。

    天创χ2卡方检验计算器v14.11.0.6

    天创χ2卡方检验计算器是为χ2检验量身打造的一款软件,想必从事计算统计工作的朋友应该知道χ2检验应用非常的广泛,但是步骤非常的繁琐,而这款软件能够大大减少繁琐的步骤。功能包括: 1.配对设计的四格表或行X...

    论文研究-基于联合提取特征的粗糙集文本分类技术研究.pdf

    重点研究了文本的特征提取,通过对互信息和χ2统计的研究,根据其各自的缺陷,提出了一种新的特征提取算法——联合特征提取算法(CEFA)。通过CEFA可以提取出更具代表性的特征项,利用粗糙集优越的约减性构造文本...

    观测e + e-→γχc1并在Belle附近10.6 GeV处搜索e + e-→γχc0,γχc2和γηc

    使用在质量中心能量10.52、10.58和10.867 GeV处在KEKB非对称能量e + e-撞机处通过Belle检测器收集的数据样本89.5 fb-1、711.0 fb-1和121.4 fb-1, 我们分别研究了排他反应e + e-→γχcJ(J = 0,1,2)和e + e-→γ...

    基于动词名词和CHI特征选择的中文人物社会关系抽取

    为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法( CHI) 相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM 分类器进行...

    观测衰变χcJ→ϕϕη

    使用北京电子正对撞机(BEPCII)的BESIII检测器收集的(448.1±2.9)×106ψ(3686)衰减数据样本,我们观察到了衰减χcJ→ϕ... 我们还在ϕϕ或ηϕ子系统中搜索中间状态,但由于统计量有限,因此未发现任何重要结构。

    论文研究-知识库中的概念网络构造研究.pdf

    针对χ2统计方法的两个缺陷:降低了低频词的权重和提高了很少在指定类中出现但普遍存在于其他类的特征在该类中的权重,对χ2统计方法进行改进,并通过做模拟和对比实验,对比改进前后的方法对文本分类的影响。...

    基于改进χ2统计的数据离散化算法 (2012年)

    在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2...

    质疑分布函数的χ2检验方法

    质疑分布函数的χ2检验方法,江育奇,,在各类统计学书籍中,我们经常看到要检验一个样本的频数分布是否在理论上服从某个已知概率分布的问题,解决这类问题最常用的方法

    在s = 4.600 GeV处观察e + e-→ϕχc1和ϕχc2

    使用在BEPCII存储环上运行的BESIII检测器收集的数据样本,其质心能量为s = 4.600 GeV,我们搜索e + e-→ϕχc0,1,2的产生。 还搜索辐射跃迁e + e-→γX(4140)中的charm状态X(4140),其中X(4140)随后衰减为ϕJ ...

    χb1(3P)和χb2(3P)的观察及其质量测量

    使用CERN LHC CMS实验收集的质子-质子碰撞事件样本,通过sample(3S)γ衰变观察到χb1(3P)和χb2(3P)状态。 数据是在13 TeV的质心能量处收集的,对应于80.0 fb-1的综合光度。 di(3S)介子通过其Dimuon衰减通道...

    探索Υ(6S)→χbJϕ和Υ(6S)→χbJω隐底强子跃迁

    在这项工作中,我们调查了ron(6S)→χbJω(J = 0,1,2)跃迁的强子环对contributions(6S)→χbJϕ(J = 0,1,2)的贡献。 我们预测Υ(6S)→χb0ϕ,Υ(6S)→χb1ϕ和Υ(6S)→χb2ϕ的分支比为(0.68–4.62...

    Z玻色子衰减到χc(χb)的下一阶QCD校正

    此外,包括CO的贡献将彻底改变关于Γχc1/Γχc0,Γχc2/Γχc0,Γχb1/Γχb0和Γχb2/Γχb0之比的CS预测,这可以被视为区分CO和CS机制的出色探针。 总结所有χc和χb的馈电贡献,我们发现Γ(Z→J /ψ+ X)|χ...

    OZI抑制的衰变χcJ→ωϕ的观测

    利用2009年和2012年用BESIII探测器收集到的(448.1±2.9)×106ψ(3686)事件研究了χcJ(J = 0,1,2)→ω。的衰变。除了先前建立的χc0→ωϕ,第一个观察结果 本文报道了χc1→ωϕ的变化。 测得的产物分支分数为...

    关于χ2检验在教育统计学中应用问题探讨

    关于χ2检验在教育统计学中应用问题探讨,江育奇,,χ2检验是一种重要的检验方法,在现行《教育统计学》书籍中,都介绍了利用χ2检验方法分析教育问题的方法。然而就《教育统计学》中

    采用类别相似度聚合的关联文本分类方法 (2012年)

    针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一...该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR

Global site tag (gtag.js) - Google Analytics