- CHI、IG: http://songlj.iteye.com/blog/2241763
- IG、CHI、TC、TS、IIG 文本挖掘(四)——特征选择
- From My Github - 文本分类
表1:词频统计(文档数量)
其中,文档总数:N = A+B+C+D
- | 包含词条 t | 不包含词条 t |
---|---|---|
属于类别 c | A | C |
不属于类别 c | B | D |
1、文档频率 DF (document frequency)
- 文档频率指训练集中包含该特征词条的文本总数
选择 DF > 某个阈值的特征词条
2、信息增益 IG (information gain)
- 通过特征词在文本中出现和不出现前后的信息量之差来推断该特征词所带的信息量
3、互信息 MI (mutual information)
- 互信息衡量了特征词条和类别之间的相关性
MI(t,c) = 0,当 t 和 c 相互独立时
弱点:得分被词条的边缘概率强烈的影响;(条件概率相等时,低频词比高频词有更高的分数)
4、卡方统计 CHI(Chi-Square Statistic)
- 卡方统计量也用于表征两个变量的相关性,与互信息相比,它同时考虑了特征在某类文本中出现和不出现时的情况
- 度量了 t 和 c 之间的独立性
- 卡方统计是一个规范值,因此卡方统计值对于相同的类别可以跨词进行比较
- 如果列联表中的任何单元被轻微填充,这种归一化就会失效(低频词的例子)
- 因此,卡方统计对于低频词是不可靠的。
5、词条强度/单词权 TS (term strength)
法1:博客
- TS 计算的是一个词出现的条件概率,即该词在一对相关文本中的某一个文本中出现的条件下,在另一个文本中出现的概率
1
2
3(1)计算文本数据集中每一对文本的相似度;
(2)选择出所有相似度超过阈值的文本对;
(3)对所有的单词,根据下式计算它的单词权。
若有一个文本集,其中有N篇文本,M对相关文本有序对,有K对同时包含词t的相关文本有序对,则
1 | 即TS(t)表示在文本集的所有相关文本有序对的集合中,同时包含词t的相关文本有序对的比例。 |
法2:(Yang Yiming 论文里)文本聚类中的特征选择方法
- 这个方法基于词条出现在密切相关的文档中的频率来评估词条的重要性
- 使用一组训练文档来派生出文档对,其相似度(余弦值)高于某个阈值
- x 和 y 是一对相似文档
- 基于文档聚类,假设有许多共享词的文档是相似的,在相关文档的重叠区域内的词条的信息量相对较大
- 这个方法不是基于特定任务的;不使用与词条类别相关的信息。
法3:PPT-1 18页
词强度(term strength)