EI / SCOPUS / CSCD 收录

中文核心期刊

音子配列学语种识别系统中特征选择方法的研究

梁春燕, 杨琳, 汪俊杰, 张建平, 颜永红

梁春燕, 杨琳, 汪俊杰, 张建平, 颜永红. 音子配列学语种识别系统中特征选择方法的研究[J]. 声学学报, 2013, 38(2): 208-214. DOI: 10.15949/j.cnki.0371-0025.2013.02.010
引用本文: 梁春燕, 杨琳, 汪俊杰, 张建平, 颜永红. 音子配列学语种识别系统中特征选择方法的研究[J]. 声学学报, 2013, 38(2): 208-214. DOI: 10.15949/j.cnki.0371-0025.2013.02.010
LIANG Chunyan, YANG Lin, WANG Junjie, ZHANG Jianping, YAN Yonghong. Feature selection in phonotactic language recognition system[J]. ACTA ACUSTICA, 2013, 38(2): 208-214. DOI: 10.15949/j.cnki.0371-0025.2013.02.010
Citation: LIANG Chunyan, YANG Lin, WANG Junjie, ZHANG Jianping, YAN Yonghong. Feature selection in phonotactic language recognition system[J]. ACTA ACUSTICA, 2013, 38(2): 208-214. DOI: 10.15949/j.cnki.0371-0025.2013.02.010
梁春燕, 杨琳, 汪俊杰, 张建平, 颜永红. 音子配列学语种识别系统中特征选择方法的研究[J]. 声学学报, 2013, 38(2): 208-214. CSTR: 32049.14.11-2065.2013.02.010
引用本文: 梁春燕, 杨琳, 汪俊杰, 张建平, 颜永红. 音子配列学语种识别系统中特征选择方法的研究[J]. 声学学报, 2013, 38(2): 208-214. CSTR: 32049.14.11-2065.2013.02.010
LIANG Chunyan, YANG Lin, WANG Junjie, ZHANG Jianping, YAN Yonghong. Feature selection in phonotactic language recognition system[J]. ACTA ACUSTICA, 2013, 38(2): 208-214. CSTR: 32049.14.11-2065.2013.02.010
Citation: LIANG Chunyan, YANG Lin, WANG Junjie, ZHANG Jianping, YAN Yonghong. Feature selection in phonotactic language recognition system[J]. ACTA ACUSTICA, 2013, 38(2): 208-214. CSTR: 32049.14.11-2065.2013.02.010

音子配列学语种识别系统中特征选择方法的研究

基金项目: 

中国科学院重点部署(KGZD-EW-103-2)资助项目

国家863计划(2012AA012503)

中国科学院战略性先导科技专项(XDA06030100,XDA06030500)

国家自然科学基金(10925419,90920302,61072124,11074275,11161140319,91120001)

详细信息
  • PACS: 
    • 43.72  (语言处理与通信系统)

Feature selection in phonotactic language recognition system

  • 摘要: 将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验,分别使用信息增益和加权log似然比准则以及传统的互信息,χ2统计量方法对数量巨大的N-gram进行特征选择,从中选出最具有鉴别性的部分组成特征向量,并用分类器进行分类。结果显示,当根据信息增益和加权log似然比准则选取一定数量的特征时,系统性能与使用全部特征的基线系统相比略好;当选取的特征数量很少时,信息增益和加权log似然比方法的性能要优于传统的互信息和χ2统计量方法。实验表明,在音子配列学语种识别系统中,信息增益和加权log似然比方法均可以有效地去除冗余信息,降低特征向量的维数,并且能使系统性能得到一定的提高。
    Abstract: Two feature selection methods of Information Gain(IG) and Weighted Log Likelihood Ratio(WLLR) are introduced into phonotactic language recognition to reduce the dimensions of feature vectors.Together with the traditional Mutual Information(MI) and χ2-test(CHI),the proposed methods are compared on the NIST 2009 Language Recognition Evaluation(LRE) task.Different subsets of features are selected from the total N-gram,respectively according to the four criteria,as the input feature vectors of the classifier for language recognition.The experimental results show that IG and WLLR can obtain much lower dimensional feature vectors without affecting the language recognition performance even giving better performance than the system with all features.And when the number of selected features is very small,IG and WLLR achieve better performance than the existed MI and CHI criteria.The results indicate that IG and WLLR can effectively reduce the number of features and improve the system to some extent.
计量
  • 文章访问数:  22
  • HTML全文浏览量:  1
  • PDF下载量:  7
  • 被引次数: 0
出版历程
  • 收稿日期:  2011-12-13
  • 修回日期:  2012-06-12
  • 网络出版日期:  2022-06-24

目录

    /

    返回文章
    返回