DSpace Repository

実環境における子供音声認識のための音韻モデルおよび教師なし話者適応の評価

Show simple item record

dc.contributor.author 鮫島 充 ja
dc.contributor.author Randy Gomez en
dc.contributor.author 李 晃伸 ja
dc.contributor.author 猿渡 洋 ja
dc.contributor.author 鹿野 清宏 ja
dc.date.accessioned 2012-07-05T07:00:46Z en
dc.date.available 2012-07-05T07:00:46Z en
dc.date.issued 2006-07 en
dc.identifier.issn 1882-7837 en
dc.identifier.uri http://hdl.handle.net/10061/7816 en
dc.description.abstract 子供の音声は,声道長や基本周波数が成人音声と異なるだけでなく,発声スタイルが自発的で年齢や個人による声の変動も大きいため,通常の成人用音韻モデルでは認識精度が著しく劣化する.また,子供が正確に文章を読み上げることは多大な労力が必要であり,大規模な整った音声データベースの作成が難しい.本研究では,子供の自発的な発話の高精度な認識を目指して,音声情報案内システムによる子供の実音声の大規模収集,年齢層別子供用音韻モデルの構築と評価,および教師なし話者適応の検討を行った.大語彙連続音声認識実験より,実環境で収集した子供音声を用いることで,単語認識精度が71.1%と既存の読み上げ音声モデルに比べて絶対値で23.9%の改善が得られた.また,年齢層別の傾向では,特に幼児の音声において年齢層依存モデルによる大幅な精度改善が見られた.次に,自動収集した話者ラベルなしの大量データに対する,自動話者クラスタリングを用いた十分統計量に基づく教師なし話者適応を提案した.提案法により59,966個の発話データをクラスタリングし,近傍話者クラスタを用いて音韻モデルを適応することで,クラスタ数200の条件において,年齢層依存モデルに対してさらに幼児で2.2%,低学年子供で1.7%,高学年子供で0.5%の認識性能の改善が得られた. ja
dc.description.abstract Child's utterance has totally different property from adult's speech, not only by their acoustic property, but by their incorrect pronunciation and totally ill-formed speaking style. The rapid physiological changes during the growth also prevent accurate speech recognition using a single model. However, collection of child's read speech is difficult in natural, since forcing them to read a sentence precisely will make the utterances far from spontaneous one. In this research, we evaluated acoustic models and an unsupervised adaptation method based on a large number of real spontaneous child speech automatically collected through an actual spoken dialogue system. Acoustic model trained by an actual spontaneous speech achieves the word accuracy of 71.1%, which outperforms one trained by read speech by 23.9%. Detailed investigation is carried out for child's ages (infant pupils, lower-grade elementary schoolers and higher-grade elementary schoolers), and accuracy of the infant pupils was greatly improved by using the age-dependent model. Then a speaker clustering method is proposed to perform unsupervised speaker adaptation based on HMM Sufficient Statistics on automatically collected database where no user tag is available. Clustering the 59,966 utterances to 200 speaker clusters, and selecting the neighbor one for each input to construct the adapted model has resulted in a further improvement of recognition accuracy by 1.5% as compared with age-class dependent models. en
dc.language.iso ja en
dc.publisher 情報処理学会 ja
dc.rights Copyright (C) 2006 情報処理学会. ja
dc.rights ここに掲載した著作物の利用に関する注意: 本著作物の著作権は(社)情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 ja
dc.rights Notice for the use of this material: The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author(s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. en
dc.title 実環境における子供音声認識のための音韻モデルおよび教師なし話者適応の評価 ja
dc.title.alternative Evaluation of Acoustic Model and Unsupervised Speaker Adaptation for Child Speech Recognition in Real Environment en
dc.type.nii Journal Article en
dc.textversion publisher en
dc.identifier.ncid AA12317677 en
dc.identifier.jtitle 情報処理学会論文誌 ja
dc.identifier.volume 47 en
dc.identifier.issue 7 en
dc.identifier.spage 2295 en
dc.identifier.epage 2304 en
dc.relation.isIdenticalTo http://ci.nii.ac.jp/naid/110004751182 en


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account