DSpace Repository

日本語ディクテーションシステムにおける被覆率の高い言語モデル

Show simple item record

dc.contributor.author 廣瀬 良文 ja
dc.contributor.author 伊藤 克亘 ja
dc.contributor.author 鹿野 清宏 ja
dc.contributor.author 中村 哲 ja
dc.date.accessioned 2012-07-05T07:00:34Z en
dc.date.available 2012-07-05T07:00:34Z en
dc.date.issued 2000-11 en
dc.identifier.issn 0915-1923 en
dc.identifier.uri http://hdl.handle.net/10061/7760 en
dc.description.abstract 日本語の表記法は, 仮名漢字混じりである.そのため, 同一の語に対しても多様な表記が可能である.大語彙連続音声認識では, 無限の語彙を扱うことは不可能であるため, 語彙を制限する必要がある.このとき, 言語の被覆率が低下する.発話文に未知語が存在した場合には, その単語のみが認識誤りを起こすのではなく, その前後の単語にも影響を与える.したがって, ディクテーションなどでは, より広い語彙を被覆することは実用上非常に重要である.本論文では, 形態素解析システムにより得た形態素の読み情報を利用することにより, 被覆率の高い統計的言語モデルの構築を試みた.「読み」表記による言語モデル, 及び「読み」表記と「漢字」表記を混合した言語モデルを構築し, 未知語率を約50%削減した.評価として, 語彙サイズの影響を検証するために未知語の存在しない評価文に対する認識実験, 及び単語被覆率の改善による認識性能の評価のために未知語を含む評価文に対する認識実験を行った.5千語, 2万語, 3万語のディクテーションシステムにおいて認識率の改善が見られ, 効果が確かめられた.一方, 未知語の存在しない評価文に対しては語彙サイズを大きくすることによる悪影響はないことを確認した. ja
dc.language.iso ja en
dc.publisher 電子情報通信学会 ja
dc.rights Copyright (C) 2000 電子情報通信学会. ja
dc.subject 日本語ディクテーション ja
dc.subject 読み情報 ja
dc.subject 単語被覆率 ja
dc.subject 未知語 ja
dc.title 日本語ディクテーションシステムにおける被覆率の高い言語モデル ja
dc.title.alternative Pronunciation-Based Language Models for Japanese Dictation Systems en
dc.type.nii Journal Article en
dc.textversion publisher en
dc.identifier.ncid AN1007132X en
dc.identifier.jtitle 電子情報通信学会論文誌D-II ja
dc.identifier.volume J83-D-II en
dc.identifier.issue 11 en
dc.identifier.spage 2300 en
dc.identifier.epage 2308 en
dc.identifier.url https://search.ieice.org/ en
dc.identifier.NAIST-ID 73296626 en
dc.relation.isIdenticalTo http://ci.nii.ac.jp/naid/110003183841 en


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account