Short Text language Detection with Infinity-Gram

Short Text language Detection with Infinity-Gram

中谷秀洋

生駒 : 奈良先端科学技術大学院大学, 2012.5

授業アーカイブ

巻号情報

全1件
No. 刷年 所在 請求記号 資料ID 貸出区分 状況 予約人数

1

  • LA-I-R[MPDASH][Mobile]

M009753

内容紹介

言語判定は多くの言語処理の前提タスクとなりうるので、非常に高い精度が要求される。十分な長さを持つノイズの少ない文書に対しては、文字3-gramモデルによって99%以上の精度で判定できることが以前から示されていたが、twitterのような短くノイズの多いテキストについては95%前後の精度でしか判定出来なかった。そこで極大部分文字列を使った∞-gram ロジスティック回帰と、twitterや各言語に即した正規化処理を組み合わせることにより、ラテン文字言語19言語について99%以上の精度で言語判定する手法について紹介する。

詳細情報

刊年

2012

形態

電子化映像資料(1時間13分14秒)

別書名

∞-gram による短文言語判定

シリーズ名

情報科学研究科・ゼミナール講演 ; 平成24年度

注記

講演者所属: サイボウズ・ラボ株式会社

講演日: 平成24年5月14日

講演場所: 情報科学研究科大講義室L1

標題言語

英語 (eng)

本文言語

日本語 (jpn)

著者情報

中谷, 秀洋 (ナカタニ, シュウヨウ)