DSpace Repository

情報科学研究科 / Graduate School of Information Science

情報科学研究科 / Graduate School of Information Science

 

Recent Submissions

  • 久保, 慶伍; 川波, 弘道; 猿渡, 洋; 鹿野, 清宏 (2013-02-15)
    音声ドキュメント検索や音声検索のような固有名詞や新語を扱うアプリケーションの発達とともに,未知語に対する頑健な自動発音付与の必要性は増加している.未知語への自動発音付与手法として統計的アプローチやWebテキストマイニングによるアプローチがある.これらには単語の表記と発音を単語(形態素)よりも小さい単位で対応付けたデータが不可欠である.本論文では日本語の未知語に対する発音付与の性能向上を目的として,表記と発音の対応付けの精度を劣化させずに ...
  • 真嶋, 温佳; 藤田, 洋子; Torres, Rafael; 川波, 弘道; 原, 直; 松井, 知子; 猿渡, 洋; 鹿野, 清宏 (情報処理学会, 2013-02-15)
    実環境における音声認識を用いた情報案内システムでは,雑音等の非音声やユーザ同士の背景会話など,システムへの入力として不適切な入力が存在する.これらの入力はシステムの誤作動・誤認識の原因となるので,システムへの入力として適切な入力(有効入力)と不適切な入力(無効入力)の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要である.従来,有効入力と無効入力との識別には,メル周波数ケプストラム係数などの音響的特 ...
  • Torres, Rafael; Kawanami, Hiromichi; Matsui, Tomoko; Saruwatari, Hiroshi; Shikano, Kiyohiro (情報処理学会, 2013-02-15)
    In this work, we address the topic classification of spoken inquiries in Japanese that are received by a speech-oriented guidance system operating in a real environment. The classification of spoken inquiries is often ...
  • 箕輪 弘嗣; 中尾 恵; 湊 小太郎 (日本VR医学会, 2007)
    Virtual reality (VR) based surgical simulators have been developed in order to fulfill the demands for improving quality of medical education and training. VR simulators enable to record information about expert's procedures ...
  • Arata Itoh; Sunao Hara; Norihide Kitaoka; Kazuya Takeda (電子情報通信学会, 2012-10)
    A novel speech feature generation-based acoustic model training method for robust speaker-independent speech recognition is proposed. For decades, speaker adaptation methods have been widely used. All of these adaptation ...
  • 原 直; 北岡 教英; 武田 一哉 (電子情報通信学会, 2013-01)
    本論文ではN-gram特徴を用いた音声対話システム利用時の課題未達成対話の検出手法を提案する.実験にはユーザが自分のPC上で利用するという,実環境下で収録された楽曲検索のための音声対話システムとの対話データを利用する.楽曲検索課題を行っている全ての対話データはユーザとシステムの発話を抽象化した発話・動作タグにより記述し,そのタグ系列をN-gramとしてモデル化を行う.本研究では,タグ系列中のタグN-gramの出現回数を素性として,Support ...
  • Ryo Wakisaka; Hiroshi Saruwatari; Kiyohiro Shikano; Tomoya Takatani (電子情報通信学会, 2012-02-01)
    In this paper, we introduce a generalized minimum mean-square error short-time spectral amplitude estimator with a new prior estimation of the speech probability density function based on moment-cumulant transformation. ...
  • Ryoichi Miyazaki; Hiroshi Satuwatari; Kiyohiro Shikano (電子情報通信学会, 2012-02-01)
    We propose a structure-generalized blind spatial subtraction array (BSSA), and the theoretical analysis of the amounts of musical noise and speech distortion. The structure of BSSA should be selected according to the ...
  • Nobuo Hataoka; Hiroaki Kokubo; Akinobu Lee; Tatsuya Kawahara; Kiyohiro Shikano (ECT, 2008-08)
    ASR (Automatic Speech Recognition) is one of key technologies in the upcoming Ubiquitous Computing and Ambient Intelligence. In this paper, first, the surveys on processing devices such as microprocessors and memories, and ...
  • Haruhide Hokari; Noriyoshi Kamado; Hiroshi Saruwatari; Kiyohiro Shikano; Shoji Shimada (電子情報通信学会, 2011-03)
    In this paper, we present a comparative study on directly aligned multi point controlled wavefront synthesis (DMCWS) and wave field synthesis (WFS) for the realization of a high-accuracy sound reproduction system, and the ...
  • Keigo Nakamura; Tomoki Toda; Hiroshi Saruwatari; Kiyohiro Shikano (電子情報通信学会, 2010-07)
    We have so far proposed a speaking-aid system for laryngectomees using a statistical voice conversion technique. In the proposed system, artificial speech articulated with extremely small sound source signals is detected ...
  • Yamato Ohtani; Tomoki Toda; Hiroshi Saruwatari; Kiyohiro Shikano (電子情報通信学会, 2010-09)
    We have developed a one-to-many eigenvoice conversion (EVC) system that allows us to convert a single source speaker's voice into an arbitrary target speaker's voice using an eigenvoice Gaussian mixture model (EV-GMM). ...
  • Hironori Doi; Keigo Nakamura; Tomoki Toda; Hiroshi Saruwatari; Kiyohiro Shikano (電子情報通信学会, 2010-09)
    This paper presents a novel method of enhancing esophageal speech using statistical voice conversion. Esophageal speech is one of the alternative speaking methods for laryngectomees. Although it doesn't require any external ...
  • Kazunobu Kondo; Yu Takahashi; Seiichi Hashimoto; Hiroshi Saruwatari; Takanori Nishino; Kazuya Takeda (Hindawi Publishing Corporation, 2011)
    A blind speech separation method with low computational complexity is proposed. This method consists of a combination of independent component analysis with frequency band selection, and a frame-wise spectral soft mask ...
  • 川本 真一; 足立 吉広; 大谷 大和; 四倉 達夫; 森島 繁生; 中村 哲 (情報処理学会, 2010-02)
    視聴者の顔をCGで再現し,CGキャラクタとして映画に登場させるFuture Cast System(FCS)を改良し,視聴者から収録した少量の音声サンプルを用いて,視聴者に似た台詞音声を生成するため複数手法を統合し,生成された台詞音声をシーンに合わせて同期再生することで,視聴者の声の特徴をキャラクタに反映させるシステムを提案する.話者データベースから視聴者と声が似た話者を選択する手法(類似話者選択技術)と,複数話者音声を混合することで視 ...
  • 高橋 祐; 猿渡 洋; 鹿野 清宏 (電子情報通信学会, 2010-03)
    本論文では,独立成分分析(ICA)に基づいた頑健な雑音推定を備える改良型空間的サブトラクションアレー(SSA)を新たに提案する.我々は既に,ハンズフリー音声認識に有効な雑音抑圧手法として,SSAを提案している.従来SSAにおける雑音抑圧は,死角制御ビームフォーマ(NBF)によって推定された雑音を観測信号からスペクトル減算することにより実現される.しかしながら,従来SSAを実環境において運用する場合,室内残響やマイクロホン素子誤差の影響に ...
  • Yamato Ohtani; Tomoki Toda; Hiroshi Saruwatari; Kiyohiro Shikano (電子情報通信学会, 2010-06)
    In this paper, we describe a novel model training method for one-to-many eigenvoice conversion (EVC). One-to-many EVC is a technique for converting a specific source speaker's voice into an arbitrary target speaker's voice. ...
  • 藤原 裕樹; 高橋 祐; 橘 健太郎; 宮部 滋樹; 猿渡 洋; 鹿野 清宏; 田中 章 (電子情報通信学会, 2009-05)
    従来の独立成分分析(ICA)を用いたリアルタイム音声強調システムでは,時々刻々と変化する環境に追従するために分離フィルタを逐次学習することが必要である.しかし,実環境で利用する場合,利用者が不在で雑音のみが存在する時間帯がほとんどである.このような時間帯において利用者が存在する時間帯と同様の学習を行うと,不適切な分離フィルタが生成され,システム自体の性能の低下につながる.本論文では,適切な分解フィルタを高速に構成するため,解析型ICAと ...
  • 小窪 浩明; 畑岡 信夫; 李 晃伸; 河原 達也; 鹿野 清宏 (情報処理学会, 2009-11)
    PC向け連続音声認識プログラムJuliusのSuperHマイコン(SH-4A)への搭載に関して行った処理の高速化と,評価実験について報告する.計算リソースの限られたマイコン上で動作させるため,仮説探索時のメモリ管理の最適化や音響尤度計算の高速化を実施した.語彙数5,000語での評価実験では,最適化前のJuliusの実行速度に対して3.7倍の高速化を実現し,SH-4A上での実時間動作を達成した.また,語彙数20,000単語での評価でも実時 ...
  • Yu Takahashi; Hiroshi Saruwatari; Kiyohiro Shikano; Kazunobu Kondo (Hindawi Publishing Corporation/Springer, 2010-02)
    We conduct an objective analysis on musical noise generated by two methods of integrating microphone array signal processing and spectral subtraction. To obtain better noise reduction, methods of integrating microphone ...

View more