Abstract:
会話の中で複数の言語が切り替わる現象は,コードスイッチングと呼ばれる.コードスイッチングは,言語が切り替わる場所や長さによってさまざまなものがある.従来の音声認識システムは,そのようなコードスイッチングを扱うのが難しく,解決すべき課題の1つであった.これまで研究されてきたコードスイッチング音声認識は,言語が混ざったコードスイッチング音声を,そのまま言語が混ざったコードスイッチングテキストに書き起こすことだけを目的とした.それは,結局,コードスイッチングを理解できる人だけが認識結果を理解することを想定する.一方,本研究は,コードスイッチング話者と単言語話者の会話を想定し,コードスイッチング話者の発言を単言語話者が理解できるように支援する.コードスイッチング音声認識の認識結果からBidirectional Encoder Representations from Transformers(BERT)やニューラル機械翻訳を用いて単言語に音声翻訳するカスケードアプローチと,シングルタスクやマルチタスク学習でコードスイッチング音声から単言語テキストに直接音声翻訳する直接アプローチの,合わせて4手法を比較し,日英コードスイッチングの音声を単言語の日本語および英語に翻訳するシステムを開発する.
Bilingual speakers often mix two or more languages in their conversation. Such a phenomenon is called code-switching (CS). The switching units and positions may be different variously, and the length of a unit can be from word unit to phrase length beyond the loanword unit. The CS phenomenon causes difficulties for automatic speech recognition (ASR) since the system has to be able to control multilingual input. The CS ASR for various language pairs has been investigated in the past. However, most of the goals for developing a CS ASR is to transcribe CS speech into CS text, which supposes that only those who understand the CS use it. In contrast, in this study, we focus on the conversations between CS speakers and monolingual speakers; and we aim to assist monolingual speakers to understand what CS speakers say. We develop a system that recognizes CS speech and translates to monolingual text. We investigated two cascade approaches from ASR by a neural machine translation (NMT) and Bidirectional Encoder Representations from Transformers (BERT), and two direct approaches by single-task learning and multi-task learning. In the end, we compare and review these four ways on a translation task from Japanese-English CS speech.