研究課題/領域番号 |
25280062
|
研究種目 |
基盤研究(B)
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
|
研究分担者 |
井佐原 均 豊橋技術科学大学, 情報メディア基盤センター, 教授 (20358881)
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 助教 (70378256)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 講義音声 / 字幕 / 音声認識 / 音声翻訳 / 機械翻訳 / 整形 / 要約 |
研究概要 |
本研究の目的は、日本語講義音声と英語講義音声を対象に、話し言葉音声を自動認識し、その整形・要約・翻訳を統一的に扱うことによって、留学生や日本人学生の講義の理解を効果的に支援する日本語講義に対する英語字幕や英語講義に対する日本語字幕を付与する技術を開発することである。本年度は、字幕の表示方法に関する検討と英語講義音声の日本語への翻訳の初期的検討を行った。 (1)字幕の表示方法の検討 以下の5つの字幕表示方法を比較した。(a)講義音声をすべて字幕にして表示する方法(フルテキスト)、(b)重要文を抽出し、重要文だけを翻訳して表示する方法(重要文)、(c)重要な句(フレーズ)を抽出し、重要句だけを翻訳して表示する方法(重要句)、(d)重要なキーワードを抽出し、キーワードだけを翻訳して表示する方法(キーワード)、(e)字幕なし。比較の結果、英語の講義音声に対する日本人学生、および日本語講義に対する留学生は、ともに同じ傾向を示し、フルテキストだけでなく、重要文の字幕表示や重要句の字幕表示も有用であることが分かった。 (2)英語講義音声の認識と日本語への翻訳 英語講義音声の日本語字幕表示の初期的検討として、まず、英語講義音声の自動認識と統計的機械翻訳手法による英語講義音声の日本語への翻訳を行った。英語講義音声に対しては、本研究室で開発されたSPOJUS++を用いた。次に、日英の新聞記事のパラレルコーパスを用いて、オープンソースであるMosesを用いて統計的機械翻訳を行った。新聞記事と講義では、話しスタイルの相違と内容の相違があり、上手く翻訳ができないことが分かった。そこで、話し言葉であり技術的話題が多いTEDコーパスを用いた。このコーパスには、日本語字幕も付与されているため、これから日英のパラレルコーパスを作成し、機械翻訳に使用し、改善が得られた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず、字幕の表示法の比較に関しては、類似研究は発表されているが、我々の比較研究は5種類の字幕表示法を比較しており、従来の3種類程度より詳細な比較研究である。また、英語講義と日本語講義の字幕表示を比較検討し、両言語で同じ傾向を示したことも評価できる。これらの結果はジャーナル論文としてまとめる予定である。 英語講義音声の認識は、研究室で開発された大語彙音声認識システムSPOJUS++を使用したので、順調に実現できた。講義音声はMITの講義を使用したため、音声認識のための言語モデルには、MITの講義コーパスから作成したトライグラムを使用し、その有効性を示せた。また、統計的機械翻訳のためのパラレルコーパスをTEDコーパスから作成し、その有効性を示せたことも評価できる。日本語への変換のための日本語言語モデルも比較し、話し言葉コーパスの使用が良いことが分かったことも成果である。 日本語講義音声の英語への翻訳も行い、書き言葉への整形処理や講義の教科書を用いた言語モデルの作成など種々の検討を行い、問題点を洗い出すことができた。
|
今後の研究の推進方策 |
講義音声の翻訳・字幕化には、以下の3つの技術が必要である。(a)音声認識技術、(b)話し言葉から書き言葉に変換し、要約、句読点の挿入など翻訳しやすいように前処理を行う技術、(c)講義の話題に適応化した言語モデルとパラレルコーパスを使用した統計的機械翻訳技術および講義で頻出する定型パターンの翻訳の利用。 (a)音声認識技術 従来のGMM-HMMに基づく音声認識法を、ディープネットワークを利用したDNN-HMMに基づく音声認識法に変更し、認識率の改善を図る。 (b)前処理技術 話し言葉の翻訳を容易にするための前処理として、書き言葉への変換ルールの導入、句読点の挿入、倒置表現の検出など、整形処理を行う。また、字幕はフルテキストよりも重要文だけの方が可読性が高いので、重要文の抽出も行う。 (c)音声翻訳技術 講義を統計的機械翻訳手法で翻訳するためには、講義内容に近い日英のパラレルコーパスと言語モデルが必要である。また、統計的機械翻訳だけでは、翻訳が難しいので、講義で頻出する定型パターンを抽出し、この翻訳をパターン変換で行う手法を併用する。 英語講義音声の日本語字幕付与、および日本語講義音声の英語字幕付与を開発するので、日英のパラレルコーパスや言語モデル、専門用語の翻訳辞書、等は共通に使用できるようにする。
|
次年度の研究費の使用計画 |
25年度は、比較的研究が順調に進んだが、データの整理に十分な時間が取れず、遅れたので、次年度に計画を回した。 日、英パラレルコーパス作成、話し言葉の書き言葉への変換ルール作成作業のための謝金を計上する。
|