研究課題/領域番号 |
25280062
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, リーディング大学院教育推進機構, 教授 (20115893)
|
研究分担者 |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
井佐原 均 豊橋技術科学大学, 情報メディア基盤センター, 教授 (20358881)
土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 音声認識 / 機械翻訳 / 音声翻訳 / 字幕 / 講義音声 / 日英翻訳 / 英日翻訳 |
研究実績の概要 |
前年度に講義音声の字幕表示方法に対して比較研究を行い、重要文や重要句だけの字幕表示でも学習効果があることが分かった。これに基づき、英語講義音声と日本語講義音声の翻訳システムを作成した。 まず、日本語の講義音声の認識では、従来のガウス混合分布モデルを出力分布とする隠れマルコフモデル(GMM-HMM)と最近目覚ましい成果が出ている深層ニューラルネットワークの出力を事後確率とする隠れマルコフモデル(DNN-HMM)を実装し、前者で単語正解率が約40%、後者で約50%程度が得られた。日本語の英語への翻訳に関しては、新聞や講演(TED)の日英の文同士の対訳がとれているパラレルコーパスを用いて、統計的機械翻訳システムを実装した。デコーダには、公開されているMOSESを使用した。翻訳精度の向上を図るために、(1)言い淀み・間投詞などを削除し、話し言葉の言い回しを書き言葉の言い回しに変換する前処理、(2)日本語と英語の語順が大きく異なることから、日本語の述語を主語の直後に移動する前処理、(3)1段目の翻訳で語順の翻訳が不完全なので、2段目で語順を修正する2段階翻訳、の手法を提案し、それぞれ効果のあることを確かめた。 英語の講義音声の認識では、MITの講義音声を対象とし、新聞の読み上げ音声で作成した音響モデルを講義音声で適応すること、および、講義話者の音声に適応することを試みた。GMM-HMMとDNN-HMMで音声認識システムを実装し、GMM-HMMよりもDNN-HMMの方が認識率が良く、読み上げ音声のモデルで単語認識率が約70%、講義音声の発話スタイル適応モデルで約77%、さらに話者適応したモデルで約79%を得た。英語の日本語への翻訳に関しては、上述の日本語ー英語翻訳と同じパラレルコーパスを使用した。講義音声の言い回しの翻訳が重要と考え、この翻訳テーブルの追加で翻訳率が向上することを確かめた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
音声認識に関しては、最新の技術であるDNN-HMMを実装した。英語の講義音声の単語認識率は約80%程度得られたので、翻訳に十分使用できる。特に、評価話者2人のうちの一人の単語認識率は約86%に達したので、字幕化には十分だと考えている。しかし、日本語の講義音声の認識は、評価話者2人に対して、いずれもまだ不十分である。講義話者への適応化などを試みる必要がある。 機械翻訳に関しては、当初の計画では、日本語から英語への翻訳システムの開発のみを考えていたが、英語から日本語への翻訳システムも構築した。一般に言われているが、日本語から英語への翻訳の方が困難であることを確認した。まだ、GoogleやExcite等の翻訳ツールの翻訳精度には及ばないが、改善の余地がある。統計的機械翻訳の精度は、利用できるパラレルコーパスの質と量に依存するところが大きい。我々1研究室の規模ではパラレルコーパスをそろえるのは限界があるので、新しい手法の提案で研究価値を見出すことも重要と考えている。
|
今後の研究の推進方策 |
英語の講義音声の認識に関しては、大量に存在するTEDコーパスによる話し言葉音声の音響モデルの構築と話者適応技術の開発を行い、さらなる認識率向上を図る。 日本語の講義音声の認識に関しても、英語の音声認識システムで開発する話者適応技術を流用する。 機械翻訳に関しては、講義音声に頻出する言い回し句を自動抽出し、この翻訳結果を翻訳テーブルに追加する方法、専門用語の翻訳テーブルの追加を行う。特に前者は、今までは、最頻出n-gramの翻訳を試みていたが、これを句単位にすることで、翻訳精度が向上すると考えている。日本語と英語の語順の違いを前処理で揃える技術も引き続き検討し、特に、提案した2段階翻訳手法に取り入れる。つまり1段目は用語の翻訳を中心に、2段目は語順の入れ替えを中心に翻訳を行う手法の検討である。 統計的機械翻訳の精度は、パラレルコーパスの質と量に依存するところが大きい。この面でも、できるだけ努力を払いたいが、研究の本質ではない面があるので、注意を払いながら研究を進めていく。
|
次年度使用額が生じた理由 |
設備品を新たに購入しなくても研究が順調に進んだ。その理由は、他の外部資金(リーディングプログラム)で購入した設備を一部使用できたことによる。また、外国出張旅費もリーディングプログラムの費用で、まかなえたことによる。
|
次年度使用額の使用計画 |
研究成果が得られれば、学生の外国出張旅費・国内出張旅費に使用する。DNNによる音声認識、特に音響モデルの学習には、高速の計算機が必要であり、新たな設備を購入する。
|