2018 Fiscal Year Annual Research Report
Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization
Project/Area Number |
18H01062
|
Research Institution | Chubu University |
Principal Investigator |
中川 聖一 中部大学, 工学部, 特任教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公 中部大学, 工学部, 准教授 (40324230)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 音声認識 / 音声翻訳 / 音声要約 / 字幕 / 英語講義音声 / 英語講演音声 |
Outline of Annual Research Achievements |
本研究課題を達成するためには、英語講義音声の音声認識、英語講義音声の要約、英語講義音声の日本語への翻訳という、3つの要素技術が必要となる。これらの要素技術は英語音声を対象としても日本語音声を対象としても、基本技術は同じであるものが多い。本研究では、英語と日本語を対象として研究を進めてきた。 音声認識技術に関しては、音声の特徴パラメータの抽出法として、新しい技術を開発し、有効性を示した。すなわち、従来のフーリエ変換に基づく周波数ビンごとの対数振幅スペクトルに3角形状のフィルタを通したあとコサイン変換して得られるメル周波数ケプストラム係数に対して、フィルタの形状を自動学習する方法を開発した。フィルタの形状をガウシアンフィルタやガンマトーンフィルタと仮定し、その中心周波数やゲイン、帯域幅を目標とする音声認識率が高くなるように、ディープニューラルネットワークの重みと共に学習する方法である。この手法により、日本語の講演音声の音声認識率が改善した。また、本手法は話者適応や雑音環境下での音声認識にも有効であることを示した。 音声翻訳技術に関しては、まず、英語の論文抄録文章を日本語に翻訳するタスクで検討した。本年度は、複数の翻訳結果候補に対して、文の分散表現を用いたリスコアリング手法による翻訳の改善と文脈情報を用いた翻訳の改善を行った。後者に関しては、対象の当該文の前後の文の意味を考慮して翻訳する手法を開発した。前後の文による文脈情報として、エンコーダ・デコーダ方式の翻訳手法で得られるエンコーダの最終隠れベクトルを各文の意味を表現する文ベクトルと見做して、翻訳対象文に付加して使用した。これにより翻訳精度が少し改善した。同じような手法として、文脈に出現する名詞の分散表現の平均を使用し、英語のTED講演音声に適用し有効性を示した。また、翻訳結果の逆翻訳を用いて、翻訳ペアを増やす方法も検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音声認識に関しては、フィルタバンクのニューラルネットワークによる学習法を提案し、新しい音声特徴パラメータ抽出法として大きな成果が得られた。国際会議で発表した論文は、多くの研究に参照され、被引用数も比較的多い。この技術を話者適応や雑音環境下の音声認識にも応用し、その有効性も示した。 音声翻訳に関しては、複数の翻訳候補から、文の分散表現や逆翻訳に基づくリスコアリング手法を提案し、最適な翻訳候補を選択することにより翻訳精度を改善できた。また、翻訳対象文の前後の文を文脈情報として用いる手法を提案し、その有用性を示し、この技術を発展させることにより、今後の翻訳手法の改善につながるという見通しが得られた。さらに、翻訳モデルの学習のための翻訳ペアのデータ量が少ない場合の新たな教師なし学習法を提案し、有効性を示した。
|
Strategy for Future Research Activity |
本研究課題を達成するための、音声認識、音声要約、音声翻訳という3つの基本技術のうち、音声要約に関しては、2018年度は未着手であった。今後、これを開発していく必要がある。実際に2019年度に着手し、ニューラルネットワークによる文ベクトルを用いる手法で、成果が得られている。2020年度は、この手法を改善し、音声翻訳手法に組み込むことを考えている。 音声認識に関しては、ディープニューラルネットワークによる英語の音響モデルの作成を進めてきたので、これを英語の講義音声や講演音声に適用することを考えている。
|