2019 Fiscal Year Annual Research Report
Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization
Project/Area Number |
18H01062
|
Research Institution | Chubu University |
Principal Investigator |
中川 聖一 中部大学, 工学部, 特任教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公 中部大学, 工学部, 准教授 (40324230)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 音声認識 / 音声翻訳 / 音声要約 / 字幕 / 英語講義音声 / 英語講演音声 |
Outline of Annual Research Achievements |
本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。 英語の音声認識技術に関しては、ディープニューラルネットワークと隠れマルコフモデルを用いたDNN-HMMの枠組みで英語音声認識技術の開発を進めた。認識性能の改善を図るために、特徴抽出のためのフィルタバンク層の適応学習方法の研究を進めた。また、音声認識と機械翻訳を用いて音声翻訳を行う二つの方式による翻訳結果を統合する方式を検討した。一つは従来の音声認識と機械翻訳を縦続接続する方式で、もう一つがEnd-to-End方式である。 機械翻訳技術に関しては、講義や講演音声のような話し言葉の英語文と日本語文のペアからなる大規模パラレルコーパスがないため、書き言葉のパラレルコーパスをもとに翻訳モデルを学習し、これを用いて日本語を英語に逆翻訳して、疑似的な話し言葉の英語ー日本語のパラレルコーパスを作成する基本技術を開発した。 要約技術に関しては、従来の文間の類似度に基づく抽出型要約であるMMR(Maximum Marginal Relevance)法を改善した。すなわち、機械翻訳システムのEncoderの隠れベクトルを文のベクトル表現とし、文間の類似度に使用した。また、最近自然言語処理に有用となっているBERTによる文の分散表現を文間の類似度に使用する方法と、重要文と非重要文の判別に使用する方法を開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。 まず、英語の講義・講演音声の認識に関しては、ディープニューラルネットワークと隠れマルコフモデルを接続したハイブリッド方式を採用して、特に特徴抽出層に対応するフィルタバンクのパラメータの学習法を組み込む方法を検討した。これにより、音声認識モデルを実環境の講義・講演音声の環境に素早く適応することができる。 機械翻訳に関しては、話し言葉の英語文とその日本語訳のペアからなる大規模パラレルコーパスがない状況で、書き言葉の大規模パラレルコーパスから学習した翻訳システムを用いて、話し言葉の日本語を英語へ翻訳することによって疑似的な話し言葉の大規模パラレルコーパスを作成する基本技術を開発した。この操作を繰り返すことによって、翻訳性能が徐々に改善されることを示した。 要約技術に関しては、重要な文を抽出することによって要約を行う抽出型要約の代表的な方法であるMMR(Maximum Merginal Relevance)法を改善した。すなわち、従来の単語の出現頻度に基づく文間の類似度の代わりに、機械翻訳システムやBERTから得られる文の分散表現による文間の類似度を用いるように変更した。 音声翻訳システムに関しては、音声認識と機械翻訳を従属に接続する方式とEnd-to-Endで音声認識と機械翻訳を一体化する方式のそれぞれの翻訳結果を統合する方法を開発した。
|
Strategy for Future Research Activity |
本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。 それぞれの要素技術の開発に関しては、概ね計画通りに進んだと考えている。今後は、話し言葉である英語の講義・講演音声が対象であることを意識した研究を進めていく予定である。例えば、要約に関しては、間投詞や言い直し、言い淀み等の冗長表現の除去、音声認識に関しては、実環境への対処や音声認識誤りの対処、翻訳に関しては、話し言葉のパラレルコーパス不足への対処や翻訳誤りの対処などである。また、各手法の評価でも講義・講演音声を対象としていく予定である。
|