2021 Fiscal Year Annual Research Report
Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization
Project/Area Number |
18H01062
|
Research Institution | Chubu University |
Principal Investigator |
中川 聖一 中部大学, 工学部, 客員教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公 中部大学, 工学部, 教授 (40324230)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 英語の音声認識 / 英日音声翻訳 / 音声要約 / 英日機械翻訳 / 講義音声・講演音声 / 字幕 / TED Talks |
Outline of Annual Research Achievements |
本研究の要素研究である英語講演・講義の音声認識、日本語への翻訳、要約、およびこれらを統合した音声翻訳と音声要約の評価実験を行った。英語講演・講義の対象としてTED Talksを使用した。 音声認識に関しては、本研究の開始当時と比べて深層ネットワーク技術の進展が著しく、Kaldiのツールキットを使用した。これをTED Talksの音声データと読み上げ音声であるLibriSpeechの大規模音声データを使用して音声認識モデルを学習した。これにより、平均88%の単語単位の音声認識精度を得た。 音声翻訳に関しては、研究開始当時と比べてTransformerの発明により著しく性能が改善されたので、本研究もこれに基づき、英日・日英翻訳の双方向モデルを構築した。さらに、英語および日本語の単言語コーパスの翻訳に基づいて疑似的対訳コーパスによる対訳学習データの拡張、大規模対訳書き言葉コーパスによる初期モデルの作成(転移学習)などの改善により、約15のBleu値を得た。またヒト同士の翻訳結果のBleu値でも20前後であり、ヒトによる翻訳の揺れが大きいことも分かった。我々の翻訳結果の人手による評価は「まずまず内容が理解でき、意図が伝わる。一部に誤訳がある」という結果が得られた。 音声要約に関しては、従来のMMR法にBERT法を組み込む方法を開発し、少ない学習データで従来よりも高い性能が得られた。最近の技術進展が著しいニューラルネットワークによる抽出型要約の代表的手法であるBertSumExt法も採用し、この方法で大規模書き言葉コーパスで学習したモデルに少量のTED講演コーパスで適応学習することにより、より高い要約性能を得た。 音声翻訳と音声要約に関しては、単語認識精度が90%程度であれば、翻訳性能のBLEU値と要約性能のROUGEが、テキスト入力と比べて10%程度の低下にとどまることが分かった。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|