研究課題
本研究の要素研究である英語講演・講義の音声認識、日本語への翻訳、要約、およびこれらを統合した音声翻訳と音声要約の評価実験を行った。英語講演・講義の対象としてTED Talksを使用した。音声認識に関しては、本研究の開始当時と比べて深層ネットワーク技術の進展が著しく、Kaldiのツールキットを使用した。これをTED Talksの音声データと読み上げ音声であるLibriSpeechの大規模音声データを使用して音声認識モデルを学習した。これにより、平均88%の単語単位の音声認識精度を得た。音声翻訳に関しては、研究開始当時と比べてTransformerの発明により著しく性能が改善されたので、本研究もこれに基づき、英日・日英翻訳の双方向モデルを構築した。さらに、英語および日本語の単言語コーパスの翻訳に基づいて疑似的対訳コーパスによる対訳学習データの拡張、大規模対訳書き言葉コーパスによる初期モデルの作成(転移学習)などの改善により、約15のBleu値を得た。またヒト同士の翻訳結果のBleu値でも20前後であり、ヒトによる翻訳の揺れが大きいことも分かった。我々の翻訳結果の人手による評価は「まずまず内容が理解でき、意図が伝わる。一部に誤訳がある」という結果が得られた。音声要約に関しては、従来のMMR法にBERT法を組み込む方法を開発し、少ない学習データで従来よりも高い性能が得られた。最近の技術進展が著しいニューラルネットワークによる抽出型要約の代表的手法であるBertSumExt法も採用し、この方法で大規模書き言葉コーパスで学習したモデルに少量のTED講演コーパスで適応学習することにより、より高い要約性能を得た。音声翻訳と音声要約に関しては、単語認識精度が90%程度であれば、翻訳性能のBLEU値と要約性能のROUGEが、テキスト入力と比べて10%程度の低下にとどまることが分かった。
令和3年度が最終年度であるため、記入しない。
すべて 2023 2022
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (8件) (うち国際学会 2件)
電子情報通信学会論文誌
巻: 106-D, No.4 ページ: 298, 306
10.14923/transinfj.2022PDP0005