2020 Fiscal Year Annual Research Report
Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization
Project/Area Number |
18H01062
|
Research Institution | Chubu University |
Principal Investigator |
中川 聖一 中部大学, 工学部, 客員教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公 中部大学, 工学部, 教授 (40324230)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 英語の音声認識 / 英日音声翻訳 / 音声要約 / 英日機械翻訳 / 講義音声・講演音声 / 字幕 |
Outline of Annual Research Achievements |
本研究課題は、英語による講義・講演音声の認識、翻訳、要約という3つの要素技術からなる。 音声認識に関しては、従来から研究代表者らが開発しているDNN-HMMのハイブリッド方式の特徴抽出部のフィルタバンクのドメイン適応・話者適応の研究を行ってきた。今回は、日本語の音声認識ではあるが、高齢者音声の認識に本手法を適応し有効性を確認した。また、英語の講演音声の認識に関しては、一般ドメイン向きの音声認識システムを、少数の講演音声データにデータ拡張手法を適用し、これを学習データとして適応し、講演音声認識の精度向上を図った。 英語の講演音声の日本語への翻訳に関しては、講演のトピック情報を抽出し、それを翻訳対象文の先頭に追加する方法を試み有用性を示した。また、ニューラル機械翻訳に必要な英語とその日本語訳のペア集合が約22万文と少ないため、英語および日本語の単言語講演データを翻訳(逆翻訳)して、疑似的な英語ー日本語ペアデータを作成し、これを翻訳モデルの学習に利用する方法を開発してきた。2020-2021年度は、この方法を複数回繰り返し、徐々に疑似的なペアの品質を向上させ、翻訳モデルの性能を向上させる方法を実装した。この際、疑似ペアのバリエーションを増加させる手法を提案し、有効性を示した。また、これらの手法の改善理由を明らかにした。 音声要約に関しては、従来から重要文抽出型要約を開発してきた。2020-2021年度は、文の分散表現を用いた重要文/非重要文識別器のための学習データを増加させ、英語の講演・講義文に対して識別性能の向上を図った。また、従来の代表的な抽出型要約手法であるMMRに、文の分散表現と重要文確率を導入し、要約の改善を行った。これとは別の方法として、ニューラルネットワークによる抽象型要約を日本語の議会議事録に適用した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コロナ禍の影響で、研究期間を延長した分、概ね初期の目標を達成した。英語の講演音声の認識に関しては、少量の講演データにデータ拡張法を適用し、学習データを増やすことにより認識率の向上を果たし、今後の更なる改善に見通しを得た。 英語の講演音声の日本語への翻訳に関しては、講演音声の英語ー日本語の対訳ペアが22万対と十分な量でないために、英語および日本語の単一言語の逆翻訳を用いて疑似的な英語ー日本語ペアを作成し、これを22万対に追加して翻訳モデルを学習する方法、講演内容のトピック情報を表す文ベクトルを翻訳対象文の単語列の先頭に付加する方法、講演データでない大量の英語ー日本語対訳データ(100万対)による翻訳モデルを初期値として、講演データで追加学習する方法(transfer learning)、などを試み、いずれも翻訳性能の向上につながることを示した。 英語の講義・講演音声の要約に関しては、BERTとよばれる文の分散表現を用いて、ニューラルネットワークによる重要文/非重要文の識別器を構築し、これによって得られる重要文確率を、従来手法であるMMR法に組み入れる手法を確立し、その有用性を示した。
以上のように、音声認識、翻訳、要約に関して、ほぼ研究計画通り成果を得ることができた。
|
Strategy for Future Research Activity |
本研究課題は、英語音声の認識、翻訳、要約という3つの要素技術からなる。従って、最終年度もこれらの要素技術の精度向上を目指す。 英語の講演・講義音声の認識に関しては、ドメイン適応や話者適応のために、従来はフィルタの適応を行ってきたが、適応するパラメータ数が極端に少なく(これが利点でもあった)、適応の効果に限界があったので、フィルタと第1隠れ層ユニットとの重み(特徴抽出・特徴変換レベル層)も適応する方法を検討する。 英語の講義・講演音声の翻訳に関しては、トピックの分散表現の利用と逆翻訳によるデータ拡張の併用の効果を上げるために、英日翻訳モデルと日英翻訳モデルを同一の翻訳モデルで行う双方向翻訳モデルを構築し、このモデルにトピック情報やデータ拡張を組み入れる。これにより翻訳モデルの誤りに頑健にし、それぞれの効果を発揮させる。また、翻訳モデルとして最新のモデルであるBERT-fused Transformerモデルを採用し、我々の提案方法を実装する。また、翻訳対象の講義・講演音声に類似な単言語コーパスの収集によるデータ拡張により翻訳性能の向上を図る。 英語の講義・講演音声に対する要約に関しては、重要文抽出で得られる要約文には、話し言葉であるため、間投詞や言いよどみ、繰り返し、倒置などが混入しているため可読性に欠けるので、読みやすい表現に整形する手法を検討する。これには、ニューラルネットワークのBART等による抽象型要約の技術を導入する。
|