2018 Fiscal Year Annual Research Report

Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization

Research Project

Project/Area Number	18H01062
Research Institution	Chubu University
Principal Investigator	中川聖一中部大学, 工学部, 特任教授 (20115893)
Co-Investigator(Kenkyū-buntansha)	秋葉友良豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346) 山本一公中部大学, 工学部, 准教授 (40324230)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	音声認識 / 音声翻訳 / 音声要約 / 字幕 / 英語講義音声 / 英語講演音声
Outline of Annual Research Achievements	本研究課題を達成するためには、英語講義音声の音声認識、英語講義音声の要約、英語講義音声の日本語への翻訳という、３つの要素技術が必要となる。これらの要素技術は英語音声を対象としても日本語音声を対象としても、基本技術は同じであるものが多い。本研究では、英語と日本語を対象として研究を進めてきた。音声認識技術に関しては、音声の特徴パラメータの抽出法として、新しい技術を開発し、有効性を示した。すなわち、従来のフーリエ変換に基づく周波数ビンごとの対数振幅スペクトルに3角形状のフィルタを通したあとコサイン変換して得られるメル周波数ケプストラム係数に対して、フィルタの形状を自動学習する方法を開発した。フィルタの形状をガウシアンフィルタやガンマトーンフィルタと仮定し、その中心周波数やゲイン、帯域幅を目標とする音声認識率が高くなるように、ディープニューラルネットワークの重みと共に学習する方法である。この手法により、日本語の講演音声の音声認識率が改善した。また、本手法は話者適応や雑音環境下での音声認識にも有効であることを示した。音声翻訳技術に関しては、まず、英語の論文抄録文章を日本語に翻訳するタスクで検討した。本年度は、複数の翻訳結果候補に対して、文の分散表現を用いたリスコアリング手法による翻訳の改善と文脈情報を用いた翻訳の改善を行った。後者に関しては、対象の当該文の前後の文の意味を考慮して翻訳する手法を開発した。前後の文による文脈情報として、エンコーダ・デコーダ方式の翻訳手法で得られるエンコーダの最終隠れベクトルを各文の意味を表現する文ベクトルと見做して、翻訳対象文に付加して使用した。これにより翻訳精度が少し改善した。同じような手法として、文脈に出現する名詞の分散表現の平均を使用し、英語のTED講演音声に適用し有効性を示した。また、翻訳結果の逆翻訳を用いて、翻訳ペアを増やす方法も検討した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音声認識に関しては、フィルタバンクのニューラルネットワークによる学習法を提案し、新しい音声特徴パラメータ抽出法として大きな成果が得られた。国際会議で発表した論文は、多くの研究に参照され、被引用数も比較的多い。この技術を話者適応や雑音環境下の音声認識にも応用し、その有効性も示した。音声翻訳に関しては、複数の翻訳候補から、文の分散表現や逆翻訳に基づくリスコアリング手法を提案し、最適な翻訳候補を選択することにより翻訳精度を改善できた。また、翻訳対象文の前後の文を文脈情報として用いる手法を提案し、その有用性を示し、この技術を発展させることにより、今後の翻訳手法の改善につながるという見通しが得られた。さらに、翻訳モデルの学習のための翻訳ペアのデータ量が少ない場合の新たな教師なし学習法を提案し、有効性を示した。
Strategy for Future Research Activity	本研究課題を達成するための、音声認識、音声要約、音声翻訳という３つの基本技術のうち、音声要約に関しては、2018年度は未着手であった。今後、これを開発していく必要がある。実際に2019年度に着手し、ニューラルネットワークによる文ベクトルを用いる手法で、成果が得られている。2020年度は、この手法を改善し、音声翻訳手法に組み込むことを考えている。音声認識に関しては、ディープニューラルネットワークによる英語の音響モデルの作成を進めてきたので、これを英語の講義音声や講演音声に適用することを考えている。

Research Products
(11 results)

All 2019 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (8 results) (of which Int'l Joint Research: 1 results) Book (1 results)

[Journal Article] Discriminative learning of filterbank layer within deep neural network based speech recognition for speaker adaptation2019
- Author(s)
  Hiroshi Seki, Kazumasa Yamamoto, Tomoyosi Akiba, Seiichi Nakagawa
- Journal Title
  
  IEICE Transaction, INF.&SYST.
  
  Volume: E102-D, No.2 Pages: 364, 374
- DOI
  10.1587/transinf.2018EDP7252
- Peer Reviewed / Open Access
[Journal Article] 最近の音声言語処理研究の動向　－　筆者の音声認識、音声翻訳、話者認識の研究を中心として　－2019
- Author(s)
  中川聖一
- Journal Title
  
  中部大学工学部紀要
  
  Volume: 54 Pages: 7, 20
- Peer Reviewed / Open Access
[Presentation] 局所的トピック情報を利用した論文抄録(ASPEC)の英日機械翻訳2019
- Author(s)
  渡邊拓斗、高田凌平、佐橋広也、山本一公、秋葉友良、中川聖一
- Organizer
  言語処理学会、第25回年次大会
[Presentation] 科学技術論文抄録と講義音声の英日機械翻訳のリスコアリングの検討2019
- Author(s)
  佐橋広也、秋葉友良、中川聖一
- Organizer
  言語処理学会、第25回年次大会
[Presentation] ニューラル機械翻訳におけるトピック情報の利用2019
- Author(s)
  高田凌平、秋葉友良、塚田元
- Organizer
  言語処理学会、第25回年次大会
[Presentation] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019
- Author(s)
  中島貫太、関博史、山本一公、中川聖一
- Organizer
  電子情報通信学会、総合大会
[Presentation] Encoder-decoderネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019
- Author(s)
  関博史、山本一公、秋葉友良、中川聖一
- Organizer
  日本音響学会、春季研究発表会
[Presentation] Rapid speaker adaptation of neural network based filterbank layer for automatic speech recognition2018
- Author(s)
  Hiroshi Seki, Kazumasa Yamamoto, Tomoyosi Akiba, Seiichi Nakagawa
- Organizer
  IEEE on Spoken Language Technology Workshop
- Int'l Joint Research
[Presentation] 統計的機械翻訳とニューラル翻訳による翻訳候補の文の分散表現に基づくリスコアリングの検討2018
- Author(s)
  佐橋広也、西村友樹、秋葉友良、中川聖一
- Organizer
  情報処理学会、音声言語情報処理研究会
[Presentation] 双方向の逆翻訳を利用したニューラル機械翻訳の教師なし適応の検討2018
- Author(s)
  森田知煕、秋葉友良、塚田元
- Organizer
  情報処理学会、第5回自然言語処理シンポジュウム
[Book] 音声言語処理と自然言語処理（増補）2018
- Author(s)
  中川聖一（編著）、小林聡、峯松信明、宇津呂武仁、秋葉友良、北岡教英、山本幹雄、甲斐充彦、山本一公、土屋雅稔（共著）
- Total Pages
  288
- Publisher
  コロナ社
- ISBN
  978-4-339-02888-1

2018 Fiscal Year Annual Research Report

Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization

Principal Investigator

中川 聖一 中部大学, 工学部, 特任教授 (20115893)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Discriminative learning of filterbank layer within deep neural network based speech recognition for speaker adaptation2019

Author(s)

Journal Title

DOI

[Journal Article] 最近の音声言語処理研究の動向 － 筆者の音声認識、音声翻訳、話者認識の研究を中心として －2019

Author(s)

Journal Title

[Presentation] 局所的トピック情報を利用した論文抄録(ASPEC)の英日機械翻訳2019

Author(s)

Organizer

[Presentation] 科学技術論文抄録と講義音声の英日機械翻訳のリスコアリングの検討2019

Author(s)

Organizer

[Presentation] ニューラル機械翻訳におけるトピック情報の利用2019

Author(s)

Organizer

[Presentation] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019

Author(s)

Organizer

[Presentation] Encoder-decoderネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019

Author(s)

Organizer

[Presentation] Rapid speaker adaptation of neural network based filterbank layer for automatic speech recognition2018

Author(s)

Organizer

[Presentation] 統計的機械翻訳とニューラル翻訳による翻訳候補の文の分散表現に基づくリスコアリングの検討2018

Author(s)

Organizer

[Presentation] 双方向の逆翻訳を利用したニューラル機械翻訳の教師なし適応の検討2018

Author(s)

Organizer

[Book] 音声言語処理と自然言語処理（増補）2018

Author(s)

Total Pages

Publisher

ISBN

中川聖一中部大学, 工学部, 特任教授 (20115893)

[Journal Article] 最近の音声言語処理研究の動向　－　筆者の音声認識、音声翻訳、話者認識の研究を中心として　－2019