研究課題/領域番号 |
19K11980
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 情報アクセス / 情報検索 / 系列変換モデル / 潜在空間 / 音声認識 / 機械翻訳 / 音声翻訳 / 音声ドキュメント検索 |
研究実績の概要 |
テクノロジーの発展により人間の音声言語と文字言語は相互交換的に利用され、両者分け隔てることなく記録されつつある。一方、世界では多くの言語が使用されている。言葉のモダリティと言語の差異によって多種多様に表現・記録されている情報にアクセスするためには、表現の差異を横断する仕組みが不可欠である。本研究では、多種多様な情報の対応付けや相補的利用を可能にする情報アクセス手法の開発を目的とする。この目的のために、情報の(a)モダリティおよび(b)言語の差異を横断した情報アクセスを可能にするための(A)多様な情報表現の変換手法の開発、および(B)共通の潜在空間の獲得とその利用方法の開発、を行う。 当該年度は、引き続き(A)の開発を進めつつ、いくつかの問題設定において(B)の検討を始めた。 (a)の(A)として、系列変換モデルを用いる手法を引き続き検討した。電子カルテから国際疾病コードを検索する問題に対しては、言語表現の事前学習モデルを用いることで表現スタイルの差の問題に対処する手法を検討した。音声認識の問題に対しては、音声合成を用いたデータ拡張手法の開発を行った。音声ドキュメント検索の問題に対しては、end-to-end音声認識を基盤に、音声から情報検索のための情報を直接抽出する手法を開発した。さらに(a)の(B)として、音声から共通の潜在空間を直接抽出し検索に利用手法の検討に着手した。 (b)の(A)として、系列変換モデルを用いた機械翻訳の問題に引き続き取り組み、多様なサンプルを自動的に生成するデータ拡張手法の開発、およびそれを用いた翻訳モデル学習方法を検討した。また(b)の(B)を検討するため、双方向の翻訳を一つのモデルで実現する手法を実装した。 さらに(a)と(b)を同時に扱う(A)として、系列変換モデルを用いた音声翻訳の問題に取り組み、音声合成を用いたデータ拡張手法の開発を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(a)モダリティの差異を横断する情報アクセスについて、第1に、電子カルテに記述された表現から国際疾病コードを検索する問題を、系列変換モデルで実現する手法を引き続き検討した。ここでは学習データと実際のデータの間の表現スタイルの差が問題であったが、新たに大量の医療文書を用いた事前学習モデルを利用する手法を検討した。第2に、音声からテキストへの変換である音声認識の問題に対して、逆向きの変換である音声合成を利用して学習データを擬似的に拡張する手法を開発し変換精度の向上を達成した。第3に、音声ドキュメント検索の問題に対しては、音声からテキストを介さずに直接情報検索に有用な情報を抽出する方法を開発した。この方法を発展させて、検索モデルの内部表現を直接出力するように音声認識と文書検索の共通の潜在空間を構築する手法に着手した。 (b)言語の差異を横断した情報アクセスについて、系列変換モデルを用いた機械翻訳の問題に取り組んだ。学習データ不足の問題に対し、翻訳の双対性に着目し2つの言語の単言語コーパスを併用するデータ拡張手法の研究を継続した。特に当該年度は、多様な学習サンプルを生成する手法、およびそれを利用した効果的な学習方法を開発し、大きな性能向上を確認した。また、双方向の翻訳を一つのモデルで実現する手法を実装し、単方向のモデルと同程度の性能を確認した。これにより、言語を跨がる共通の潜在空間を構築するための基盤を構築した。また、翻訳モデルの入力を対応する音声発話に置き換えることで、(a)モダリティと(b)言語の差異を同時に扱う音声翻訳の問題にも取り組んだ。音声認識と同様に、逆向きの変換である音声合成を利用して学習データを擬似的に拡張する手法を開発した。音声を入力とする場合、話者の多様性が問題となるが、これに対し話者非依存の特徴量を抽出する手法を開発し変換精度の向上を確認した。
|
今後の研究の推進方策 |
本研究では、多種多様な情報の対応付けや相補的利用のために、モダリティや言語の差異を横断する情報アクセス手法の開発を目的とし、(A)多様な表現を横断する変換手法、および(B)多様な情報を射影する共通の潜在空間の構築、をニューラルネットワークによる系列変換モデルを適用して開発する。 自由発話音声からの情報検索を系列変換モデルによるend-to-end音声認識を基盤として、(A)の課題において、情報検索に有用な情報を直接抽出する手法を実現した。これを発展させた(B)の課題として、音声認識と文書検索の共通の潜在空間を構築し、音声クエリと検索対象文書をこの空間に直接マッピングする手法を開発する。国際疾病コードの検索問題で得た、敵対性生成ネットワークによる潜在空間の構築、および大量のデータを用いた事前学習モデルの活用も試みる。 また、これまで扱ってきた、end-to-endの音声認識、機械翻訳、音声翻訳の研究も引き続き継続する。データ拡張の問題は、大量の学習データを要する深層学習に共通する問題であり、引き続き検討を進める。これらの研究で得た知見を統合し、最終的には、音声およびテキストで表現されたクエリおよび文書をすべて共通の空間へマッピングする手法を検討する。
|
次年度使用額が生じた理由 |
世界的なコロナ・パンデミックにより、予定していた研究調査および対外発表旅費をキャンセルしたため。次年度は対外発表を積極的に進めるとともに、研究を効率的に進めるために計算資源を増強することを計画している。
|