2019 Fiscal Year Research-status Report
モダリティと言語を横断する潜在空間を利用した情報アクセスの研究
Project/Area Number |
19K11980
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 情報アクセス / 情報検索 / 系列変換モデル / 潜在空間 / 音声認識 / 機械翻訳 / 音声翻訳 / 音声ドキュメント検索 |
Outline of Annual Research Achievements |
テクノロジーの発展により人間の音声言語と文字言語は相互交換的に利用され、両者分け隔てることなく記録されつつある。一方、世界では多くの言語が使用されている。言葉のモダリティと言語の差異によって多種多様に表現・記録されている情報にアクセスするためには、表現の差異を横断する仕組みが不可欠である。 本研究では、多種多様な情報の対応付けや相補的利用を可能にする情報アクセス手法の開発を目的とする。この目的のために、情報の(a)モダリティおよび(b)言語の差異を横断した情報アクセスを可能にするための(A)多様な情報表現の変換手法の開発、および(B)共通の潜在空間の獲得とその利用方法の開発、を行う。 本年度は、(A)多様な表現を横断する変換手法、を中心に研究を進めた。(A)の(a)モダリティの差異を横断した情報アクセスの問題として、自由発話音声からの情報検索、および電子カルテから国際疾病コードの検索、を系列変換モデルで実現する手法を検討した。前者では、end-to-end音声認識を基盤に、音声から情報検索のための情報を直接抽出する手法を検討した。後者では、検索における表現スタイルの差の問題に対して敵対性生成ネットワークを用い、(B)共通の潜在空間の獲得とその利用方法の開発、に関する検討も行った。また、(A)の(b)言語の差異を横断した情報アクセスについて、系列変換モデルを用いた機械翻訳の問題に取り組みデータ拡張手法の開発を行った。さらに、(A)の(a)モダリティと(b)言語の差異を同時に扱う問題について、音声翻訳の問題に取り組み、情報の多様な表現を相補的に利用する手法について知見を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、(A)多様な表現を横断する変換手法、を検討した。 まず、(a)モダリティの差異を横断する情報アクセスを、系列変換モデルで実現することを検討した。第1に、自由発話音声からの情報検索を、系列変換モデルによるend-to-end音声認識を基盤にする手法を検討した。従来の音声認識が、音声に含まれる言語情報を文字通りに抽出するのに対し、情報検索に有用な情報を直接抽出する方法を開発中である。自由発話音声クエリを用いた文書検索タスク(SpokenQuery&Doc)テストコレクションを用いて、実装と評価を続けている。第2に、電子カルテに記述された表現から国際疾病コードを検索する問題を、系列変換モデルで実現する手法を開発した。電子カルテには疾病の正式名称が記述されるとは限らず、表現スタイルの差が問題になる。この問題に対して系列変換モデルの潜在表現に敵対性生成ネットワークを用いることを試みた。この成果は、本研究のもう一つの課題である、(B)多様な情報を射影する共通の潜在空間の構築、に応用可能である。 一方、(b)言語の差異を横断する情報アクセスとして、系列変換モデルを用いた機械翻訳の研究を実施した。学習データ不足の問題に対し、翻訳の双対性に着目し2つの言語の単言語コーパスを併用するデータ拡張手法の開発を続けている。本手法は、双対性を持つ他の問題にも適用可能であると考えている。また、(a)と(b)を同時に扱う問題として、音声翻訳の問題にも取り組んだ。系列変換モデルによる音声認識と機械翻訳を連結したカスケードシステムにおいて、書記素と音素を中間表現とする2システムをアンサンブルする頑健な音声翻訳手法を開発した。情報の多様な表現を相補的に利用する情報アクセス手法に応用することを考えている。
|
Strategy for Future Research Activity |
本研究では、多種多様な情報の対応付けや相補的利用のために、モダリティや言語の差異を横断する情報アクセス手法の開発を目的とし、(A)多様な表現を横断する変換手法、および(B)多様な情報を射影する共通の潜在空間の構築、をニューラルネットワークによる系列変換モデルを適用して開発する。 (A)の課題において、自由発話音声からの情報検索を系列変換モデルによるend-to-end音声認識を基盤として、情報検索に有用な情報を直接抽出する手法を検討している。この手法は音声認識と情報検索をカスケード接続する従来手法に対して、end-to-endで情報検索を行う全く新しい視点による研究である。現在は、音声クエリだけを扱っているが、テキストクエリを併用する効果や多様な文書の表現を検索対象にする場合など、種々の発展的な研究課題を見出すことが可能であり、今後も重点を置いて推進していく予定である。 また、この問題を題材に、(B)の問題にも着手していく。系列変換モデルの潜在表現に敵対性生成ネットワークを用いることを、電子カルテからの国際疾病コード検索問題について検討したが、この知見が今後の研究推進に役立つと考えている。また、言語の差異の横断の問題に対しても、引き続き機械翻訳の研究を通して検討していく予定である。
|
Causes of Carryover |
少額の残額を次年度とあわせて有効活用するため。
|