2017 Fiscal Year Research-status Report
音声言語と文字言語の統一的および相補的利用による音声言語情報アクセスの研究
Project/Area Number |
16K00153
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 情報検索 / 音声ドキュメント検索 / 文字言語 / 音声言語 / 自由発話音声 |
Outline of Annual Research Achievements |
本研究では、テキストで記述された言語情報と音声で記録された言語情報が分け隔てなく蓄積されるようになる未来を見据えて、両モダリティを統一的に、かつ各モダリティの特徴を活かしつつ、互いの利点を併用する音声言語情報アクセス技術を開発する。この視点から、研究課題を、(A)情報要求の利用法、(B)不均質な検索対象に対する検索手法、(C)情報提示法のそれぞれに設定した。本年度は(A)、(B)に研究リソースを割いて実施した。 ((A)について、より現実的な設定を考慮し、長く多くの手がかりを含むが確実ではない自由発話音声クエリと、短いが確実な手がかりとなるテキストキーワードクエリを併用する情報要求の表現方法を検討した。昨年度までに構築した音声から再編集したテキストクエリを被験者に提示し、情報要求を表す短いキーワードクエリを新たに作成してもらうことで、自由発話音声クエリとキーワードクエリから成る新たなクエリセットを構築した。また、このクエリセットを用いて、自由発話音声クエリとテキストキーワードクエリを併用する情報検索手法の開発を行った。両者の併用は相補的な効果があり、検索性能の向上が確認できた。また、2種のクエリの相対的な重要度を自動的に決定する手法を開発し、実験によりその効果を確認した。 (B)について、検索対象として音声とテキスト情報が混在する不均衡なテストコレクションを構築している。両者の持つ情報を統合する手法を種々検討し、比較実験を行った。また、音声ドキュメントとテキストの中間的な検索対象として、マイクロブログに着目し、人手で構築したマイクロブログと実際に収集したマイクロブログから成る不均一な学習テキストを用いて、クラス分類を行う手法を検討した。ノイズを多く含むが構築コストが低い自動獲得データを、整った人手構築データと併用することで、分類性能が改善できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、テキストで記述された言語情報と音声で記録された言語情報が分け隔てなく蓄積されるようになる未来を見据えて、両モダリティを統一的に、かつ各モダリティの特徴を活かしつつ、互いの利点を併用する音声言語情報アクセス技術を開発する。この視点から、研究課題を、(A)情報要求の利用法、(B)不均質な検索対象に対する検索手法、(C)情報提示法のそれぞれに設定した。本年度は(A)、(B)に研究リソースを割いて実施した。 (A)については、短いテキストクエリを自由発話音声と併用するというより現実的な問題設定を採用し、その評価のためのテストコレクション構築から、手法の開発、評価実験まで、大きな進展があった。また、これまでに開発してきた自由発話音声に含まれる音響的特徴から検索への貢献度を推定する手法を、最新の再帰的ニューラルネットワークを用いて改良を行った。 (B)については、音声とテキストが混在する検索対象については、昨年度までに構築したテストコレクションを用いて基本的な検討を行ったところである。昨年度から新たに検討を開始したマイクロブログを対象とした研究は、クラス分類問題での不均一な学習データの扱いについて進展を得た。 全体としては、概ね順調に進展していると考える。
|
Strategy for Future Research Activity |
本研究では、テキストで記述された言語情報と音声で記録された言語情報が分け隔てなく蓄積されるようになる未来を見据えて、両モダリティを統一的に、かつ各モダリティの特徴を活かしつつ、互いの利点を併用する音声言語情報アクセス技術を開発する。この視点から、研究課題を、(A)情報要求の利用法、(B)不均質な検索対象に対する検索手法、(C)情報提示法のそれぞれに設定した。 (A)については、Web文書などの他の検索対象についても複数モダリティによる情報要求利用の有効性を確認する。(B)については、複数モダリティによる不均一な検索対象の扱いについて、より高度な手法を検討する。具体的には、昨年度に(A)で開発した各モダリティの相対的重要度を自動的に決定する方法が、検索対象の文書でも利用できると考え、検討を進めて行く。第3のメディアであるマイクロブログの混在する検索対象についても引き続き研究を進める。昨年度までに以上の(A)(B)に多くの研究課題を見出しているため、(C)は実施せず、代わりに(A)(B)に研究リソースを集中する。
|
Research Products
(7 results)