本研究では、テキストで記述された言語情報と音声で記録された言語情報が分け隔てなく蓄積されるようになる未来を見据えて、両モダリティを統一的に、かつ各モダリティの特徴を活かしつつ、互いの利点を併用する音声言語情報アクセス技術を開発する。この視点から、研究課題を、(A)情報要求の利用法、(B)不均質な検索対象に対する検索手法、(C)情報提示法のそれぞれに設定した。本年度は(B)に研究リソースを割いて実施した。 (B)について、これまでに検索対象として講演音声と発表用プレゼンテーションスライドに含まれるテキスト情報が混在する不均衡なテストコレクションを構築してきた。このテストコレクションに対し、音声とテキストを相補的に併用し、かつプレゼンテーションスライドの構造を利用する検索手法を開発した。プレゼンテーションスライドの構造を利用する手法としては、スライドの各構成要素の役割を考慮し情報の統合を行う手法と、スライドの種類(例えば、箇条書きテキストで言語情報で情報を伝えるスライド、図・表を中心に視覚的な情報を提供して音声で説明をするスライド、など)を考慮して音声との関係を利用する手法、を検討した。 また、音声ドキュメントとテキストの中間的な検索対象として、Twitterなどに代表されるマイクロブログに着目し、擬似的に作成したラベル付きマイクロブログと自動的に獲得したラベル無しマイクロブログから成る不均一な学習テキストを用いて、クラス分類を行う手法を、引き続き検討した。自動獲得した学習テキストはラベルの精度は低いものの、実際のマイクロブログポストに含まれる多様な表現を含むため、有益な資源として利用できることが分かった。また、人手作成データと自動獲得データを使ってニューラルネットワークベースの分類機をより効果的に学習する手法を検討した。
|