2012 Fiscal Year Research-status Report
人間対人間の対話情報を事前知識とした情報検索音声対話戦略
Project/Area Number |
23500209
|
Research Institution | Nagoya University |
Principal Investigator |
北岡 教英 名古屋大学, 情報科学研究科, 准教授 (10333501)
|
Co-Investigator(Kenkyū-buntansha) |
武田 一哉 名古屋大学, 情報科学研究科, 教授 (20273295)
宮島 千代美 名古屋大学, 情報科学研究科, 助教 (90335092)
|
Keywords | 音声対話 / 情報検索 / 人間対人間 / 潜在意味 |
Research Abstract |
音声ドキュメントや音楽を対話による検索対象とし、数値的に評価するための検討として、これらの概念を空間上で表現する方法および「類似」の個人による違いの検討を行った。 音声ドキュメントの表現はベクトル空間モデルを基本とするが、単語認識により得られた結果のみを用いた単語頻度に基づくベクトルを用いることにより誤認識の影響を強く受けて空間上の配置に大きな誤りが生じる可能性がある。そこで連続音節認識の結果に基づき、音節の3連鎖の頻度によるベクトルを用いる方法を提案している。これにより、音響的な情報を用いた空間配置が可能となり、誤認識の影響が緩和される。しかし音節の3連鎖は膨大な種類が存在し、ベクトル空間の次元が高くスパースになる問題がある。そこで、一般に単語ベクトルに適用する潜在的意味解析(Latent Semantic Analysis; LSA)を音節3連鎖に適用することを提案した。これにより、低次元化とともに、日本語において意味と直接対応しない音節系列でも、意味的に類似したものを表すもの同士が近くに配置される効果を狙った。実験の結果、音声ドキュメント検索タスクにおいて従来の音節系列を直接用いたものを上回る検索性能が得られた。 音楽は音響特徴に基づいて表現する。主観的な類似と音響的な特徴とを対応させたデータを分析し、個人がどの程度の音響的な類似までを主観的に類似と判断するかという「許容度」が個人性を表現する一要因であるという考えに至った。楽曲ペアを類似と判定するか否かのモデルとして、許容度をパラメータとしたシグモイド関数を仮定してデータからパラメータ推定することにより、個人の類似判定の予測が高精度化したことから、許容度が個人性をある程度表現可能であることを示した。すなわち、音楽メディアの空間配置においては個人の趣向の違いの表現のために距離を変換する操作が必要であることが示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度検索対象として選択した音声ドキュメントと音楽について、対話の事前知識を空間内でのポテンシャルとして表現するという方針に従い、それぞれを距離空間に配置する方法を検討し高度化することができた。 すでに音声対話と音楽との対応付けは我々による提案手法があり、音楽について個人性を表現する変換が得られれば個人適応した検索空間が構築できる見込みができた。 音声ドキュメントは誤認識に対する耐性が向上してきている。 また音声対話自身も音声ドキュメントとみなせること、複数候補を用いることで空間上の複数の点と対応付けられることから、ポテンシャルによりその優先度(確信度)を操作することにより、対話の状態の推定精度を向上させることへの見通しが立った。 上記はいずれも国際会議やいくつかの国内学会において発表しており、音楽については一部論文としても発行され、それぞれに高評価を得ることができた。
|
Strategy for Future Research Activity |
空間上への検索対象の配置から、空間上のポテンシャル関数への変換方法を考案する。音声対話戦略の研究における我々の提案法である、複数理解候補の同時保持と関係づけ、各理解候補の確率という形で表現されることを目指す。 実際に音楽について対話して所望の、雰囲気に合った楽曲を提案したり、POI(Point-of-Interest)について会話し、希望に沿った場所をPOIデータに付属するテキストを検索対象とすることによって提案するなどの具体的システム構築へと進める。並行して会話の意味理解も実行し、高精度に理解が可能となることを示していく。 一方で、音楽の個人性を表現する特徴空間には、さまざまな音響特徴のうちどのような特徴を用いて類似度を判定しているかを反映するという未解決問題がある。空間中の距離の変換を特徴量の種類に依存させる(種類を選択するパラメータを導入する)ことによってより高精度に表現することを考えていく。
|
Expenditure Plans for the Next FY Research Funding |
当該年度には被験者実験のためのノートPCの購入を行わなかった。システム開発は他のPCでも実施可能であり、かつノートPCの新機種は年度が変わってから発売されるため、より高機能・高性能なPCを入手するためにも年度を越えて繰り越したものであり、早期にその執行に充てる予定である。
|