本課題では,人間の発話に着目し、そのプロセスをモデル化することを目的としていた。その成果として、発話を行う上で重要となる話題の選定システムを構築することに成功している。特に,研究計画では話題抽出・話題選定の素材として新聞記事を想定していたが、より人間らしい会話を実現するために,Twitterのログデータを1年分入手し、テキストマイニング装置を用いて解析を行うことによって、話題候補の抽出を行った。その際,話題が人間の趣味趣向に適合するかを判定するため、日本語語彙体系を上位ノードとして持つWikipediaの階層構造化を行った。このシソーラスを利用し、関連度計算法を組み合わせることによって、対話の流れから人間に提示すべき話題を柔軟に抽出することを可能としている。なお、本業績については,言語処理学会第18回年次大会において報告済みである。 今後は選定された話題を元に発話生成に関する研究を進めていく。 また、話題選定の基盤をなす関連度計算を提供するための概念ベース構築を行った。概念ベースは従来,電子化辞書などを機械的に解析することによって構築されていたが、精錬作業においては人手が介在しており,その再現性が極めて低い物となっていた。本研究では、テキストマイニング装置を組み込むことにより、従来人手で処理していた連想語群の取得について完全な自動化を目指し、属性集合を黙視評価することによって、完全な自動構築の可能性を示した。本件については情報処理学会第75回全国大会,並びに言語処理学会第19回年次大会において報告済みである。 本課題では、発話プロセスのモデル化とその評価を目的としていたが、発話生成というフェーズを除いて計画通りに実施できており、今後の研究にもつながっていく成果を得ることが出来ている。
|