2010 Fiscal Year Annual Research Report
類義語検索とタグ付き自然言語検索を組み合わせた意外で価値ある情報の発見支援
Publicly Offered Research
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
21013051
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
鳥澤 健太郎 独立行政法人情報通信研究機構, 知識創成コミュニケーション研究センター言語基盤グループ, グループリーダー (70282712)
|
Co-Investigator(Kenkyū-buntansha) |
黒田 航 独立行政法人情報通信研究機構, 知識創成コミュニケーション研究センター・言語基盤グループ, 研究員 (30425764)
村田 真樹 鳥取大学, 大学院・工学研究科・情報エレクトロニクス専攻, 教授 (50358884)
|
Keywords | インターネット高度化 / 情報検索 / 知識獲得 / 自然言語 / テキストマイニング |
Research Abstract |
本研究の目的は、平成20年度までに開発した検索ディレクトリ「鳥式」にあるトラブル、ツールのような固定されたカテゴリに加えて、ユーザが、鳥式上の関連語の新規なカテゴリを設定することを可能とし、情報の深堀りを可能とすることである。本年度は通常の自然言語で書かれた質問文で、ある語と意味的関係を持つ語の集合を回答とするようなものに対して、Web6億ページから回答を抽出するエンジンを開発した。また、情報通信研究機構の既存技術である音声認識器とそのエンジンを接続することで、スマートフォンに音声で入力された質問に回答できるシステムを開発した。処理できる質問文は、「デフレの原因」から「病気の予防策」「特定の材料を使うメニュー」「ある国から輸入されているもの」「テレビ番組のキャラクター」「哲学的な概念の提唱者」「作曲家の作品」まで非常に広範囲にわたるが、これは結局のところ、鳥式上の関連語の新規なカテゴリをオンラインで設定していることに他ならない。また、一部のタイプに対する質問の回答は対象となっているWeb文書6億ページに陽に書いてあるものにとどまらず、やはり我々が開発したアルゴリズムによって、自動発見された推論規則によって「推測」された回答や、類推によって推測された回答も含み、こうした回答はその根拠とともにユーザに提示される。こうした意味で、開発したシステムは従来の質問応答システムとは一線を画す。また、システムは音声認識から回答の抽出、推測までサーバー一台でほぼリアルタイムで動作する。これはやはり従来の類似システムが巨大な計算パワーを要したのと対照をなす。なお、システムの動作状況を示すデモビデオがhttp://www2.nict.go.jp/x/x161/で視聴できる。
|
Research Products
(12 results)