2006 Fiscal Year Annual Research Report
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
18049069
|
Research Institution | National Institute of Informatics |
Principal Investigator |
安達 淳 国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)
|
Co-Investigator(Kenkyū-buntansha) |
大山 敬三 国立情報学研究所, コンテンツ科学研究系, 教授 (90177022)
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
江口 浩二 神戸大学, 大学院・自然科学研究科, 助教授 (50321576)
井上 雅史 国立情報学研究所, コンテンツ科学研究系, 助手 (50390597)
|
Keywords | 情報検察 / 情報リンケージ / 大規模コーパス / テキスト処理 / 機械学習 |
Research Abstract |
本研究は、インターネット上で公開される各種テキストや個人・組織が管理する文書を対象として、関連する情報を結び付ける「情報リンケージ」プラットフォームの実現を目的とする。平成18年度は、情報リンケージプラットフォームの要素技術となる下記の研究に取り組んだ。 ・多様な情報を扱うための統計モデルの研究 本研究は、関係データベースのような構造化されたデータおよび文書のような半構造データを対象としている。本年度は、半構造データのリンケージの基本技術として木構造を持ったデータのマッチングアルゴリズムおよびマッチングのための類似度関数の学習問題に取り組み、効率の良い学習/マッチングアルゴリズムを考案した。また、木構造の各ノードに割当てられた文字列の類似度を計算するための効率的なアルゴリズムを開発した。 ・モノ検索およびリンケージモデルの研究 本年度は、効果的な情報を抽出するための特徴量の抽出問題に取り組んだ。まず、一般的な文書に対する検索のために、文書の背景にあるトピックを抽出することを試み、ベイズ学習の枠組みで抽出したトピックに基づいた文書の分類法を提案した。また、文書中に記述されているさまざまな意見を考慮した検索を実現するための、言語モデルを構築し、このモデルに基づいた意見情報検索法を提案した。さらに、文書中に現れる人物の同定問題に取り組み、Web上に存在するディレクトリを利用して、特定人物に関する情報をWebから検索する方法を考案した。 これらの要素技術に関する研究と並行して、大規模データベースを利用したエンティティの同定システムの構築を行い、学術文献や研究者を対象としたリンケージサーバを試作した。
|