2010 Fiscal Year Annual Research Report
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
18049069
|
Research Institution | National Institute of Informatics |
Principal Investigator |
安達 淳 国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)
|
Co-Investigator(Kenkyū-buntansha) |
大山 敬三 国立情報学研究所, コンテンツ科学研究系, 教授 (90177022)
|
Keywords | 情報検索 / 情報リンケージ / 大規模コーパス / テキスト処理 / 機械学習 |
Research Abstract |
本研究は、インターネット上で公開される各種テキストや個人・組織が管理する文書を対象として、関連する情報を結び付ける「情報リンケージ」プラットフォームの実現を目的とする。平成22年度は、情報リンケージプラットフォームの要素技術となる下記の研究に取り組んだ。 1.類似検索索引の研究 大量の情報の中から類似するデータを高速に見つけ出すことを目的とした、類似検索索引と近傍ペア探索アルゴリズムの開発に取り組んだ。本研究は適応型空間多分割による分割統治法のk最近傍ペア探索手法、Adaptive Multi Partitioning(AMP)を提案した。AMPはPivotからオブジェクトまでの距離が分散している空間から順に分割・統治のステップでk最近傍ペアを探索する。距離に対するオブジェクトの分散は、距離の分布の歪度をもとに判断する。本手法は、距離に対するオブジェクトの分布が密な空間のほうが、収束した上限値による枝刈りの効果が大きいことを利用しており、実験的にその効果を示した。 2.高速な木類似度計算手法の開発 昨年度に引き続き、木の類似度を高速に計算するアルゴリズムの研究を行った。今年度はNP困難な問題である無順序木の編集距離を、距離がk以下の場合に、多項式時間で計算するfix parameterアルゴリズムを開発した。構築したアルゴリズムは動的計画法に基づくもので、パラメタK、木の大きさnに対して上記の制約のもとで多項式時間で計算可能なことを示した。 3.情報リンケージシステムの構築と実証 昨年度に引き続き情報リンケージシステムの構築と実証実験を行った。昨年度までに大規模な書誌および著者情報の統合のためのリンケージサーバは構築してきたが、本年度はこのサーバに改良を加えるとともに、リンケージされた学術情報を能動的に利用者に提示する論文推薦システムについての検討を行った。このシステムの一部を実装し、その有効性の検証を行っている。
|
Research Products
(11 results)