2010 Fiscal Year Annual Research Report
データベースとウェブの連携による情報の獲得と利用に関する研究
Project/Area Number |
21300058
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Keywords | ウェブ文章 / データベース / 情報固定 / 固有表現参照 / 学術コンテンツ |
Research Abstract |
本研究の目的は、大規模なデータベースとウェブの連携による知識獲得のフレームワークの提案と実証である。異種データベース間で共通するレコードや、テキスト中で特定のレコードを指示する記述を同定し、その結果を手がかりとして、共起する属性値どうしをさらに同定したり、周辺に出現する文脈を単語ベクトルとしてあいまい性解消に利用したりする手法を検討する。具体的には、(1)データベースと外部データの相互参照手法の提案と実証、(2)ネットワーク構造を用いた情報同定手法の開発、の2つの目標を設定して研究を進める。 本年度は、まず(2)の情報同定手法について、論文著者の同定問題を対象として手法の開発および評価を進めた。情報同定の処理を、(a)同定ペア候補抽出、(b)機械学習手法による候補ペアの同一性判定、(c)獲得されるネットワーク構造上でのクラスタリングおよび統合によるクリーニング、の3つのステップにまとめ、各々について、昨年度開発した手法を詳細に評価し、改善手法を検討した。これに先立って、サンプリング方法に注意しながら人手判定用のデータを作成し、評価用データセットを構築した。また、最終的に(b)の機械学習で判断が困難である候補ペアについて、関連文書の内容(抄録・本文)解析による同一性判定を行うため、情報距離に基づく類似度計算法を新たに提案した。また(1)の外部データとの連携について、(2)によりエンティティ(対象)ごとに集約した情報を使った、情報推薦手法の検討を進めた。特に内容に基づく推薦手法に焦点をあてて検討を進めるとともに、評価のための実証基盤の開発に取り組んだ。 最終年度となる来年度は、これまでに提案した手法の評価および改善を行うとともに、外部データとの連携について取り組む予定である。また、関連文書の内容の解析による同定性能の向上やデータクリーニング手法について、適用対象を拡大しながら、検討を進めたい。
|