本研究の目的は、大規模なデータベースとウェブの連携による知識獲得のフレームワークの提案と実証である。異種データベース間で共通するレコードや、テキスト中で特定のレコードを指示する記述を同定し、その結果を手がかりとして、共起する属性値どうしをさらに同定したり、周辺に出現する文脈を単語ベクトルとしてあいまい性解消に利用したりする手法を検討する。具体的には、(1)データベースと外部データの相互参照手法の提案と実証、(2)ネットワーク構造を用いた情報同定手法の開発、の2つの目標を設定して研究を進める。 本年度では、まず(2)の情報同定手法について前年度に引き続き研究を進め、論文著者の同定問題を対象として手法の開発および評価を行った。特に、通常の機械学習で判断が困難である著者を同定するために、情報距離に基づく類似度計算法を提案して有効性を示した。また(1)の外部データとの連携について、これまでの研究成果である論文同定・著者同定技術を利用して、多様な観点に基づく情報推薦手法を設計・構築し、実際に大規模な論文データを読み込んで有効性を実証的に確認した。さらに、同定結果に対して意味的な情報を付与するため、自然言語処理技術を用いて論文の本文を解析し、引用文脈から情報を自動獲得する手法の研究に取り組み成果発表を行った。 本研究で開発した論文および著者の同定技術は、研究者の個人ページ、研究プロジェクトのページ、研究ポータル、機関レポジトリが発信する論文や個人業績、OCRで読み込まれた書籍など、様々なウェブ上の資源に適用可能で、学術的なコンテンツに関する情報統合の基盤技術となることが期待される。
|