2009 Fiscal Year Annual Research Report
データベースとウェブの連携による情報の獲得と利用に関する研究
Project/Area Number |
21300058
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)
|
Keywords | ウェブ文章 / データベース / 情報同定 / 固有表現参照 / 学術コンテンツ |
Research Abstract |
本研究の目的は、大規模なデータベースとウェブの連携による知識獲得のフレームワークの提案と実証である。異種データベース間で共通するレコードや、テキスト中で特定のレコードを指示する記述を同定し、その結果を手がかりとして、共起する属性値どうしをさらに同定したり、周辺に出現する文脈を単語ベクトルとしてあいまい性解消に利用したりする手法を検討する。具体的には、(1)データベースとウェブの相互参照手法の提案と実証、(2)情報同定ネットワークの構築と実証、の2つの目標を設定して研究を進める。 本年度は、(2)の網羅性が高い大規模なデータを対象とした情報同定ネットワークの実現を目標として研究を進めた。具体的には、論文データベースの論文の著者を対象として、論文著者を対象とした同定(著者が同一人物であるかの判定)を行うエンジンの構成を設計し、実際にプロトタイプを試作してのべ数約8千万人の著者の同定を行った。現実の同定処理では、AとB、BとCが同じであるときにAとCは同じであるか(推移律)の判断が大きな問題となるが、同定候補ペアに機械学習を適用して得られるネットワーク表現上でクラスタリングを適用することで、あいまい性の解消を行う手法を提案して有効性を検証した。また、作業の効率から正例に偏りがちな人手判定正解データに対して疑似的に負例を追加することで、性能が大幅に改善することを示した。本研究で試作したプロトタイプシステムは、2010年4月に公開された国立情報学研究所の著者検索サービスという形で実証されている。 上記により、所属の変遷や表記揺れなどからデータベース中でばらばらに存在していた論文著者の情報を、比較的高い精度で同定することが可能になった。現在、著者ごとに集約した情報をプロファイルとして、ウェブを含む任意の文書を選別する方法を検討中であり、来年度も継続して研究を進める予定である。
|