2009 Fiscal Year Annual Research Report

データベースとウェブの連携による情報の獲得と利用に関する研究

Research Project

Project/Area Number	21300058
Research Institution	National Institute of Informatics
Principal Investigator	相澤彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)
Keywords	ウェブ文章 / データベース / 情報同定 / 固有表現参照 / 学術コンテンツ
Research Abstract	本研究の目的は、大規模なデータベースとウェブの連携による知識獲得のフレームワークの提案と実証である。異種データベース間で共通するレコードや、テキスト中で特定のレコードを指示する記述を同定し、その結果を手がかりとして、共起する属性値どうしをさらに同定したり、周辺に出現する文脈を単語ベクトルとしてあいまい性解消に利用したりする手法を検討する。具体的には、(1)データベースとウェブの相互参照手法の提案と実証、(2)情報同定ネットワークの構築と実証、の2つの目標を設定して研究を進める。本年度は、(2)の網羅性が高い大規模なデータを対象とした情報同定ネットワークの実現を目標として研究を進めた。具体的には、論文データベースの論文の著者を対象として、論文著者を対象とした同定(著者が同一人物であるかの判定)を行うエンジンの構成を設計し、実際にプロトタイプを試作してのべ数約8千万人の著者の同定を行った。現実の同定処理では、AとB、BとCが同じであるときにAとCは同じであるか(推移律)の判断が大きな問題となるが、同定候補ペアに機械学習を適用して得られるネットワーク表現上でクラスタリングを適用することで、あいまい性の解消を行う手法を提案して有効性を検証した。また、作業の効率から正例に偏りがちな人手判定正解データに対して疑似的に負例を追加することで、性能が大幅に改善することを示した。本研究で試作したプロトタイプシステムは、2010年4月に公開された国立情報学研究所の著者検索サービスという形で実証されている。上記により、所属の変遷や表記揺れなどからデータベース中でばらばらに存在していた論文著者の情報を、比較的高い精度で同定することが可能になった。現在、著者ごとに集約した情報をプロファイルとして、ウェブを含む任意の文書を選別する方法を検討中であり、来年度も継続して研究を進める予定である。

Research Products
(5 results)

All 2010 2009

All Presentation (5 results)

[Presentation] 視線情報を用いたユーザプロファイル獲得と圧縮距離による文書推薦2010
- Author(s)
  長谷川新, 相澤彰子, 浜本隆之
- Organizer
  電子情報通信学会2010年総合大会
- Place of Presentation
  東北大学(仙台)
- Year and Date
  2010-03-18
[Presentation] 名前同定のためのSVM特徴素の抽出と適用2010
- Author(s)
  港真人, 相澤彰子
- Organizer
  情報処理学会創立50周年記念全国大会
- Place of Presentation
  東京大学(東京)
- Year and Date
  2010-03-08
[Presentation] 論文データベースに見る統計分野の研究動向2009
- Author(s)
  中村智洋, 相澤彰子, 馬場康維
- Organizer
  2009年度統計関連学会連合大会
- Place of Presentation
  同志社大学(京都)
- Year and Date
  2009-09-08
[Presentation] 参照記述の表記揺れ同定問題に対するアプローチ2009
- Author(s)
  相澤彰子, 宮田淳平
- Organizer
  第25回ファジィシステムシンポジウム(FSS2009)
- Place of Presentation
  筑波大学(茨城)
- Year and Date
  2009-07-15
[Presentation] パーソナライゼーションにおけるトピックを意識しない類似度測定2009
- Author(s)
  長谷川新, 相澤彰子, 浜本隆之
- Organizer
  人工知能学会2009年全国大会
- Place of Presentation
  サンポートホール高松(香川)
- Year and Date
  2009-06-18

2009 Fiscal Year Annual Research Report

データベースとウェブの連携による情報の獲得と利用に関する研究

Principal Investigator

相澤 彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)

Research Products

[Presentation] 視線情報を用いたユーザプロファイル獲得と圧縮距離による文書推薦2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 名前同定のためのSVM特徴素の抽出と適用2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 論文データベースに見る統計分野の研究動向2009

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 参照記述の表記揺れ同定問題に対するアプローチ2009

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] パーソナライゼーションにおけるトピックを意識しない類似度測定2009

Author(s)

Organizer

Place of Presentation

Year and Date

相澤彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)