• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

情報爆発時代の情報検索基盤技術

計画研究

研究領域情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号 18049069
研究機関国立情報学研究所

研究代表者

安達 淳  国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)

研究分担者 大山 敬三  国立情報学研究所, コンテンツ科学研究系, 教授 (90177022)
キーワード情報検索 / 情報リンケージ / 大規模コーパス / テキスト処理 / 機械学習
研究概要

本研究は、インターネット上で公開される各種テキストや個人・組織が管理する文書を対象として、関連する情報を結び付ける「情報リンケージ」プラットフォームの実現を目的とする。平成21年度は、情報リンケージプラットフォームの要素技術となる下記の研究に取り組んだ。
1. 語彙マッチングに基づいたレコードリンケージ
単語列やレコードで表されたデータ対が与えられときに、単語の対応付けを行うとともに、その結果に基づいた単語列対の類似度を計算し、そのペアが同じ実体を表しているかどうかを判定する方法を提案した。提案手法はCRFと呼ばれる確率モデルに基づいたシーケンス解析技術を拡張したもので、先行研究と比較して良好なマッチング精度を得ることができた。
2. 類似検索索引の研究
汎用的な類似検索索引法として、メトリック空間上の効率の良い索引法を考案した。この手法は、空間上のクラスタ境界面の幅(マージン)を最大化することによって効果的な空間分割を行うもので、既存手法と比較し、検索処理時間を2/3程度に削減できることを示した。
3. 高速な木類似度計算手法の開発
昨年度に引き続き、木の類似度を高速に計算するアルゴリズムの研究を行った。今年度はNP困難な問題である無順序木の編集距離を多項式時間で近似検索するアルゴリズムを開発した。
4. アカデミックリンケージシステムの構築と実証
本年度は、対象を書誌から著者に拡張し、大規模な著者同定を実現するための要素技術の検討とシステムの設計を行った。具体的には、候補検索モジュールと同定モジュールを組み合わせて、さらにグラフ構造に基づくクラスタリングを行うラベリングモジュール、クリーニングおよび情報同定を行う情報統合モジュールを組み合わせたシステムを実装し、実際に数千万人規模の著者同定を行って実用性を確認した。

  • 研究成果

    (13件)

すべて 2010 2009

すべて 雑誌論文 (6件) (うち査読あり 6件) 学会発表 (7件)

  • [雑誌論文] Margin-based Pivot Selection for Similarity Search Indexes2010

    • 著者名/発表者名
      Hisashi Kurasawa,Daiji Fukagawa, Atsuhiro Takasu, Jun Adachi
    • 雑誌名

      IEICE Transactions on Information and Systems vol.93-D(To appear)

    • 査読あり
  • [雑誌論文] Load Balancing Scheme on the basis of Huffman coding for P2P Information Retrieval2009

    • 著者名/発表者名
      Hisashi Kurasawa, Atsuhiro Takasu, Jun Adachi
    • 雑誌名

      IEICE Transactions on Information and Systems vol.E92-D

      ページ: 2064-2072

    • 査読あり
  • [雑誌論文] Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy2009

    • 著者名/発表者名
      Yuxin Wang, Keizo Oyama
    • 雑誌名

      IPSJ Transactions on Databases 2巻

      ページ: 29-43

    • 査読あり
  • [雑誌論文] Maximal Metric Margin Partitioning for Similarity Search Indexes2009

    • 著者名/発表者名
      Hisashi Kurasawa, Daiji Fukagawa, Atsuhiro Takasu, Jun Adachi
    • 雑誌名

      18th ACM Conference on Information and Knowledge Management(CIKM2009)

      ページ: 1887-1890

    • 査読あり
  • [雑誌論文] Constant factor approximation of edit distance of bounded height unordered trees2009

    • 著者名/発表者名
      Daiji Fukagawa, Tatsuya Akutsu, Atsuhiro Takasu
    • 雑誌名

      Lecture Note in Computer Science vol.5721

      ページ: 7-17

    • 査読あり
  • [雑誌論文] A Versatile Record Linkage Method by Term Matching Model Using CRF" Lecture Note in Computer Science2009

    • 著者名/発表者名
      Quang Minh Vu, Atsuhiro Takasu, Jun Adachi
    • 雑誌名

      IEICE Transactions on Information and Systems vol.5690

      ページ: 547-560

    • 査読あり
  • [学会発表] コミュニティベースQ&Aからの類似質問検索手法2010

    • 著者名/発表者名
      高橋輝, 高須淳宏, 安達淳
    • 学会等名
      情報処理学会創立50周年記念(第72回)全国大会, 6ZC-2
    • 発表場所
      東京大学本郷キャンパス工学部5号館(東京都)
    • 年月日
      2010-03-11
  • [学会発表] 専門用語の専門度の指標に関する一考察2010

    • 著者名/発表者名
      内山清子, 鈴木崇史, 相澤彰子
    • 学会等名
      言語処理学会第16回年次大会, PA2-25
    • 発表場所
      東京大学本郷キャンパス福武ホールスタジオ(東京都)
    • 年月日
      2010-03-10
  • [学会発表] 高さ制約付き無順序木の高速類似検索アルゴリズムについて2010

    • 著者名/発表者名
      深川大路, 阿久津達也, 高須淳宏, 安達淳
    • 学会等名
      情報処理学会創立50周年記念(第72回)全国大会, 2K-1
    • 発表場所
      東京大学本郷キャンパス工学部5号館(東京都)
    • 年月日
      2010-03-09
  • [学会発表] 索引木の均衡を考慮した類似検索索引手法2010

    • 著者名/発表者名
      倉沢央, 深川大路, 高須淳宏, 安達淳
    • 学会等名
      情報処理学会創立50周年記念(第72回)全国大会, 2K-2
    • 発表場所
      東京大学本郷キャンパス工学部5号館(東京都)
    • 年月日
      2010-03-09
  • [学会発表] マージン最大化によるメトリック空間分割手法2009

    • 著者名/発表者名
      倉沢央, 深川大路, 高須淳宏, 安達淳
    • 学会等名
      WebDB forum 2009
    • 発表場所
      慶応義塾大学日吉キャンパス(東京都)
    • 年月日
      2009-11-19
  • [学会発表] マージン最大化によるメトリック空間分割手法2009

    • 著者名/発表者名
      倉沢央, 深川大路, 高須淳宏, 安達淳
    • 学会等名
      電子情報通信学会データ工学研究会(DE)
    • 発表場所
      神戸ファッションマート(兵庫県)
    • 年月日
      2009-07-28
  • [学会発表] Approximating Edit Distance of Unordered Trees of Bounded Height2009

    • 著者名/発表者名
      深川大路, 阿久津達也, 高須淳宏
    • 学会等名
      電子情報通信学会コンピュテーション研究会(COMP)
    • 発表場所
      北海道大学情報教育館(北海道)
    • 年月日
      2009-06-29

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi