• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

Webテキストからの知識抽出支援システムに関する研究

研究課題

研究課題/領域番号 17200007
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 米澤 明憲  東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗  東京大学, 情報理工学系研究科, 教授 (90282714)
二宮 崇  東京大学, 情報基盤センター, 教授 (20444094)
吉田 稔  東京大学, 情報基盤センター, 教授 (40361688)
清田 陽司  東京大学, 情報基盤センター, 教授 (10401316)
キーワードWWW / 知識 / テキスト / マイニング / 用例検索 / 名寄せ / 用語抽出 / 機械学習
研究概要

本研究においては,膨大な量のWebページから,利用者が興味を持つ分野の知識を記述するテキストを抽出し表示するシステムを開発した。具体的には,以下のようなシステムを提案しプロトタイプおよび実用的なシステムを開発した。(1)既開発の用語抽出システム「言選Web」を用いて,そのページを特徴つける重要語を抽出し,その定義,あるいは複数の重要語の間の関係を知ることを目的とし,Webからの用例検索システムKiwiを利用して,それらの重要語を含む用例文を多数抽出するシステムを開発した。Webを直接に検索する従来の用例検索システムを,高速化するために,既存クローラで収集したWebページを対象にする新たな用例検索システムを開発し,UT-Kiwiとして公開した。(2)上記の用例検索の精度の向上を目的とし,同一名が異なる実体を参照する場合,別名が同一実体を参照する場合を解消するWeb名寄せのメカニズムを提案し,試作システムNayoseを構築し性能改善を行った。(3)Webテキスト情報からの知識抽出の基礎となる機械学習アルゴリズムを開発した。(4)Webテキストの活用を狙って,Web上の英文テキストから穴埋め4択問題を自動生成するシステムSakumonを開発した。

  • 研究成果

    (11件)

すべて 2008 2007 その他

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (8件) 備考 (1件)

  • [雑誌論文] Semi-structure Mining Method for Text Mining with a Chunk-based Dependency Structure2007

    • 著者名/発表者名
      Issei Sato, Hiroshi Nakagawa
    • 雑誌名

      Springer LNAI 4426

      ページ: 777-784

    • 説明
      「研究成果報告書概要(和文)」より
    • 査読あり
  • [雑誌論文] Dirichlet Process Unigram Mixture Modelに対するCollapsed変分ベイズ法の適用2007

    • 著者名/発表者名
      佐藤 一誠, 中川 裕志
    • 雑誌名

      情報処理学会論文誌 48 TOM19

      ページ: 107-116

    • 査読あり
  • [学会発表] Gram-Free Synonym Extraction via Suffix Arrays2008

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa.
    • 学会等名
      AIRS2008(Asia Information Retrieval Symposium 2008)
    • 発表場所
      Harbin,China
    • 年月日
      20080115-18
  • [学会発表] Web Document Parsing:A New Approach to Modehng Layout-Language Relations2007

    • 著者名/発表者名
      Minoru Yoshida, Hirroshi Nakkagawa
    • 学会等名
      ICDAR2007 (The 9th International Conference on Document Analysis and Recognition)
    • 発表場所
      Curitiba,Bfazil
    • 年月日
      20070923-26
  • [学会発表] Knowledge Discovery of Multiple-topic Document using Parametric Mixture Model with Dirichlet Prior2007

    • 著者名/発表者名
      Issei Sato, Hiroshi Nakagawa.
    • 学会等名
      Thirteenth ACM SIGKDD
    • 発表場所
      SanJose,USA
    • 年月日
      20070815-18
  • [学会発表] A Cloze Test Authoring System and its Automation2007

    • 著者名/発表者名
      Ayako Hoshino, Hiroshi Nakagawa
    • 学会等名
      ICWL2007-The 6th International Conference on Web-based Learning
    • 発表場所
      Edingburgh,Scotland
    • 年月日
      20070815-17
  • [学会発表] Cross-Lingual Concern Analysisi from Multiingual Weblog Articles2007

    • 著者名/発表者名
      Tomohiro Fukuhara, Takehito Utsuro, Hiroshi Nakagawa
    • 学会等名
      The 6th International Workshop on Social Intelligence Design(SID 2007)
    • 発表場所
      Trent,Italy
    • 年月日
      20070702-04
  • [学会発表] Bayesian Document Generative Model with Explicit Multiple Topics2007

    • 著者名/発表者名
      Issei, Sato, Hiroshi Nakagawa
    • 学会等名
      EMNLP-CoNLL2007
    • 発表場所
      Prague,Czech
    • 年月日
      20070625-28
  • [学会発表] Structural Correspondence Learning for Dependency Parsing2007

    • 著者名/発表者名
      Nobuyuki Shimizu, Hiroshi Nakagawa
    • 学会等名
      EMNLP-CoNLL-ST
    • 発表場所
      Prague,Czech
    • 年月日
      20070625-28
  • [学会発表] Semi-structure Mining Method for Text Mining with a Chunk-based Dependency Structure2007

    • 著者名/発表者名
      Issei Sato, Hiroshi Nakagawa.
    • 学会等名
      PAKDD'07(The 11th Pacific-Asia Conference on Knowledge Discovery and Data Mining)
    • 発表場所
      Nanjin,China
    • 年月日
      20070522-25
  • [備考] UT-Kiwi

    • URL

      http://kiwi.r.dl.itc.u-tokyo.ac.jp/ut-kiwi/

URL: 

公開日: 2010-02-04   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi