• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

Webテキストからの知識抽出支援システムに関する研究

Research Project

Project/Area Number 17200007
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 米澤 明憲  東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗  東京大学, 情報理工学系研究科, 助教授 (90282714)
二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
Keywords検索 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
Research Abstract

(1)高速用例検索システム:昨年度から開発している用例検索システムを高速化する目的で、有限の深さに限定したSuffix Treeのアルゴリズム開発および実装を行った。このアルゴリズムはUkkonenのアルゴリズムを基礎におくが、リンクの張り方を工夫して、treeの探索だけで元テキストの文字列を復元できる。これを文字レベルと形態素レベルの2段階に分けて実装し、それを連結することで、効率の良い文字列検索システムを実装することに成功した。
(2)高速用例検索システムの応用:昨年度から開発していた用例検索システムKiwiを航空機の機長レポートに適用するシステムを開発した。これによって、危険を未然に防ぐための知識を短時間で検索できるようになった。
(3)名寄せシステム: Webで人名や地名を検索すると同姓同名ないし同一地名だが、異なる人物、場所について記述したものが混在して検索されてしまう。この状態では、知識抽出に支障をきたす。そこで、検索された同姓同名の人のページを異なる人物ごとにクラスタリングするWeb名寄せシステム: Nayoseを開発した。このシステムでは、まず固有名詞抽出を行い、同じページ内に現れる固有名詞をベクトルとして抽出する。また、固有名詞以外にも検索質問の人名に近接して出現する名詞をベクトル化する。これらのベクトルの類似性に基づいて階層的クラスタリングを行う。このシステムの評価を行うために、複数の人名検索を行い、その結果を同一人物毎に分類した正解データを人手で開発した。これを用いてNayoseシステム評価したところ、70%近い正解率を得た。

  • Research Products

    (6 results)

All 2007 2006

All Journal Article (6 results)

  • [Journal Article] 中文版言選Web的評価与分析2007

    • Author(s)
      王玉馨, 小島浩之, 中川裕志, 前田朗
    • Journal Title

      文学与信息技術国際検討会論文集 第三届

      Pages: 39-44

  • [Journal Article] NAYOSE : A System for Reference Disambiguation of Proper Nouns Appearing on Web Pages2006

    • Author(s)
      Shingo Ono, Minoru Yoshida, Hiroshi Nakawaga
    • Journal Title

      Information retrieval Technology AIRS2006 LNCS 4182

      Pages: 338-349

  • [Journal Article] 係り受け関係を考慮したテキストマニングのための半構造マイニング手法の提案2006

    • Author(s)
      佐藤一誠, 中川裕志
    • Journal Title

      日本データベース学会Letters 5(2)

      Pages: 53-56

  • [Journal Article] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

    • Author(s)
      Youji Kiyota, Hiroshi Nakagawa
    • Journal Title

      Proc. of LREC 2006

      Pages: 1482-1487

  • [Journal Article] suffix treeにもとづいたn-gramのtrie構造化とその応用2006

    • Author(s)
      一井崇, 清田陽司, 吉田稔, 中川裕志
    • Journal Title

      言語処理学会年次大会 第12回

      Pages: 552-555

  • [Journal Article] 用例検索システムKiwiの知識テキストマイニングツールへの拡張2006

    • Author(s)
      藤本宏涼, 国安結, 中川裕志, 吉田稔, 清田陽司
    • Journal Title

      言語処理学会年次大会 第12回

      Pages: 516-519

URL: 

Published: 2008-05-08   Modified: 2012-10-02  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi