• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 実績報告書

Webテキストからの知識抽出支援システムに関する研究

研究課題

研究課題/領域番号 17200007
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 米澤 明憲  東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗  東京大学, 情報理工学系研究科, 助教授 (90282714)
二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
キーワード検索 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
研究概要

(1)高速用例検索システム:昨年度から開発している用例検索システムを高速化する目的で、有限の深さに限定したSuffix Treeのアルゴリズム開発および実装を行った。このアルゴリズムはUkkonenのアルゴリズムを基礎におくが、リンクの張り方を工夫して、treeの探索だけで元テキストの文字列を復元できる。これを文字レベルと形態素レベルの2段階に分けて実装し、それを連結することで、効率の良い文字列検索システムを実装することに成功した。
(2)高速用例検索システムの応用:昨年度から開発していた用例検索システムKiwiを航空機の機長レポートに適用するシステムを開発した。これによって、危険を未然に防ぐための知識を短時間で検索できるようになった。
(3)名寄せシステム: Webで人名や地名を検索すると同姓同名ないし同一地名だが、異なる人物、場所について記述したものが混在して検索されてしまう。この状態では、知識抽出に支障をきたす。そこで、検索された同姓同名の人のページを異なる人物ごとにクラスタリングするWeb名寄せシステム: Nayoseを開発した。このシステムでは、まず固有名詞抽出を行い、同じページ内に現れる固有名詞をベクトルとして抽出する。また、固有名詞以外にも検索質問の人名に近接して出現する名詞をベクトル化する。これらのベクトルの類似性に基づいて階層的クラスタリングを行う。このシステムの評価を行うために、複数の人名検索を行い、その結果を同一人物毎に分類した正解データを人手で開発した。これを用いてNayoseシステム評価したところ、70%近い正解率を得た。

  • 研究成果

    (6件)

すべて 2007 2006

すべて 雑誌論文 (6件)

  • [雑誌論文] 中文版言選Web的評価与分析2007

    • 著者名/発表者名
      王玉馨, 小島浩之, 中川裕志, 前田朗
    • 雑誌名

      文学与信息技術国際検討会論文集 第三届

      ページ: 39-44

  • [雑誌論文] NAYOSE : A System for Reference Disambiguation of Proper Nouns Appearing on Web Pages2006

    • 著者名/発表者名
      Shingo Ono, Minoru Yoshida, Hiroshi Nakawaga
    • 雑誌名

      Information retrieval Technology AIRS2006 LNCS 4182

      ページ: 338-349

  • [雑誌論文] 係り受け関係を考慮したテキストマニングのための半構造マイニング手法の提案2006

    • 著者名/発表者名
      佐藤一誠, 中川裕志
    • 雑誌名

      日本データベース学会Letters 5(2)

      ページ: 53-56

  • [雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

    • 著者名/発表者名
      Youji Kiyota, Hiroshi Nakagawa
    • 雑誌名

      Proc. of LREC 2006

      ページ: 1482-1487

  • [雑誌論文] suffix treeにもとづいたn-gramのtrie構造化とその応用2006

    • 著者名/発表者名
      一井崇, 清田陽司, 吉田稔, 中川裕志
    • 雑誌名

      言語処理学会年次大会 第12回

      ページ: 552-555

  • [雑誌論文] 用例検索システムKiwiの知識テキストマイニングツールへの拡張2006

    • 著者名/発表者名
      藤本宏涼, 国安結, 中川裕志, 吉田稔, 清田陽司
    • 雑誌名

      言語処理学会年次大会 第12回

      ページ: 516-519

URL: 

公開日: 2008-05-08   更新日: 2012-10-02  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi