• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

多言語Webテキストからの知識マイニングに関する研究

Research Project

Project/Area Number 18049011
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
Project Period (FY) 2006
Project Status Completed (Fiscal Year 2006)
Budget Amount *help
¥5,900,000 (Direct Cost: ¥5,900,000)
Fiscal Year 2006: ¥5,900,000 (Direct Cost: ¥5,900,000)
Keywords多言語 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
Research Abstract

表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った.
(1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した.
(2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している.
(3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した.
(4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.

Report

(1 results)
  • 2006 Annual Research Report
  • Research Products

    (6 results)

All 2007 2006

All Journal Article (6 results)

  • [Journal Article] 中文版言選Web的評価与分析2007

    • Author(s)
      王玉馨, 小島浩之, 中川裕志, 前田朗
    • Journal Title

      文学与信息技術国際検討会論文集 第三届

      Pages: 39-44

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Fast and scalable HPSG parsing2006

    • Author(s)
      Takashi Ninomiya, et al.
    • Journal Title

      Journal of Traitement Automatique des Langues 46(2)

      Pages: 91-114

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006

    • Author(s)
      Takashi Ninomiya, et al.
    • Journal Title

      Proc. of EMNLP 2006

      Pages: 155-163

    • Related Report
      2006 Annual Research Report
  • [Journal Article] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

    • Author(s)
      Youji Kiyota, Hiroshi Nakagawa
    • Journal Title

      Proc. of LREC 2006

      Pages: 1482-1487

    • Related Report
      2006 Annual Research Report
  • [Journal Article] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006

    • Author(s)
      佐藤 一誠, 中川 裕志
    • Journal Title

      日本データベース学会Letters 5 (2)

      Pages: 53-56

    • NAID

      110004833185

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Browsing System for Weblog Articles based on Automated Folksonomy2006

    • Author(s)
      Tsutomu Ohkura, Youji Kiyota, Hiroshi Nakagawa
    • Journal Title

      WWW2006 Workshop on the Weblogging Ecosystem

    • Related Report
      2006 Annual Research Report

URL: 

Published: 2006-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi