多言語Webテキストからの知識マイニングに関する研究

Research Project

Project/Area Number	18049011
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Review Section	Science and Engineering
Research Institution	The University of Tokyo
Principal Investigator	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
Co-Investigator(Kenkyū-buntansha)	二宮崇東京大学, 情報基盤センター, 講師 (20444094) 吉田稔東京大学, 情報基盤センター, 助手 (40361688) 清田陽司東京大学, 情報基盤センター, 助手 (10401316)
Project Period (FY)	2006
Project Status	Completed (Fiscal Year 2006)
Budget Amount *help	¥5,900,000 (Direct Cost: ¥5,900,000) Fiscal Year 2006: ¥5,900,000 (Direct Cost: ¥5,900,000)
Keywords	多言語 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
Research Abstract	表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った. (1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した. (2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している. (3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した. (4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.

Report

(1 results)

2006 Annual Research Report

Research Products
(6 results)

All 2007 2006

All Journal Article (6 results)

[Journal Article] 中文版言選Web的評価与分析2007
- Author(s)
  王玉馨, 小島浩之, 中川裕志, 前田朗
- Journal Title
  
  文学与信息技術国際検討会論文集第三届
  
  Pages: 39-44
- Related Report
  2006 Annual Research Report
[Journal Article] Fast and scalable HPSG parsing2006
- Author(s)
  Takashi Ninomiya, et al.
- Journal Title
  
  Journal of Traitement Automatique des Langues 46(2)
  
  Pages: 91-114
- Related Report
  2006 Annual Research Report
[Journal Article] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006
- Author(s)
  Takashi Ninomiya, et al.
- Journal Title
  
  Proc. of EMNLP 2006
  
  Pages: 155-163
- Related Report
  2006 Annual Research Report
[Journal Article] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006
- Author(s)
  Youji Kiyota, Hiroshi Nakagawa
- Journal Title
  
  Proc. of LREC 2006
  
  Pages: 1482-1487
- Related Report
  2006 Annual Research Report
[Journal Article] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006
- Author(s)
  佐藤一誠, 中川裕志
- Journal Title
  
  日本データベース学会Letters 5 (2)
  
  Pages: 53-56
- NAID
  110004833185
- Related Report
  2006 Annual Research Report
[Journal Article] Browsing System for Weblog Articles based on Automated Folksonomy2006
- Author(s)
  Tsutomu Ohkura, Youji Kiyota, Hiroshi Nakagawa
- Journal Title
  
  WWW2006 Workshop on the Weblogging Ecosystem
- Related Report
  2006 Annual Research Report

多言語Webテキストからの知識マイニングに関する研究

Principal Investigator

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

¥5,900,000 (Direct Cost: ¥5,900,000)

Report

Research Products

[Journal Article] 中文版言選Web的評価与分析2007

Author(s)

Journal Title

Related Report

[Journal Article] Fast and scalable HPSG parsing2006

Author(s)

Journal Title

Related Report

[Journal Article] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006

Author(s)

Journal Title

Related Report

[Journal Article] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

Author(s)

Journal Title

Related Report

[Journal Article] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006

Author(s)

Journal Title

NAID

Related Report

[Journal Article] Browsing System for Weblog Articles based on Automated Folksonomy2006

Author(s)

Journal Title

Related Report

中川裕志東京大学, 情報基盤センター, 教授 (20134893)