2006 年度実績報告書

多言語Webテキストからの知識マイニングに関する研究

研究課題

研究課題/領域番号	18049011
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	二宮崇東京大学, 情報基盤センター, 講師 (20444094) 吉田稔東京大学, 情報基盤センター, 助手 (40361688) 清田陽司東京大学, 情報基盤センター, 助手 (10401316)
キーワード	多言語 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
研究概要	表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った. (1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した. (2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している. (3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した. (4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.

研究成果
(6件)

すべて 2007 2006

すべて雑誌論文 (6件)

[雑誌論文] 中文版言選Web的評価与分析2007
- 著者名/発表者名
  王玉馨, 小島浩之, 中川裕志, 前田朗
- 雑誌名
  
  文学与信息技術国際検討会論文集第三届
  
  ページ: 39-44
[雑誌論文] Fast and scalable HPSG parsing2006
- 著者名/発表者名
  Takashi Ninomiya, et al.
- 雑誌名
  
  Journal of Traitement Automatique des Langues 46(2)
  
  ページ: 91-114
[雑誌論文] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006
- 著者名/発表者名
  Takashi Ninomiya, et al.
- 雑誌名
  
  Proc. of EMNLP 2006
  
  ページ: 155-163
[雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006
- 著者名/発表者名
  Youji Kiyota, Hiroshi Nakagawa
- 雑誌名
  
  Proc. of LREC 2006
  
  ページ: 1482-1487
[雑誌論文] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006
- 著者名/発表者名
  佐藤一誠, 中川裕志
- 雑誌名
  
  日本データベース学会Letters 5 (2)
  
  ページ: 53-56
[雑誌論文] Browsing System for Weblog Articles based on Automated Folksonomy2006
- 著者名/発表者名
  Tsutomu Ohkura, Youji Kiyota, Hiroshi Nakagawa
- 雑誌名
  
  WWW2006 Workshop on the Weblogging Ecosystem
  
  ページ: Web版

2006 年度 実績報告書

多言語Webテキストからの知識マイニングに関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[雑誌論文] 中文版言選Web的評価与分析2007

著者名/発表者名

雑誌名

[雑誌論文] Fast and scalable HPSG parsing2006

著者名/発表者名

雑誌名

[雑誌論文] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006

著者名/発表者名

雑誌名

[雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

著者名/発表者名

雑誌名

[雑誌論文] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006

著者名/発表者名

雑誌名

[雑誌論文] Browsing System for Weblog Articles based on Automated Folksonomy2006

著者名/発表者名

雑誌名

2006 年度実績報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)