2006 年度実績報告書

Webテキストからの知識抽出支援システムに関する研究

研究課題

研究課題/領域番号	17200007
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	米澤明憲東京大学, 情報理工学系研究科, 教授 (00133116) 田浦健次朗東京大学, 情報理工学系研究科, 助教授 (90282714) 二宮崇東京大学, 情報基盤センター, 講師 (20444094) 吉田稔東京大学, 情報基盤センター, 助手 (40361688) 清田陽司東京大学, 情報基盤センター, 助手 (10401316)
キーワード	検索 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
研究概要	(1)高速用例検索システム:昨年度から開発している用例検索システムを高速化する目的で、有限の深さに限定したSuffix Treeのアルゴリズム開発および実装を行った。このアルゴリズムはUkkonenのアルゴリズムを基礎におくが、リンクの張り方を工夫して、treeの探索だけで元テキストの文字列を復元できる。これを文字レベルと形態素レベルの2段階に分けて実装し、それを連結することで、効率の良い文字列検索システムを実装することに成功した。 (2)高速用例検索システムの応用:昨年度から開発していた用例検索システムKiwiを航空機の機長レポートに適用するシステムを開発した。これによって、危険を未然に防ぐための知識を短時間で検索できるようになった。 (3)名寄せシステム: Webで人名や地名を検索すると同姓同名ないし同一地名だが、異なる人物、場所について記述したものが混在して検索されてしまう。この状態では、知識抽出に支障をきたす。そこで、検索された同姓同名の人のページを異なる人物ごとにクラスタリングするWeb名寄せシステム: Nayoseを開発した。このシステムでは、まず固有名詞抽出を行い、同じページ内に現れる固有名詞をベクトルとして抽出する。また、固有名詞以外にも検索質問の人名に近接して出現する名詞をベクトル化する。これらのベクトルの類似性に基づいて階層的クラスタリングを行う。このシステムの評価を行うために、複数の人名検索を行い、その結果を同一人物毎に分類した正解データを人手で開発した。これを用いてNayoseシステム評価したところ、70%近い正解率を得た。

研究成果
(6件)

すべて 2007 2006

すべて雑誌論文 (6件)

[雑誌論文] 中文版言選Web的評価与分析2007
- 著者名/発表者名
  王玉馨, 小島浩之, 中川裕志, 前田朗
- 雑誌名
  
  文学与信息技術国際検討会論文集第三届
  
  ページ: 39-44
[雑誌論文] NAYOSE : A System for Reference Disambiguation of Proper Nouns Appearing on Web Pages2006
- 著者名/発表者名
  Shingo Ono, Minoru Yoshida, Hiroshi Nakawaga
- 雑誌名
  
  Information retrieval Technology AIRS2006 LNCS 4182
  
  ページ: 338-349
[雑誌論文] 係り受け関係を考慮したテキストマニングのための半構造マイニング手法の提案2006
- 著者名/発表者名
  佐藤一誠, 中川裕志
- 雑誌名
  
  日本データベース学会Letters 5(2)
  
  ページ: 53-56
[雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006
- 著者名/発表者名
  Youji Kiyota, Hiroshi Nakagawa
- 雑誌名
  
  Proc. of LREC 2006
  
  ページ: 1482-1487
[雑誌論文] suffix treeにもとづいたn-gramのtrie構造化とその応用2006
- 著者名/発表者名
  一井崇, 清田陽司, 吉田稔, 中川裕志
- 雑誌名
  
  言語処理学会年次大会第12回
  
  ページ: 552-555
[雑誌論文] 用例検索システムKiwiの知識テキストマイニングツールへの拡張2006
- 著者名/発表者名
  藤本宏涼, 国安結, 中川裕志, 吉田稔, 清田陽司
- 雑誌名
  
  言語処理学会年次大会第12回
  
  ページ: 516-519

2006 年度 実績報告書

Webテキストからの知識抽出支援システムに関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[雑誌論文] 中文版言選Web的評価与分析2007

著者名/発表者名

雑誌名

[雑誌論文] NAYOSE : A System for Reference Disambiguation of Proper Nouns Appearing on Web Pages2006

著者名/発表者名

雑誌名

[雑誌論文] 係り受け関係を考慮したテキストマニングのための半構造マイニング手法の提案2006

著者名/発表者名

雑誌名

[雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

著者名/発表者名

雑誌名

[雑誌論文] suffix treeにもとづいたn-gramのtrie構造化とその応用2006

著者名/発表者名

雑誌名

[雑誌論文] 用例検索システムKiwiの知識テキストマイニングツールへの拡張2006

著者名/発表者名

雑誌名

2006 年度実績報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)