2010 年度実績報告書

テキスト中の数値表現からの知識発見に関する研究

研究課題

研究課題/領域番号	22700137
研究機関	東京大学
研究代表者	吉田稔東京大学, 情報基盤センター, 助教 (40361688)
キーワード	テキストマイニング / 接尾辞配列 / クラスタリング / 数値検索 / ディリクレ過程混合モデル
研究概要	本年度は、テキスト中の数値表現を活用するための基盤技術の開発と、その応用として用いるテキストマイニングタスクに関する研究を遂行した。基盤技術としては、テキスト中に言葉とともに出現する数値の範囲を自動的に推定するために、確率モデルに基づき、クラスタ数を自動的に推定する高速クラスタリング手法の開発を行い、さらに、数値範囲を用いた検索を行えるような、テキスト全文検索を拡張した索引付けを行う手法の研究を行った。提案手法は、与えられたテキストを改変することなく、少量の追加索引構造を用いるだけで、高速な数値範囲検索機能を実現する。また、この索引構造を用いることで、既存の連接文字列マイニングアルゴリズムを、数値範囲を含む文字列のマイニングに拡張することができる。これにより、「数値語彙」(数値範囲を含む語彙)の獲得が可能となった。異なる文字列が同じ数値を表す「数値異表記」の問題に関しては、コーパスを改変せず、追加索引構造の作成アルゴリズムを拡張することで、柔軟に対処するアルゴリズムの開発を行った。コーパスとしてはWikipedia、東京大学Webページを取得し、上記アルゴリズムが適用できることを確認した。開発したシステムは、数値範囲という概念を用いることで、数字文字列を通常の文字列と同様に扱いつつ数値としての性質も利用できるという汎用性の高いシステムとなっており、他のシステムからの利用も容易である。そのような他のテキストマイニングタスクの一例として、「検索における同姓同名問題」にも取り組み、文脈情報を適切に重み付けするための手法に関する研究を行った。

研究成果
(6件)

すべて 2010

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (4件)

[雑誌論文] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010
- 著者名/発表者名
  吉田稔, 池田雅紀, 小野真吾, 佐藤一誠, 中川裕志
- 雑誌名
  
  日本データベース学会論文誌
  
  巻: 9(2) ページ: 19-24
- 査読あり
[雑誌論文] テキストマイニングの活用(解説記事)2010
- 著者名/発表者名
  吉田稔, 中川裕志
- 雑誌名
  
  情報の科学と技術
  
  巻: 60(6) ページ: 230-235
[学会発表] Web People Search : Person Name Disambiguation and Other Problems (Tutorial)2010
- 著者名/発表者名
  Minoru Yoshida, Hiroshi Nakagawa
- 学会等名
  The 2nd Asian Conference on Machine Learning (ACML 2010)
- 発表場所
  Tokyo Tech Front, Tokyo
- 年月日
  2010-11-08
[学会発表] ITC-UT : Tweet Categorization by Query Categorization for On-line Reputation management2010
- 著者名/発表者名
  Minoru Yoshida, Shin Matsushima, Shingo Ono, Issei Sato, Hiroshi Nakagawa
- 学会等名
  WePS-3, CLEF 2010 Labs
- 発表場所
  Padua, Italy
- 年月日
  2010-09-23
[学会発表] Person Name Disambiguation by Bootstrapping2010
- 著者名/発表者名
  Minoru Yoshida, Masaki Ikeda, Shingo Ono, Issei Sato, Hiroshi Nakagawa
- 学会等名
  SIGIR-2010 (the 33rd Annual ACM SIGIR Conference)
- 発表場所
  Geneva, Swiss
- 年月日
  2010-07-20
[学会発表] Mining Numbers in Text Using Suffix Arrays and Clustering Based on Dirichlet Process Mixture Models2010
- 著者名/発表者名
  Minoru Yoshida, Issei Sato, Hiroshi Nakagawa, Akira Terada
- 学会等名
  PAKDD-2010 (The 14th Pacific-Asia Conference on Knowledge Discovery and Data Mining)
- 発表場所
  Hyderabad, India
- 年月日
  2010-06-23

2010 年度 実績報告書

テキスト中の数値表現からの知識発見に関する研究

研究代表者

吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)

研究成果

[雑誌論文] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010

著者名/発表者名

雑誌名

[雑誌論文] テキストマイニングの活用(解説記事)2010

著者名/発表者名

雑誌名

[学会発表] Web People Search : Person Name Disambiguation and Other Problems (Tutorial)2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ITC-UT : Tweet Categorization by Query Categorization for On-line Reputation management2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Person Name Disambiguation by Bootstrapping2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Mining Numbers in Text Using Suffix Arrays and Clustering Based on Dirichlet Process Mixture Models2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

吉田稔東京大学, 情報基盤センター, 助教 (40361688)