2010 Fiscal Year Annual Research Report

テキスト中の数値表現からの知識発見に関する研究

Research Project

Project/Area Number	22700137
Research Institution	The University of Tokyo
Principal Investigator	吉田稔東京大学, 情報基盤センター, 助教 (40361688)
Keywords	テキストマイニング / 接尾辞配列 / クラスタリング / 数値検索 / ディリクレ過程混合モデル
Research Abstract	本年度は、テキスト中の数値表現を活用するための基盤技術の開発と、その応用として用いるテキストマイニングタスクに関する研究を遂行した。基盤技術としては、テキスト中に言葉とともに出現する数値の範囲を自動的に推定するために、確率モデルに基づき、クラスタ数を自動的に推定する高速クラスタリング手法の開発を行い、さらに、数値範囲を用いた検索を行えるような、テキスト全文検索を拡張した索引付けを行う手法の研究を行った。提案手法は、与えられたテキストを改変することなく、少量の追加索引構造を用いるだけで、高速な数値範囲検索機能を実現する。また、この索引構造を用いることで、既存の連接文字列マイニングアルゴリズムを、数値範囲を含む文字列のマイニングに拡張することができる。これにより、「数値語彙」(数値範囲を含む語彙)の獲得が可能となった。異なる文字列が同じ数値を表す「数値異表記」の問題に関しては、コーパスを改変せず、追加索引構造の作成アルゴリズムを拡張することで、柔軟に対処するアルゴリズムの開発を行った。コーパスとしてはWikipedia、東京大学Webページを取得し、上記アルゴリズムが適用できることを確認した。開発したシステムは、数値範囲という概念を用いることで、数字文字列を通常の文字列と同様に扱いつつ数値としての性質も利用できるという汎用性の高いシステムとなっており、他のシステムからの利用も容易である。そのような他のテキストマイニングタスクの一例として、「検索における同姓同名問題」にも取り組み、文脈情報を適切に重み付けするための手法に関する研究を行った。

Research Products
(6 results)

All 2010

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (4 results)

[Journal Article] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010
- Author(s)
  吉田稔, 池田雅紀, 小野真吾, 佐藤一誠, 中川裕志
- Journal Title
  
  日本データベース学会論文誌
  
  Volume: 9(2) Pages: 19-24
- Peer Reviewed
[Journal Article] テキストマイニングの活用(解説記事)2010
- Author(s)
  吉田稔, 中川裕志
- Journal Title
  
  情報の科学と技術
  
  Volume: 60(6) Pages: 230-235
[Presentation] Web People Search : Person Name Disambiguation and Other Problems (Tutorial)2010
- Author(s)
  Minoru Yoshida, Hiroshi Nakagawa
- Organizer
  The 2nd Asian Conference on Machine Learning (ACML 2010)
- Place of Presentation
  Tokyo Tech Front, Tokyo
- Year and Date
  2010-11-08
[Presentation] ITC-UT : Tweet Categorization by Query Categorization for On-line Reputation management2010
- Author(s)
  Minoru Yoshida, Shin Matsushima, Shingo Ono, Issei Sato, Hiroshi Nakagawa
- Organizer
  WePS-3, CLEF 2010 Labs
- Place of Presentation
  Padua, Italy
- Year and Date
  2010-09-23
[Presentation] Person Name Disambiguation by Bootstrapping2010
- Author(s)
  Minoru Yoshida, Masaki Ikeda, Shingo Ono, Issei Sato, Hiroshi Nakagawa
- Organizer
  SIGIR-2010 (the 33rd Annual ACM SIGIR Conference)
- Place of Presentation
  Geneva, Swiss
- Year and Date
  2010-07-20
[Presentation] Mining Numbers in Text Using Suffix Arrays and Clustering Based on Dirichlet Process Mixture Models2010
- Author(s)
  Minoru Yoshida, Issei Sato, Hiroshi Nakagawa, Akira Terada
- Organizer
  PAKDD-2010 (The 14th Pacific-Asia Conference on Knowledge Discovery and Data Mining)
- Place of Presentation
  Hyderabad, India
- Year and Date
  2010-06-23

2010 Fiscal Year Annual Research Report

テキスト中の数値表現からの知識発見に関する研究

Principal Investigator

吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)

Research Products

[Journal Article] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010

Author(s)

Journal Title

[Journal Article] テキストマイニングの活用(解説記事)2010

Author(s)

Journal Title

[Presentation] Web People Search : Person Name Disambiguation and Other Problems (Tutorial)2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ITC-UT : Tweet Categorization by Query Categorization for On-line Reputation management2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Person Name Disambiguation by Bootstrapping2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Mining Numbers in Text Using Suffix Arrays and Clustering Based on Dirichlet Process Mixture Models2010

Author(s)

Organizer

Place of Presentation

Year and Date

吉田稔東京大学, 情報基盤センター, 助教 (40361688)