2009 年度実績報告書

機械学習によるロングテール現象の解決方法に関する研究

研究課題

研究課題/領域番号	21240011
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	吉田稔東京大学, 情報基盤センター, 助教 (40361688) 清田陽司東京大学, 情報基盤センター, 特任講師 (10401316)
キーワード	機械学習 / テキスト / Web / クラスタリング / 統計 / 非負行列分解 / GPU / アルゴリズム
研究概要	21年度は当初の予定通り、Webにおける人名検索結果を同姓同名であるが異なる人物ごとにまとめるクラスタリングシステムを開発し、実験的に評価した。ここでは、第1段階で小さいが確実に同じ人物だけが属するクラスタを作り、第2段階では第1段階のクラスタの特徴の近いもの同士を併合するという2段階クラスタリングを提案し、実装評価した。この結果を2つの形で公開した。1つは、研究室のWebサービスとして公開し。アルゴリズムは若干簡素化して応答速度を検索結果として200Webページ5秒程度でクラスタして表示できる。もう一つは、WebPeople Search Taskという国際会議でのタスクで提供されたデータ向けに最適化したものであり、このタスクに参加した17チーム中(同率)2位(F値は0.81)の成績をあげた。この内容を記載した論文が情報検索の最難関国際会議SIGIRにて採択された。次にロングテール現象の対応策のひとつである同義語抽出アルゴリズムを提案し、実験的に評価して査読論文として発表した。22年度にかけては大規模データ処理のために非負の確率行列分解アルゴリズムを提案し、既存のLDAと同様な性能を得ることを実証した。さらに、この手法をGPU上においてGPUメーカーであるNVIDIAから提供されるGPUプログラミングのための統合開発環境CUDAにおける行列演算ライブラリLibJacketによって実装した。GPUとしてはTelsaS1070を利用した。音楽視聴者と音楽アーティストの対応のデータベースを用いてクラスタリングの実験を行った。この結果、行列のサイズが10万での実験においてGPUを使わない場合にくらべて150倍以上の高速化を達成した。

研究成果
(5件)

すべて 2011 2010 2009 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件) 備考 (1件)

[雑誌論文] 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価2011
- 著者名/発表者名
  柴山直樹, 中川裕志
- 雑誌名
  
  人工知能学会論文誌
  
  巻: 26(1) ページ: 262-272
- 査読あり
[雑誌論文] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010
- 著者名/発表者名
  吉田稔、池田雅紀、小野真吾、佐藤一誠、中川裕志
- 雑誌名
  
  日本データベース学会論文誌
  
  巻: 9(2) ページ: 19-24
- 査読あり
[雑誌論文] コーパス検索支援のための動的同義語候補抽出2009
- 著者名/発表者名
  吉田稔、中川裕志、寺田昭
- 雑誌名
  
  人工知能学会論文誌
  
  巻: 25(1) ページ: 122-132
- 査読あり
[学会発表] Person Name Disambiguation by Bootstrapping2010
- 著者名/発表者名
  Minoru Yoshida
- 学会等名
  The 33rd ACM SIGIR Conference
- 発表場所
  Geneva, Swiss
- 年月日
  2010-07-20
[備考]
- URL
  http://www.r.dl.itc.u-tokyo.ac.jp/node/10

2009 年度 実績報告書

機械学習によるロングテール現象の解決方法に関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[雑誌論文] 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価2011

著者名/発表者名

雑誌名

[雑誌論文] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010

著者名/発表者名

雑誌名

[雑誌論文] コーパス検索支援のための動的同義語候補抽出2009

著者名/発表者名

雑誌名

[学会発表] Person Name Disambiguation by Bootstrapping2010

著者名/発表者名

学会等名

発表場所

年月日

[備考]

URL

2009 年度実績報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)