研究課題/領域番号 |
21240011
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 特任講師 (10401316)
|
キーワード | 機械学習 / テキスト / Web / クラスタリング / 統計 / 非負行列分解 / GPU / アルゴリズム |
研究概要 |
21年度は当初の予定通り、Webにおける人名検索結果を同姓同名であるが異なる人物ごとにまとめるクラスタリングシステムを開発し、実験的に評価した。ここでは、第1段階で小さいが確実に同じ人物だけが属するクラスタを作り、第2段階では第1段階のクラスタの特徴の近いもの同士を併合するという2段階クラスタリングを提案し、実装評価した。この結果を2つの形で公開した。1つは、研究室のWebサービスとして公開し。アルゴリズムは若干簡素化して応答速度を検索結果として200Webページ5秒程度でクラスタして表示できる。もう一つは、WebPeople Search Taskという国際会議でのタスクで提供されたデータ向けに最適化したものであり、このタスクに参加した17チーム中(同率)2位(F値は0.81)の成績をあげた。この内容を記載した論文が情報検索の最難関国際会議SIGIRにて採択された。次にロングテール現象の対応策のひとつである同義語抽出アルゴリズムを提案し、実験的に評価して査読論文として発表した。22年度にかけては大規模データ処理のために非負の確率行列分解アルゴリズムを提案し、既存のLDAと同様な性能を得ることを実証した。さらに、この手法をGPU上においてGPUメーカーであるNVIDIAから提供されるGPUプログラミングのための統合開発環境CUDAにおける行列演算ライブラリLibJacketによって実装した。GPUとしてはTelsaS1070を利用した。音楽視聴者と音楽アーティストの対応のデータベースを用いてクラスタリングの実験を行った。この結果、行列のサイズが10万での実験においてGPUを使わない場合にくらべて150倍以上の高速化を達成した。
|