• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

機械学習によるロングテール現象の解決方法に関する研究

Research Project

Project/Area Number 21240011
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司  東京大学, 情報基盤センター, 特任講師 (10401316)
Keywords機械学習 / テキスト / Web / クラスタリング / 統計 / 非負行列分解 / GPU / アルゴリズム
Research Abstract

21年度は当初の予定通り、Webにおける人名検索結果を同姓同名であるが異なる人物ごとにまとめるクラスタリングシステムを開発し、実験的に評価した。ここでは、第1段階で小さいが確実に同じ人物だけが属するクラスタを作り、第2段階では第1段階のクラスタの特徴の近いもの同士を併合するという2段階クラスタリングを提案し、実装評価した。この結果を2つの形で公開した。1つは、研究室のWebサービスとして公開し。アルゴリズムは若干簡素化して応答速度を検索結果として200Webページ5秒程度でクラスタして表示できる。もう一つは、WebPeople Search Taskという国際会議でのタスクで提供されたデータ向けに最適化したものであり、このタスクに参加した17チーム中(同率)2位(F値は0.81)の成績をあげた。この内容を記載した論文が情報検索の最難関国際会議SIGIRにて採択された。次にロングテール現象の対応策のひとつである同義語抽出アルゴリズムを提案し、実験的に評価して査読論文として発表した。22年度にかけては大規模データ処理のために非負の確率行列分解アルゴリズムを提案し、既存のLDAと同様な性能を得ることを実証した。さらに、この手法をGPU上においてGPUメーカーであるNVIDIAから提供されるGPUプログラミングのための統合開発環境CUDAにおける行列演算ライブラリLibJacketによって実装した。GPUとしてはTelsaS1070を利用した。音楽視聴者と音楽アーティストの対応のデータベースを用いてクラスタリングの実験を行った。この結果、行列のサイズが10万での実験においてGPUを使わない場合にくらべて150倍以上の高速化を達成した。

  • Research Products

    (5 results)

All 2011 2010 2009 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) Remarks (1 results)

  • [Journal Article] 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価2011

    • Author(s)
      柴山直樹, 中川裕志
    • Journal Title

      人工知能学会論文誌

      Volume: 26(1) Pages: 262-272

    • Peer Reviewed
  • [Journal Article] 二段階クラスタリングを単語重み付与に応用した人名曖昧性解消2010

    • Author(s)
      吉田稔、池田雅紀、小野真吾、佐藤一誠、中川裕志
    • Journal Title

      日本データベース学会論文誌

      Volume: 9(2) Pages: 19-24

    • Peer Reviewed
  • [Journal Article] コーパス検索支援のための動的同義語候補抽出2009

    • Author(s)
      吉田稔、中川裕志、寺田昭
    • Journal Title

      人工知能学会論文誌

      Volume: 25(1) Pages: 122-132

    • Peer Reviewed
  • [Presentation] Person Name Disambiguation by Bootstrapping2010

    • Author(s)
      Minoru Yoshida
    • Organizer
      The 33rd ACM SIGIR Conference
    • Place of Presentation
      Geneva, Swiss
    • Year and Date
      2010-07-20
  • [Remarks]

    • URL

      http://www.r.dl.itc.u-tokyo.ac.jp/node/10

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi