2010 Fiscal Year Annual Research Report
機械学習によるロングテール現象の解決方法に関する研究
Project/Area Number |
21240011
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 特任講師 (10401316)
|
Keywords | 機械学習 / クラスタリング / Web / 統計 / 曖昧性解消 / プライバシー保護 / データマイニング / 言語学習 |
Research Abstract |
(1)名前参照の曖昧性解消のための実時間クラスタリングの強化については、情報検索に関する国際会議CLEFの質問カテゴリゼーションタスクに参加し、5チーム中2位の成績を収めた。 (2)並列化アルゴリズムにおいては、申請者が既に提案した変分ベイズ法をロングテールに対応するPitMan-Yoモデルに適用し高い性能を得た。この成果はデータマイングのトップカンファレンスであるKDD2010にて論文が採択された。さらにこのテーマに関しては、複数のデータベースを統合して関係抽出を行う目的で、確率的行列分解を応用したアルゴリズムを開発して評価した。その結果をPAKDD2011にて論文発表した。 (3)個人適応化は、個々人によって異なる英語能力に対応するように、個人ごとの言語能力を機械学習手法で推定し、能力に比較して高い難度の単語の訳文を同時表示するシステムを開発し、評価した。この結果はACM Transactionに論文採録が決まった。 一方、これらの研究を通じてWeb上におけるロングテールの最たるものに秘匿性の高いデータの存在を無視できないことが判明してきた。この状況に対応する技術として最近注目されているプライバシー保護データマイニングを利用することを繰り越しにおけるテーマとした。繰り越しの年度においては、複数の通信プロバイダが自己の顧客間および.自己の顧客と他の通信プロバイダの間のアクセス情報は持つが、相手側の顧客間のアクセスは秘匿されたようなネットワーク構造において、全通信プロバイダの情報を総合してページランクないしHITSのようなリンク解析を行うために暗号技術および特殊なプロトコルを開発した。この結果は情報処理学会論文誌に掲載された。
|