研究課題/領域番号 |
19024014
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
二宮 崇 東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助教 (10401316)
|
キーワード | 多言語 / WWW / 機械学習 / 知識 / マイニング / スパム / 曖昧性解消 / テキスト |
研究概要 |
知識マイニングアルゴリズムの開発 : 多言語テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムとして、複数トピックを併せ持つテキストにおいてトピックを潜在変数とした単語の分類を行う統計的機械学習アルゴリズムを、階層的ディリクレ過程を基礎にした数理モデルによって開発した。これによってテキストにおける潜在トピックとそのトピックに対応する単語集合という知識を自動抽出できるアルゴリズムが明らかになった。 人名の参照曖昧性解消 : Webテキスト処理において重要な応用である同性同名の人物の検索結果を実世界の異なる人物を記述するページごとにクラスタリングする参照曖昧性解消システムを開発した。これは、教師なし機械学習によるため、精度、高速性の両面から検討し、Web検索エンジンで人名検索を行った結果において同性同名の人物を参照するページを実世界において異なる人物毎に5秒程度で高速にクラスタリングするシステムの開発し、その精度の実験的評価を行った結果、F値で0.8を得た。 スパムプログ分析 : Web上の重要な情報資源であるブログは常にスパムブログに悩まされており、排除のために大きなコストがかかっている。評判分析などの目的でブログの有効利用を図ることができる環境整備のツールとしてスパムブログの判定に役立つようなスパムブログの構造分析システムについて検討した。この結果、語彙にかかわる素性を分割してSVMを適用し、その結果をロジスティック回帰して組み合わせる方法によって、精度0.88を得た。
|