研究課題/領域番号 |
19024014
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
二宮 崇 東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助教 (10401316)
|
キーワード | 多言語 / WWW / 機械学習 / 知識 / マイニング / ベイズ統計 / ブログ / 自然言語処理 |
研究概要 |
(1)特定の話題に関する多言語テキスト集合として日英韓中の4ケ国語からブログを収集し分析した。また、この分析において用語抽出エンジン「言選Web」を利用した。その結果、韓国においては整形手術などの記事が多く、また日本では報道されていないような話題の記事が多数を発見された。 (2)PDMMアルゴリズム:テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムを開発した。まず、複数トピックを併せ持つテキストの分類を行う統計的機械学習アルゴリズムを、ディリクレ分布を基礎にした数理モデルによって開発した。ここで開発したのはトピックが既知に場合であり、ひとつの文書に複数のトピックがディリクレ分布で混合するモデルである。このディリクレ分布を変分ベイズ法で推定するアルゴリズムを開発し、MEDELINEコーパスに対してMeSHタームをトピックと見立てて分布を推定する評価を行い、既存の方法を上回るF値を得た。 (3)Collapsed変分ベイズ法;ユニグラム混合をディリクレ過程で推定するモデルにCollapsed変分ベイズ法を適用するアルゴリズムを開発した。 (4)特定分野のテキストコーパスから専門用語の同義語を自動抽出するシステムを構築し、実験的に評価した。
|