研究課題/領域番号 |
22700150
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 長崎大学 |
研究代表者 |
正田 備也 長崎大学, 大学院・工学研究科, 准教授 (60413928)
|
研究期間 (年度) |
2010 – 2011
|
研究課題ステータス |
完了 (2011年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2011年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2010年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | データマイニング / 確率モデル / ベイズ理論 / トピックモデル / 並列化 / 知能情報学 |
研究概要 |
本研究は、「意味的な関連性によるのではない単語の共起関係であっても,統計学的に有意な頻度で生じているならば情報収集の手掛かりとして有用性を持つ」という仮定に基づいている。この、統計学的に有意な頻度で生じる共起を、「統計学的ライム」と呼ぶ。そして、ベイズ的な確率モデルを使い、統計学的に有意な頻度で生じている単語の共起関係を抽出することを目指した。最終的に、論文末尾や研究者のWebサイトに現れる書誌情報を、著者名・論文タイトル・学術雑誌名・発表年など異なる書誌フィールドへと教師無し学習によって自動分割する、新しいLDA(潜在的ディリクレ配分法)タイプのトピック抽出法を提案できた。また、提案のモデルの分割精度を半教師付き学習により改善することに成功した。
|