2010 Fiscal Year Annual Research Report
Project/Area Number |
22700150
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学部, 助教 (60413928)
|
Keywords | 知能情報学 / データマイニング / 確率モデル / ベイズ理論 / トピックモデル / 並列化 |
Research Abstract |
本年度は、MEDLINEやDBLPの書誌情報を入力データとし、複数の単語が統計的に有意な頻度で共起する現象を、LDA(潜在的ディリクレ配分法)を拡張したベイズ的確率モデルを用いて検出し、書誌フィールド分割という具体的な問題の解決を目指した。書誌フィールドとは、著者名、論文タイトル、雑誌名、発表年などであり、それぞれのフィールドでどのような単語が出現しやすいか、どのような単語群が共起しやすいかが異なる。この違いを、LDAを拡張した確率モデルを用いて統計的にマイニングした。この確率モデルでは、書誌フィールドの並び順を、一般化マロウズ・モデルを用いてモデル化することで、多数の書誌データにまたがる様々な単語の「外的な」共起関係、つまり、個別の書誌データ内部に現れる意味的な共起関係に限定されない「ライム」的共起関係を抽出しようとしている。これにより、どこが著者名でどこがタイトルかなど、未だ各フィールドに分割されていない生の書誌データを、教師無し学習によって各フィールドへと分割するという、極めて具体的な応用課題に一定の解決を与えることに成功した。この課題は、従来、隠れマルコフモデルを用いて解かれることが多かった。しかし本研究は、全く新しいアイディアに基づく解法を与えた点で意義がある。また、LDA、HDPなどのトピックモデルは、パープレキシティや対数尤度など、理論的な尺度で有効性を評価されて終わることも多かったが、本研究では、書誌フィールド分割という、具体的な応用課題上でトピックモデルを定量的に評価した点でも意義がある。
|
Research Products
(2 results)