2011 Fiscal Year Annual Research Report
Project/Area Number |
22700150
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Keywords | 知能情報学 / データマイニング / 確率モデル / ベイズ理論 / トピックモデル / 並列化 |
Research Abstract |
昨年度は、当初の想定に比べて現実的な利用価値のあるアプリケーションを見出し、その結果、次の課題に取り組むことができた。つまり、(1)MEDLINEやDBLPの書誌情報という有用なデータを入力とし、(2)複数の単語が統計学的に有意な頻度で出現する現象をLDA(潜在的ディリクレ配分法)の拡張として提案したベイズ的確率モデルを用いて検出することで、(3)書誌フィールド分割という具体的な問題の解法を提案した。また、例えば同じ医学関係でも多様な分野の書誌情報をまとめて分析することで、どのような分野であれタイトルの先頭/末尾に現れやすい単語など、意味内容に無関係だが統計学的に有意な頻度で出現する単語を抽出したという意味で、「統計学的ライム」という本研究のメインテーマに即してもいた。 しかし、昨年度提案した上記手法は、教師無しunsupervisedの手法であり、よって分割の精度が80%強と満足のいくものではなかった。そこで今年度は、この教師無しの手法を、半教師付きsemi-supervisedの手法へと改変することで、さらなる精度向上を目指すことを計画していた。その結果、実際に分割精度を90%以上にすることができた。その成果を記した論文は、DL(デジタル・ライブラリ)関連の国際会議の中ではアジア地域でトップクラスであるICADL2012に受理された。ICADLでは、プレゼンテーションについても当日その場で座長から高評価をいただき、質問も多く出て、聴衆の関心の高さを実感できた。 2年間の研究全体を総括すれば、次のように言える。単語トークン列を、まとまりのある部分列(本研究の場合は、著者名・論文タイトル・雑誌名など、同じ書誌フィールドを構成するトークンの部分列)へと分割する問題に、LDAのようなトピックモデルを利用することは、従来あまり検討されてこなかった。本研究はここに着目し、トピックモデルの新たな活用法の提案として、意義ある成果が出せたと考える。また、トピックモデルは元々教師無し学習で、これを教師付き学習へと改変することは、様々試みられているものの、研究数自体はまだ多くない。その点でも、個性的な成果が出せたと考える。
|
Research Products
(4 results)