研究実績の概要 |
本研究は、大規模データを低次元空間で表現しなおす基底として「タイニーデータ」を抽出することを目的としている。タイニーデータは、元のデータを再構成する複数の確率分布として抽出されるが、以下の3つのDによって特徴づけられる。Distinctiveness:どの基底も無駄にならないことを意味する。Diversity:抽出された基底が網羅的である(不足がない)ことを意味する。Dynamism:抽出された基底が他のデータの再構成にも使えることを意味する。 平成26年度は以下の成果をあげることができた。 * A Topic Model for Traffic Speed Data Analysis. in Proc. of IEA-AIE 2014, pp. 68 - 77, June 2014. この論文では、NYCの交通流の速度データをトピックモデルによって分析し、典型的な速度分布をガンマ事後分布として抽出することで元のデータを再構成している。 * ChronoSAGE: Diversifying Topic Modeling Chronologically. in Proc. of WAIM 2014, pp. 476 - 479, June 2014. この論文では、DBLPの論文タイトルを、時間情報も利用できるトピックモデルにより分析し、多様な研究トピックを語彙上の多項分布として抽出することで元のデータを再構成している。分析結果からは、時間的な研究トレンドの推移もみてとれる。 * Exploring Technical Phrase Frames from Research Paper Titles. in Proc. of MAW15, pp. 558 - 563, March 2015. この論文では、トピックモデルは利用していないが、DBLPの論文タイトルから特定の分野に特有の言い回しを単語3-gramとして抽出している。 以上の研究は、タイニーデータという粒度の細かいデータを抽出することで、それらを手がかりに元のデータ全体を概観・俯瞰することを可能にしている。つまり、タイニーデータの抽出により、複雑なデータを直感的に把握できるようになった。
|