2014 Fiscal Year Research-status Report
タイニーデータマイニング:基底としての確率分布による大規模データの再構成
Project/Area Number |
26330256
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | データマイニング / トピックモデル / ベイズ推定 / 機械学習 / 確率モデル / 知識発見 / 言語処理 |
Outline of Annual Research Achievements |
本研究は、大規模データを低次元空間で表現しなおす基底として「タイニーデータ」を抽出することを目的としている。タイニーデータは、元のデータを再構成する複数の確率分布として抽出されるが、以下の3つのDによって特徴づけられる。Distinctiveness:どの基底も無駄にならないことを意味する。Diversity:抽出された基底が網羅的である(不足がない)ことを意味する。Dynamism:抽出された基底が他のデータの再構成にも使えることを意味する。 平成26年度は以下の成果をあげることができた。 * A Topic Model for Traffic Speed Data Analysis. in Proc. of IEA-AIE 2014, pp. 68 - 77, June 2014. この論文では、NYCの交通流の速度データをトピックモデルによって分析し、典型的な速度分布をガンマ事後分布として抽出することで元のデータを再構成している。 * ChronoSAGE: Diversifying Topic Modeling Chronologically. in Proc. of WAIM 2014, pp. 476 - 479, June 2014. この論文では、DBLPの論文タイトルを、時間情報も利用できるトピックモデルにより分析し、多様な研究トピックを語彙上の多項分布として抽出することで元のデータを再構成している。分析結果からは、時間的な研究トレンドの推移もみてとれる。 * Exploring Technical Phrase Frames from Research Paper Titles. in Proc. of MAW15, pp. 558 - 563, March 2015. この論文では、トピックモデルは利用していないが、DBLPの論文タイトルから特定の分野に特有の言い回しを単語3-gramとして抽出している。 以上の研究は、タイニーデータという粒度の細かいデータを抽出することで、それらを手がかりに元のデータ全体を概観・俯瞰することを可能にしている。つまり、タイニーデータの抽出により、複雑なデータを直感的に把握できるようになった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
大規模なデータ全体を、確率分布としてのタイニーデータによって再構成し、データ全体の概観を得ることができたという意味で、1年目の研究は成功していると考える。ただし、3つのDの各々について、なお研究を進展させる余地がある。それぞれ以下のような課題が対応する。Distinctiveness:タイニーデータの個数(トピックモデルの場合はトピック数)が適切かどうかをチェックするという課題。Diversity:分析によってカバーされていないデータ(アウトライア)がないかどうかチェックするという課題。Dynamism:抽出されたタイニーデータが元のデータ以外のデータの理解に利用できるかどうかチェックするという課題。
第1の課題については、HDP-LDAのようにトピック数を自動的に決められる確率モデルを使う方法がある。特に近年、サンプリングよりシンプルな推定方法(CVB0)が提案されてもいる。しかし、スケーラビリティを考えると、HDPのような複雑なモデルを使わず、LDAと同等のモデルで複数の異なるトピック数を実際に試すことで分析対象のデータにあったトピック数を求めるという実践的な手法のほうが有効な場合もある。 第2の課題については、元のデータに潜在的に含まれており、かつ、抽出されたタイニーデータによってカバーされてない情報とはどのようなものか?という問題をまず考えたい。これは外れ値検出にも通じる問題である。この方向での研究は1年目では行えていなかった。 第3の課題については、1年目の研究でもテストデータ上でのperplexityによってトピックモデルを評価することである程度の進展を見ているとは言える。しかし、より応用に沿った方向性での模索はまだ行われていない。例えば、トピックモデルでは各トピックが単語上の確率分布として得られるので、このタイニーデータを他のデータを概観する手がかりとしてどう使うかという課題には1年目では取り組めていない。
|
Strategy for Future Research Activity |
今後は、特にデータ分析結果の解釈や活用にも重点を置いて研究を進めたい。以下、三つのDに即して今後の推進方策を述べる。 Distinctiveness:タイニーデータの個数は、クラスタリングにおけるクラスタ数に対応する。これを適切に決定することは教師無し学習の分野において依然として困難な問題と考える。そうであるならば、少し多い目にクラスタ数を決めておき、データをどのように利用するかに応じて、あまり有用でないタイニーデータを逆に除去する方法を後処理として実施しdistinctivenessを実現するという方針が考えられる。その際、個々のタイニーデータの重要度を評価する尺度の考案が課題となるだろう。 Diversity:タイニーデータは、データに潜むさまざまな次元のうち支配的なものを反映している必要があることは言うまでもないが、どの程度マイナーなものも拾えているかというチェックも重要だと考えている。なぜなら、トピックモデルの利点のひとつは、従来の文書クラスタリングとは違って粒度の細かい意味的解析が可能であることだからである。データの意外な側面を説明する手がかりとして、抽出されたタイニーデータがどの程度有用かを定量的あるいは定性的に評価することが課題となるだろう。 Dynamism:タイニーデータ分析は、与えられたデータにおいて、従来の粒度の粗い分析では網にかからなかった部分にも光を当てることを目指してもいる。ならば、新しいデータ集合を分析する際に、特にそのデータのマージナルな側面に注目することを可能にするような基底としてタイニーデータを抽出するほうが良いといえる。。そこで、今後はこの方向での評価、目立った構造を再構成するというよりむしろ新しく与えられたデータの影の部分に光を当てられているかどうかという評価を目指していきたい。
|
Research Products
(3 results)