研究課題/領域番号 |
26540116
|
研究機関 | 大阪大学 |
研究代表者 |
鷲尾 隆 大阪大学, 産業科学研究所, 教授 (00192815)
|
研究期間 (年度) |
2014-04-01 – 2016-03-31
|
キーワード | データマイニング / 列挙探索 / 機械学習 / モデリング / 超高次元データ / 大規模データ |
研究実績の概要 |
本研究では、数千次元を超える超高次元大規模データから各サブプロセスを表す変数と事例、モデルの候補組を高速探索列挙するモデルマイニング原理を探求、さらに生化学・医療、経済への実験適用を通じアルゴリズムを検討することを目的としている。 平成26年度は、(1)データから蓋然性の高い3項組(変数部分集合,事例部分集合,モデル)を見出す統計的・情報論的基準の構築、(2)データからの基準を満たす3項組候補の高速探索列挙原理の構築に加え、一部(3)実ビッグデータに基づく効率的アルゴリズムの検討に取り組んだ。 (1)では、膨大な次元を有しかつ膨大な事例から成る大規模データについて、そのデータのすべてにアクセスすることなく、データの複雑な分布を効率的に推定する原理に関する追及を行った。 (2)については、(1)と並行して特にデータから関連する事例と変数を選択してモデル関係を探索する原理について探求を行った。 (3)については、これら(1)及び(2)の原理を計算機に実装するアルゴリズムの予備的検討を行い、これらの考え方を一部取り入れた大規模データからのモデリング手法を検討し、プロセスプラントのモデリング、及びテキストデータのクラスタリングで応用適用し、その潜在的有効性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要で述べたように、平成26年度は(1)データから蓋然性の高い3項組(変数部分集合,事例部分集合,モデル)を見出す統計的・情報論的基準の構築、(2)データからの基準を満たす3項組候補の高速探索列挙原理の構築に加え、一部(3)実ビッグデータに基づく効率的アルゴリズムの検討に取り組んだ。 (1)について、膨大な次元を有しかつ膨大な事例から成る大規模データについて、そのデータのすべてにアクセスすることなく、データの複雑な分布を効率的に推定する基礎原理の見通しを得ることができ、所定の目標に沿う研究進捗を達成した。 (2)についても、データから関連する事例と変数を選択してモデル関係を探索する基礎原理の見通しを得ることができ、所定の目標に沿う研究進捗を達成した。 (3)についても、以上の原理を計算機に実装するアルゴリズムの予備的検討を行い、これらの一部取り入れた大規模データからのモデリング手法を検討し、プロセスプラントのモデリング、及びテキストデータのクラスタリングで応用適用し、その潜在的有効性を確認した。 以上の状況から、概ね予定通りの研究進捗を達成していると言える。
|
今後の研究の推進方策 |
平成26年度の(1)データから蓋然性の高い3項組(変数部分集合,事例部分集合,モデル)を見出す統計的・情報論的基準の構築、(2)データからの基準を満たす3項組候補の高速探索列挙原理の構築の成果を受け、(3)実ビッグデータに基づく効率的アルゴリズムの検討と(4) 原理・アルゴリズムの実例題検証に本格的に取り組む。また、(3)、(4)の検証結果を受け(1)、(2)に戻り基準や原理に反映修正を行う予定である。 実施項目3)、(4)では、実データの性質を踏まえた各種アルゴリズムを検討する。特に観測対象系におけるサブシステム間の結合の疎密度合いが探索列挙の高速性に大きな影響を与えると予想される。そこで、結合が疎および密な場合に分けたアルゴリズム検討を行う予定である。また、データの観測対象系に含まれるサブシステムに無関係な変数や外れ事例の多少も結果に影響を与えるので、それぞれに対応可能なアルゴリズムの検討と検証を行い、必要に応じて(1)、(2)にフィードバックする。これを繰り返して、潜在的実用性の高いモデルマイニング手法を確立する。
|
次年度使用額が生じた理由 |
本研究では、当初から研究代表者の研究室に具備されている共用計算機サーバ、その上の統計計算用ソフト及び一般のプログラム言語によるプログラムを生かす予定であった。用ただし、他用途と共用であるため、他研究の進捗によって計算機資源が不足する可能性があった。また、生化学・医療や経済・マーケティング実データについては、セキュリティ管理上他とは切り離した保管、計算が望ましく、専用の計算サーバを準備する予定であった。 しかし、他研究の進捗により、今年度については既存の計算機及びソフトウエアを十分に使用できたこと、さらに生化学・医療や経済・マーケティング実データの入手が次年度に持越しになったことで、専用のデータ保管及び計算用のサーバの準備も次年度に繰り越すこととした。
|
次年度使用額の使用計画 |
次年度は、他に大型の研究プロジェクトを実施するため、既存の研究室の計算機及びソフトウエア資源を利用できない。また、生化学・医療や経済・マーケティング実データが入手され、それらのデータ保管及び計算のための専用のサーバ計算機が必要になる。そのため、今年度繰り越した予算によって、これらの物品を購入し研究を推進する予定である。
|