研究課題/領域番号 |
24500352
|
研究機関 | 同志社大学 |
研究代表者 |
宿久 洋 同志社大学, 文化情報学部, 教授 (50244223)
|
研究分担者 |
深川 大路 同志社大学, 文化情報学部, 助教 (10442518)
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
キーワード | ビッグデータ / シンボリックデータ / 多次元尺度構成法 / クラスタリング / 行列分解型多変量解析 |
研究概要 |
この数年,ビッグデータの利活用の流れは一般社会へ定着し,様々な企業において意思決定の手段としてビッグデータ解析が用いられるようになってきている.そこで扱われるデータのほとんどは何かしらのログのデータであり,母集団を規定してそこから標本抽出したものではない.その特徴として,多くの量質混在の変数に関する大量なものであり,かつ,疎データ,逐次データであることが多いということがあげられる.このようなビッグデータから生成された関連性データは一般に複雑な構造をもっており,従来の手法をそのまま適用しても必ずしも適当な結果が得られるわけではない. このような背景のもと,本研究では,大規模かつ複雑なビッグデータから生成された関連性データを想定して,新たな解析法の開発に取り組んでいる.その成果として,量質混在データのための次元縮約を伴う行列分解型の多変量解析法について提案を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,上記のように大規模かつ複雑なビッグデータから生成された関連性データを想定した新たな解析法をいくつか提案している.これらの手法はそれぞれ従来の手法の問題点を改善している方法ではあるが,あらゆるデータに適用可能なものではない.その意味で,現在の手法の改善は個別部分的なものに留まっていると言わざるを得ない.望むべくは,ビッグデータが与えられたときに,その特徴を判断し,目的に応じて適用可能な手法を体系的に提案することである.そのためには既存の解析法の更なる改良が必要であると同時に,ビッグデータ自体の特徴づけの必要性を強く感じている.今まで,データは尺度水準によって特徴づけられ,それに応じて適用可能な手法も定まっていた.しかしながら,ビッグデータを特徴づける基準は多様であり,事実上は解析の度に目的やデータに合わせて何かしら新しい手法を適用している状況である.データごとに適用される手法が異なっているといっても過言ではない.また,その部分はブラックボックス化していることも多く,再現性・不偏性が担保されているかどうかも疑問である.ビッグデータの解析法を体系化することは大きなテーマであり,簡単に達成できるとは考えていないが,最終的な目標をそこにおいて研究を進めたいと考えている.
|
今後の研究の推進方策 |
(今後の推進方策) 平成26年度は本研究の最終年度として,これまでの成果をまとめ,残されている課題の整理を行うことを計画している.ビッグデータ解析に対する社会的ニーズはますます高まっており,体系的な解析法の確立が望まれている.また,統計解析の利用が進む一方でデータ解析上の誤謬も散見されるようになっており専門家がきちんとメッセージを出していく必要があると考えている.本研究では,特に,関連性データの分析法に特化して,ビッグデータに対応した解析法を提案していくとともに,従来の手法の問題点を数理的に明らかにすることにより,応用上の解析法の誤用の減少に寄与できればと考えている. (次年度の研究費の使用計画) 平成26年度においては,本研究の集大成としてこれまでの研究成果を積極的に国際会議で公表していきたいと考えている.そのための旅費等として本研究費の利用を考えている.現在のところ,発表を予定している国際会議は以下の通りである. [1] European Conference on Data Analysis 2014, [2] 21 st International Conference on Computational Statistics (COMPSTAT 2014), [3] ISI Regional Statistics Conference: Statistical Science for a better Tomorrow
|