2012 Fiscal Year Research-status Report
大規模な質的データの分類とデータ構造の可視化に関する研究
Project/Area Number |
23500340
|
Research Institution | Hokkaido University |
Principal Investigator |
今井 英幸 北海道大学, 情報科学研究科, 教授 (10213216)
|
Co-Investigator(Kenkyū-buntansha) |
工藤 峰一 北海道大学, 情報科学研究科, 教授 (60205101)
田中 章 北海道大学, 情報科学研究科, 准教授 (20332471)
|
Keywords | クラスタリング |
Research Abstract |
(1)大規模な質的データの分類における特徴量の選択については、天井に配置したセンサーから取得された実データを用いて人間の行動様式、たとえば仕事中、仲間と議論、休憩、などを分類するための解析および考察を行った。本研究で用いているセンサーでは、プライバシーに配慮し個人の特定ができないようになっているため、狭い区画の中で多人数が作業をしているような状況では行動様式を特定することが難しい。Tao et al. (2012)では個人の行動履歴とセンサーのデータを組み合わせることにより行動様式を推定する方法を提案し、実データに適用して有効性を検証している。 (2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用については、L1距離とL2距離を包含する柔軟性の高い方法である正則化判別分析について研究を行った。この方法は複数のハイパーパラメータを含む。このパラメータの値によって判別性のが大きく変わることが数値実験により確認されている。Imai(2012)ではベイズ型の情報量規準と類似した方法でハイパーパラメータを決定する方法を提案した。また、実データに適用することで、判別性能の高いハイパーパラメータを決定することが可能であることを示した。また、この方法と従来広く用いられている線形判別関数と二次判別関数との関係を示した。 (3)大規模な質的データの効果的な可視化については、特徴量の次元が非常に高いデータを適切な部分空間に射影してその構造を直感的に把握する方法についての検討を継続している。とくに、特徴量間の関係を示す数値であるCopulasを効果的に用いて視覚化をするほうほうについて検討中である。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
(1)大規模な質的データの分類における特徴量の選択については、実データを用いた行動様式の効果的な推定方法を提案した。これは単身で住む年配者などが安心して暮らしてゆくための生活基盤となりうる重要な研究成果である。センサーデータの解析は現在もデータの取得および解析を継続中である。 (2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用においては、試行錯誤的な方法で決定していたハイパーパラメータについて数理的な根拠のあるある程度客観的な決定方法を提案した。 ハイパーパラメータの選択により判別性能が大きく左右されることがあることを考慮すると、この手法による選択法が有効であるといってよい。 (3)大規模な質的データの効果的な可視化手法については、従来は特徴量感の相関係数を利用したものがほとんどであり、Copulasに着目した研究はない。この研究が進展することで、今まで見逃されてきたデータ構造を把握することができるものと期待される。
|
Strategy for Future Research Activity |
(1)大規模な質的データの分類における特徴量の選択では、天井に配置したデータからの大規模実データを用いて、本研究で提案した個人の行動様式を推定する手法に関する検討を継続する。また、天井だけでなく壁などにも少数のセンサーを配置することで推定精度を向上させる方法についても現在検討中である。 (2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用については、正則化法を用いた特徴量の選択に関する有効性を理論面と数値実験からさらに進んだ検討を行う。提案法のほか、従来から広く用いられている交差確認法やブートストラップ法などとの比較検討を行う。また、計算時間を短縮するため計算の並列化についても検討を行い、効果的なデータ構造や並列化手法についても検討を行う。 (3)大規模な質的データの効果的な可視化手法については、 前年度のサーベイを踏まえつつ、大規模データの低次元射影についての考察を行い、スポーツデータなどの実データなどを用いて実証的な検討を行う。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度には大規模データの解析のために高速の演算装置と大容量の補助記憶装置を備えたワークステーションを購入予定であったが、北海道大学情報基盤センターにおいてクラウドシステムの運用が始まったため、このサービスのプロジェクトサーバを利用した。プロジェクトサーバの利用料金がきわめて安価であるため、当初の予定であったワークステーション購入との差額が未使用となった。 平成25年度においては、昨年度使用した北海道大学情報基盤センターのクラウドシステムのプロジェクトサーバを、よりグレードの高いシステムを複数台運用することで数値実験を行う予定である。平成24年度の未使用額はプロジェクトサーバのグレードアップと台数および代数の増加よるレンタル料に使用予定である。
|