2011 Fiscal Year Research-status Report
大規模な質的データの分類とデータ構造の可視化に関する研究
Project/Area Number |
23500340
|
Research Institution | Hokkaido University |
Principal Investigator |
今井 英幸 北海道大学, 情報科学研究科, 教授 (10213216)
|
Co-Investigator(Kenkyū-buntansha) |
工藤 峰一 北海道大学, 情報科学研究科, 教授 (60205101)
田中 章 北海道大学, 情報科学研究科, 准教授 (20332471)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 大規模データ / クラスタリング / 正則化 |
Research Abstract |
(1)大規模な質的データの分類における特徴量の選択大規模な質的データからクラスタリングや分類に有効な特徴量を選択する手法についての考察および数値実験を行った。Imai et al. (2004)で提案された特徴量選択手法は最も効率が悪い場合では総当たり法を行うことになり、大規模なデータへの適用は困難である。そこでL1距離を用いた正則化項を導入した目的関数を導入することで、クラスタリングや分類に有効な特徴量を順次モデルに取り入れる手法を提案した。数値実験により、この手法では特徴量はほぼ分類に有効なものから取り入れられることが観察された。(2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用の提案モデルを構築するために用いたデータ以外の、未知のデータに対してクラスタリングや分類を高精度に行うためには有効な特徴量だけを取り入れ、不要なものはモデリングに使わないことが必要となる。L1距離を用いた正則化項を取り入れた方法では最も有効と判定される特徴量から順にモデルに取り入れることになるが、どこまでの特徴量を取り入れて、どこで停止するかを決定することが分類の精度に大きく影響することが数値実験により示された。こうしたモデル選択基準は母集団分布に強く依存するため本研究で想定しているようなデータに直接当てはめることは難しい。この問題を解決するために組合せ論的なモデルの選択基準を考案し数値実験を行った。(3)大規模な質的データの効果的な可視化手法の開発超高次元のデータを射影するほうについて関連研究のサーベイを行い、次元縮小の方法についての考察を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)大規模な質的データの分類における特徴量の選択従来法では適用が困難な規模のデータに対して特徴量の選択手法を提案することができたことは、本研究課題が目的とする大規模な質的データへの適用に対する提案手法の有効性を示しており、次年度以降の研究の基礎となる成果が得られたものといえる。(2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用の提案質的データにおけるモデルの選択基準を提案し、数値的にその有効性が確認されている。また、この提案手法は階層分析法(AHP法)における有効な代替案の選択にも適用できる可能性が示されており、次年度以降は正則化法以外への適用を検討する予定である。(3)大規模な質的データの効果的な可視化手法の開発可視化手法については既存研究のサーベイを行いつつ、本研究課題における有効な可視化手法について基礎的な検討を行っている。
|
Strategy for Future Research Activity |
(1)大規模な質的データの分類における特徴量の選択提案手法と既存の手法についての比較を行い、提案手法の有効性を確認する。データ構造を仮定した人口データやベンチマークに用いられるような典型的なデータに各手法を適用することで、手法の特徴や有効性の検討を行う。また、前進法、後退法、前進・後退法など従来用いられていて有効性が確立している方法との比較を行うことで、提案手法の適用範囲を示すことを目指す。また、ウェブ上のデータなど、特徴量が数千からそれ以上の超大規模なデータに対する提案手法の適用可能性についても検討する。(2)大規模な質的データによる部分クラス法、正則化法、およびカーネル法の適用の提案正則化法を用いた特徴量の選択に関する有効性を理論面と数値実験から検討する。提案法のほか、従来から広く用いられている交差確認法やブートストラップ法などとの比較検討を行うとともに、計算量は記憶容量などアルゴリズムの効率性の観点からの検討も行う。部分空間法、カーネル法の適用についても理論、数値実験の両方から検討を継続し、クラスタリングや分類への適用についての考察を行う。さらにTanaka et al.(2007)による積分カーネルの適用についての考察を行う。これらについては理論的な検討が重要であり、積分範囲の決定などの課題の解決を目指す。(3)大規模な質的データの効果的な可視化手法の開発前年度のサーベイを踏まえつつ、大規模データの低次元射影についての考察を行い、人口データ、ベンチマークデータなどを用いて実証的な検討を行う。数量化3類などの手法で実際のデータには射影による見かけ上の構造が出現する馬蹄形問題が知られており、こうした方法との比較検討も行う。
|
Expenditure Plans for the Next FY Research Funding |
発表を予定していた国際会議が延期になったため、旅費および学会参加費等の使用が当初の予定より少なくなり、53万円の残高が生じた。発表を予定していた国際会議が本年度に開催予定のため、前年度の残額を旅費および学会参加費として使用する予定である。大規模データの解析には北海道大学情報基盤センターのクラウドシステムであるプロジェクトサーバを利用する。また、国内外での最新の研究動向を調査するため主要な研究者による研究発表が行われる学会等に出席し、情報交換を行う。質的データの分析についてはカテゴリカルデータ分析を専門とする研究者等と意見交換を行う。特徴量の選択や正則化法の適用については国際会議等で研究成果を発表するとともに、積極的に論文の投稿を行う予定である。
|
Research Products
(4 results)