研究課題/領域番号 |
25330268
|
研究種目 |
基盤研究(C)
|
研究機関 | 東京電機大学 |
研究代表者 |
市野 学 東京電機大学, 理工学部, 教授 (40057245)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | シンボリック・データ・アナリシス / データマイニング / 分位数 / 主成分分析 / データ累積法 / 階層的概念クラスタリング / コンパクトネス / 重み付き自己情報量 |
研究概要 |
平成25年度の研究実施計画では、1.分位数法およびデータ累積法に基づく主成分分析法の確立、2.分位数法に基づく単調性に立脚した概念クラスタリング を掲げた。 1については、ヒストグラム・データや区間データなどを対象とした「分位数法による主成分分析」として、既に発表済みである。データ累積法による主成分分析は、期間毎にまとめられた多次元データを一括して主成分分析に掛けられる利点を有する。年次毎にまとめられたGDPデータと職業別人口データを対象とした解析例を、国際会議COMSTAT2012において発表した。これにシンボリック・ヒストグラムデータであるポルトガルの輸出データに関する解析例を加えて、論文の形にまとめている。近々適当と思われる学術雑誌に投稿する予定である。 2については、シンボリック・データを対象として、入れ子の性質を基礎とした「単調性に基づく階層的概念クラスタリングの方法」を提案した。概念の大きさの尺度である「コンパクトネス」を定め、コンパクトネスを頼りに概念クラスターを階層的融和過程を通じて生成する。したがって、コンパクトネスが個々の融和の良否を評価する尺度であるとともに、生成された概念クラスターの良否を評価する尺度を兼ねている。さらに、概念の大きさが単位区間に値をとることを前提として、重み付き自己情報量を定義した。クラスタリングの目的が、与えられた対象を2つ以上の同等な大きさのクラスターの発見であるとすれば、重み付き自己情報量は、望ましいクラスターの候補を提示する有用な尺度として働くことが分かった。これらの成果は、国際会議WSC2013(香港)において報告した。さらに、加筆修正した論文を、IEEE Trans. SMCのシンボリック・データ・アナリシス特集号に投稿した。尚、上記1と2は、ポルトガル大学Paula Brito教授との共同研究として行われている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
データ累積法に基づく主成分分析法の確立と、シンボリック・データを対象とした階層的概念クラスタリングの開発を、今年度の研究目的とした。前者は、論文として推敲の段階であり、また後者は論文として既に投稿済みである。したがって、全体としてほぼ目標通りに進行していると考える。
|
今後の研究の推進方策 |
データ累積法による主成分分析法の研究に関連して、データ累積の過程を折れ線グラフとして表示するデータ累積グラフ(Data Accumulation Graph, DAG)を開発した。各オブジェクトは、データ累積により単調な折れ線グラフとして表現され、したがって与えられた全オブジェクトは並行な単調折れ線グラフ群として表示される。各折れ線グラフの長さは、累積された概念の大きさを意味しており、マクロな観点から与えられたオブジェクトの「大きさ」を比較することができる。一方、折れ線グラフの形は累積する特徴(変数)の順序に依存するが、各特徴は折れ線グラフの局所的形においてその存在を主張することになる。つまり、折れ線グラフの大きさという大局的な性質と折れ線グラフの形という局所的な性質が同時に表現されている。このような表現法は、多次元シンボリック・データの解析にきわめて有用であると考えられる。本DAGはEXCELの「折れ線による散布図コマンド」で簡単に得ることが可能であり、簡便なビッグデータの可視化技術を提供する。本DAGは、シンボリック・データ・アナリシスのワークショップ(SDA2014、台湾)と国際会議COMSTAT 2014 (Geneva)で報告する予定である。本DAGは、特徴のクラスター毎に累積表示することや、主成分分析の因子平面における表現と類似の表示も可能であり、さらなる検討を通じて簡便で有用なツールを提供可能と考える。 以上の理由から、本年度はデータ累積法による各種可視化の方法を主たる目標として研究を進めたい。したがって、当初の予定である1.分位数法による判別分析と2.分位数法による回帰分析の研究は、データ累積法の関連を含めながら、従たる研究目標として継続したい。
|
次年度の研究費の使用計画 |
国際会議が香港で開催されたことから、旅費が予定額を下回った。また。独自研究会の開催回数が予定を下回ったことによる。 ウエブによる研究成果の外部発信、および独自研究会開催の費用として使用したい。
|