研究課題/領域番号 |
16K16128
|
研究機関 | 近畿大学 |
研究代表者 |
濱砂 幸裕 近畿大学, 理工学部, 講師 (70610559)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | クラスタリング / グラフクラスタリング / ソフトコンピューティング / 知識融合 / 構造的ゆらぎ / ゆらぎモデル / Modularity / 妥当性基準 |
研究実績の概要 |
クラスタリングはデータの規則性や構造を発見する有用な手法として知られている。近年では、大規模データに潜む因果関係や相互作用の解明を目的として、グラフデータのクラスタリング(グラフクラスタリング)が大きな注目を集めている。しかしグラフデータは、個体間の情報を表現するという特徴ゆえに、構造的ゆらぎを避けることができず、データ本来の情報に基づいて解析が行われているとは言い難い。そこで本研究では、ゆらぎの無視から重視という発想の転換を着想とする新たな知識融合型クラスタリングの構築を目的とする。さらに、構造的ゆらぎに対する知識のモデル化とクラスタリングの融合という見地から手法の開発を進め、大規模・不確実・不確定なデータを柔軟に処理するデータ解析の新たな方法論の構築を目指す。 平成28年度は研究計画に従い、以下の項目について番号順に実施した。1.データ解析分野における構造的ゆらぎについて、先行研究および実データを調査し、それらの数理モデルとこれまでに構築した知識ベースとの関連性について検討した。さらに、グラフデータ特有の性質に着目し、類似点・相違点を精査し、構造的ゆらぎに対する知識ベースの構築について検討した。2.グラフクラスタリングの代表的手法であるLouvain法などを実装し、分類規則の特徴、適切に処理できるデータの規模、計算時間、について問題点を抽出した。また、1.で検討した知識ベースを手法に組み込む際の課題についても併せて検討を進めた。3.上記を基に、構造的ゆらぎに対する知識ベースのプロトタイプを開発し、モデル化を行った。それらのモデルとクラスタリング手法を照合し、プロトタイプの修正および再検討を行い、知識融合型クラスタリングの開発に必要となる、ゆらぎを扱う数理モデル(ゆらぎモデル)を開発した。これらの実施内容を踏まえ、次年度以降の研究計画を再検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成28年度に予定していた研究計画の各項目について達成度を、計画以上(A)、計画通り(B)、計画よりやや遅れている(C)、計画よりかなり遅れている(D)、の4段階で評価する。 1.データ解析分野における構造的ゆらぎの調査とこれまでに構築した知識ベースとの関連性の検討について、平成28年度4月から9月にかけて行う予定だった。ゆらぎが指す概念・範囲・扱われ方を整理し、それらの数学モデルと、これまでに構築した知識ベースの関連性を精査した。また、グラフデータを解析対象とする際に、新たに検討が必要となる領域についても検討を進めた。(B)評価。 2.既存のグラフクラスタリング手法の実装と問題点の抽出について、平成28年度9月から平成29年3月にかけて行う予定だった。多くの先行研究で有効性が検証されているLouvain法などを実装し、小規模の人工データと中規模のベンチマークデータを用いて、分類規則の特徴、適切に処理できるデータの規模、計算時間、について問題点を抽出した。さらに、クラスタ分割の定量的評価を行う指標であるModularityと、従来から用いられている妥当性基準との比較を進め、それぞれの問題点を明らかにした。また、知識ベースを見直し、構造的ゆらぎをアルゴリズムに組み込む方法についても検討した。(A)評価。 3. 構造的ゆらぎに対する知識ベースのプロトタイプ開発、数理モデル開発、プロトタイプ修正について、平成28年度9月から平成29年3月にかけて行う予定だった。構造的ゆらぎに対する知識抽出、既存手法の問題点把握が順調に進展したことから、開発、モデル化、修正のサイクルを進める十分な時間を確保できた。これらの検討を踏まえ、知識融合型クラスタリング開発に必要となる、ゆらぎモデルを開発し、次年度以降の計画遂行の準備を整えた。(B)評価。
|
今後の研究の推進方策 |
平成28年度は当初計画に従って遂行された。平成29年度は、知識ベースに基づくグラフクラスタリングの新規開発および評価を目的に、当初計画の予定通りに遂行していくこととする。 1.知識融合型クラスタリング技法の開発:前年に引き続き知識ベースの検討を進め、知識融合型クラスタリングの開発を進める。ここで開発する技法とは、独立した手法だけではなく、グラフデータに対する知識融合型クラスタリングのフレームワークをも含めたものとなる。フレームワークは、グラフデータ、構造的ゆらぎ、クラスタリング手法、ゆらぎモデルの4つで構成することを想定している。あるグラフデータに伴う構造的ゆらぎを限定することは困難と考えられるため、それらに適した手法とモデルを適宜選択することで、複数の視点から特徴を評価する必要がある。また、手法の開発は、既存手法とゆらぎモデルの融合、ゆらぎモデルによる既存手法の再記述、ゆらぎモデルに基づく新規開発の3点から行う。2.開発手法の評価および既存手法との比較検討:ベンチマークデータによる評価を行い、開発手法の特徴および問題点を明らかにする。特に、分類規則の特徴、適切に処理できるデータの規模、計算時間について評価し、前年度に実装したアルゴリズムとの比較検討を行う。既存手法を上回るほどの結果が得られなかった場合には、ゆらぎモデル、知識融合型クラスタリングを再検討する。3.モデル修正と汎用性向上および知識ベースの再構築:上記の評価結果から、有効性が明らかとなったゆらぎモデルを拡張し、知識ベースを修正する。さらに、モデルの汎用性を高めることで、クラスタリング以外のデータ解析手法への応用可能性が高まり、新たなデータ解析の方法論構築に向けた足がかりとなることが期待される。また、知識ベース、数理モデル、クラスタリング手法を適宜修正し、構造的ゆらぎに関する知識の不足領域を検討する。
|
次年度使用額が生じた理由 |
平成28年度に予定していた研究計画のうち、既存のグラフクラスタリング手法の実装と問題点の抽出について、予定していた以上の早さで進めることができた。そのため、研究協力者に依頼する予定であった実データ収集、プログラム開発補助の費用を抑えることができた。残った費用については、平成29年度に予定している新規開発手法の評価で必要となる、実データ収集、プログラム開発補助に充てる。
|
次年度使用額の使用計画 |
平成28年度に使用せず、平成29年度使用額として繰り越した予算は、グラフデータに対する知識融合型クラスタリングの性能評価について、当初予定していた以上の規模で行うことを計画しているため、実験に必要となる実データ収集、プログラム開発補助の費用として計上する。
|