研究課題/領域番号 |
19K12146
|
研究機関 | 近畿大学 |
研究代表者 |
濱砂 幸裕 近畿大学, 理工学部, 講師 (70610559)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | クラスタリング / ネットワークデータ / データのゆらぎ / ソフトコンピューティング / 機械学習 / 位相データ解析 |
研究実績の概要 |
クラスタリングはデータの構造や固有の特徴を発見する手法として知られている。近年では、大規模データに潜む因果関係や相互作用の解明を目的として、ネットワークデータのクラスタリング(ネットワーククラスタリング)が注目を集めている。しかしネットワークデータは、個体間の繋がりや関係性を扱うという特徴ゆえに、エッジの欠損や誤差、情報の遅れや動的変化といった構造的ゆらぎを避けることができず、データ本来の情報に基づいて解析を行うことは非常に困難である。そこで本研究課題では、構造的ゆらぎを伴うネットワークデータのマイニングをターゲットとして進めてきた成果の継続的発展を通じて、実世界の大規模・不確実・不確定なネットワークデータの解析を可能とする知識融合型クラスタリング技法の高度化を進めている。特に、ネットワークデータのゆらぎに対する数理モデルと知識ベースの深化を通じて、構造的ゆらぎを活用する新たなデータ解析の方法論を構築することで、同じ条件下でも全く異なるデータが得られる広範な実問題の解析対象を柔軟に処理する新たなクラスタリング手法を開発する。令和元年度は研究計画に従い、以下の項目について番号順に実施した。1.構造的ゆらぎを伴うネットワークデータに対する数理モデルの拡張について、位相データ解析、機械学習、ファジィグラフなどの技法を起点として検討を進めた。2.ネットワークデータに対する知識融合型クラスタリングの新規開発について、カーネル密度推定と情報量基準を用いることで、データの位置関係と周辺分布を考慮した新たなクラスタリング手法を開発した。開発手法について、分類性能、パラメータに対するロバスト性、計算時間について評価したところ、代表的なクラスタリング手法であるスペクトラルクラスタリングを上回る結果となった。これらの実施内容を踏まえ、次年度以降の研究計画を再検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和元年度に予定していた研究計画の各項目について達成度を、計画以上(A)、計画通り(B)、計画よりやや遅れている(C)、計画よりかなり遅れている(D)、の4段階で評価する。1.構造的ゆらぎを伴うネットワークデータに対する数理モデルの拡張について、ネットワークデータにおけるエッジの欠損や誤差、情報の遅れや動的変化といった構造的ゆらぎが指す概念・扱われ方・対象分野を整理し、それらの数学モデルとこれまでに構築した知識ベースの関連性を精査した。また、ネットワークデータを解析対象とする際に、新たに検討が必要となる領域についても検討を進めた。(B)評価。2.ネットワークデータに対する知識融合型クラスタリングの新規開発について、データのゆらぎに対して、データの局所的情報のみを扱うのではなく、より広い観点から扱うことを目的とし、カーネル密度推定とカルバック・ライブラー情報量を用いる新たなクラスタリング手法を開発した。開発手法はデータの位置関係のみならず周辺に分布するデータを考慮することで、より柔軟な分割を可能とする手法となっている。開発手法について、小規模の人工データと中規模のベンチマークデータを用いて、分類性能、パラメータに対するロバスト性、計算時間について評価するとともに、代表的クラスタリング手法であるk-meansおよびスペクトラルクラスタリングと比較することで、開発手法の優位性および問題点を明らかにした。また、数理モデルを見直し、構造的ゆらぎをアルゴリズムに組み込む方法についても検討した。(A)評価。3.構造的ゆらぎを扱う数理モデルの高度化について、新規手法の開発と問題点把握が順調に進展したことから、開発、モデル化、修正のサイクルを進める十分な時間を確保できた。また、構造的ゆらぎを扱う数理モデルとしてガウス過程についての検討を開始し、次年度以降の計画遂行の準備を整えた。(B)評価。
|
今後の研究の推進方策 |
令和元年度は当初計画に従って遂行された。令和2年度は、クラスタリング手法の新規開発および評価を目的に当初計画の予定通りに遂行していくことにする。はじめに、前年度に引き続き数理モデルの検討を進め、クラスタリング手法の新規開発と評価および特徴把握に取り組む。Stanford Large Network Dataset Collectionで公開されているベンチマークデータに加えて、マルチエージェントシミュレーションや IoT センサーネットワークから取得した比較的規模の大きい実データを用いて開発手法の評価を行う。特に、分類規則の特徴、適切に処理できる データの規模、計算時間について、Louvain法やスペクトラルクラスタリングなどとの比較検討を行う。既存手法を上回るほどの結果が得られない場合には、全年度の実施項目について再検討する。次に、知識ベースの効果検証および類型分類を通じた汎用性の向上について、前述の検討を基に、有効なモデルを複数の手法に適用できるよう拡張する。数理モデルの汎用性を高めることで、クラスタリング以外のデータ解析手法への応用可能性が高まり、新たなデー タ解析の方法論構築に向けた橋頭堡となる。また必要に応じて、これまでに実施した項目を再検討する。特に、現在検討を進めているガウス過程に基づくクラスタリング手法を開発し比較検討することで、これまでに開発した数理モデルや開発手法を新たな観点から整理し、より対象とするデータに適した数理モデルの検討が進展すると考えている。これらの検討を中規模以上のベンチマークデータや実データを対象として進めることで、実データへの有用性についても検証し、柔軟な処理を実現する新たなクラスタリング手法の開発を進める。
|