研究課題/領域番号 |
19K12146
|
研究機関 | 近畿大学 |
研究代表者 |
濱砂 幸裕 近畿大学, 理工学部, 講師 (70610559)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | クラスタリング / ネットワークデータ / データのゆらぎ / ソフトコンピューティング / サイズコントロール / 機械学習 |
研究実績の概要 |
クラスタリングはデータの構造や固有の特徴を発見する手法として知られている。近年では、大規模データに潜む因果関係や相互作用の解明を目的として、ネットワークデータのクラスタリング(ネットワーククラスタリング)が注目を集めている。しかしネットワークデータは、個体間の繋がりや関係性を扱うという特徴ゆえに、エッジの欠損や誤差、情報の遅れや動的変化といった構造的ゆらぎを避けることができず、データ本来の情報に基づいて解析を行うことは非常に困難である。そこで本研究課題では、構造的ゆらぎを伴うネットワークデータのマイニングをターゲットとして進めてきた成果の継続的発展を通じて、実世界の大規模・不確実・不確定なネットワークデータの解析を可能とする知識融合型クラスタリング技法の高度化を進めている。特に、ネットワークデータのゆらぎに対する数理モデルと知識ベースの深化を通じて、構造的ゆらぎを活用する新たなデータ解析の方法論を構築することで、同じ条件下でも全く異なるデータが得られる広範な実問題の解析対象を柔軟に処理する新たなクラスタリング手法を開発する。令和2年度は研究計画に従い、以下の項目について番号順に実施した。(1)開発手法の評価および特徴把握について、ベンチマークデータおよび実データを用いて数値実験を通じた検討を行った。(2)知識ベースの効果検証および類型分類を通じた汎用性の向上について、クラスタ構造に関する事前知識をアルゴリズムに組み込むサイズコントロール、より複雑なモデルを表現するためのガウス過程、などの技法を用いた新たなクラスタリング手法を開発した。また、開発した技法の汎用性を検証するために、時系列データへの拡張を行った。これらの実施内容を踏まえ、次年度以降の研究計画を再検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和2年度に予定していた研究計画の各項目について達成度を、計画以上(A)、計画通り(B)、計画よりやや遅れている(C)、計画よりかなり遅れている(D)、の4段階で評価する。(1)開発手法の評価および特徴把握について、比較的規模の大きいベンチマークデータおよび実データを用いた数値実験を行い、分類規則の特徴、適切に処理できるデータの規模、計算時間について、代表的なネットワーククラスタリング手法であるLouvain法やスペクトラルクラスタリングと比較した。特に、本研究計画に従い開発したサイズコントロールを用いたクラスタリング手法が従来手法と異なる分類規則を示すことを明らかにした。また、前年度に開発したカーネル密度推定とカルバック・ライブラー情報量を用いる手法についても数値実験を通じた検証を進め、特徴把握を深めた。(B)評価。(2)知識ベースの効果検証および類型分類を通じた汎用性の向上について、クラスタ構造に関する事前知識をアルゴリズムに組み込むサイズコントロール技法について、時系列データへの拡張を行った。サイズコントロールの技法は、クラスタ内に含まれる個体数を制約条件として最適化問題に組み込むことで、クラスタリングの結果として得られるクラスタ構造にユーザの知識を反映することが可能である。サイズコントロールの技法を時系列データのクラスタリングに援用することで、ネットワークデータの場合と同じく、クラスタ内に含まれる個体数に差があるような場合であっても適切なクラスタ構造を得ることが可能となった。これらに加えて、ガウス過程を用いたクラスタリング手法の開発に着手した。令和2年度は、クラスタリングと回帰を同時に行うc-回帰法へガウス過程を導入することに取り組み、ガウス過程に基づくc-回帰法を開発した。これらの検討を踏まえ、最終年度の計画遂行の準備を整えた。(A)評価。
|
今後の研究の推進方策 |
令和2年度は当初計画に従って遂行された。令和3年度は、これまでに開発した知識融合型クラスタリング技法の再開発および実用化に向けた知識ベースの高度化について、当初計画の予定通りに遂行する。はじめに、これまでに検討した数理モデルを知識ベースとしてまとめ、検討が不十分な領域を明らかにし、該当する手法の再開発および評価を行う。また、すでに開発したクラスタリング手法で用いたサイズコントロールやガウス過程などの技法を中心に、ソフトコンピューティング、機械学習などの諸技法を検討し、本研究課題の知識ベースを再構築する。次に、Stanford Large Network Dataset Collectionで公開されているベンチマークデータや各種の実データを用いた数値実験を通じて、分類性能・データの規模・複雑さなどの観点から、本研究課題で開発した知識融合型クラスタリングの特徴を明らかにする。開発技法を用いた解析事例を蓄積することで、実問題へ適用するうえでの課題を抽出し、それらの解決を進めることで、本研究課題の遂行により開発した知識融合型クラスタリング技法の包括的発展を図る。本研究課題で開発を進める知識融合型クラスタリングは、モデル化した人間の知識をデータ解析手法に組み込むアプローチである。そのため、現象の特性を基に知識ベースを構成し、適切なモデルを構築することで、データ解析に関する諸問題を柔軟に扱うことが可能である。サイズコントロールの技法が、ネットワークデータから時系列データへ援用できたように、人間の知識をモデル化するというアプローチを推進し、新たなデータ解析の方法を構築し、理論と実用の両面から大規模データマイニングの実現に取り組む。
|
次年度使用額が生じた理由 |
2020年度のコロナウイルスの流行状況から当初予定していた研究打合せおよび国際会議発表が実施できなかったため、予定していた費用を物品購入に充てた。約140,000円の次年度使用額については、すでに掲載が決定している雑誌論文(2021年5月掲載予定)の掲載料および別刷代として使用する。
|