研究概要 |
本研究の目的は,離散値データと数値データが混用されたデータからの新たな知識発見に対して,閉集合と形式概念解析に着目し,2種類のデータに一貫性を持つ理論と手法を開発することにある.本年度の主な成果は以下の通りである. 1.昨年度に,離散値・数値混在データからの半教師あり知識発見アルゴリズムを着想し試作した.本年度はそのアルゴリズムを洗練した上で,それを生命科学分野のデータに適用する研究を行った.このアルゴリズムは,離散値と数値を閉集合を用いて融合し,形式概念解析を利用して知識発見を行う.融合方法は対象データに応じて2種類考案している. 2.閉集合と形式概念解析は,ある要素が集合に属するか否かをブール値で表現することを基礎にしている.上述の1の研究については,この性質を利用している.一方,離散値データと数値データの融合の視点からは,要素の個数を考慮し,ブール値を数値にする方法も考えられる.この考え方に基づいた閉集合を新たに考察した上で,知識発見アルゴリズムを設計した. 3.分散されたサイトに蓄積されているデータから,プライバシーを保護しながら学習するアルゴリズムの設計と解析が注目されている.昨年度に閉集合を用いて,分散されたサイト間のデータ転送量の削減とプライバシー保護を両立される知識発見の着想を得ていたが,本年度はその知識発見アルゴリズムの分析を進展させた. 4.離散値データの代表である木構造データを数値データと融合する場合,2つの木の間の距離を算出する必要がある.そこで,この距離を高速に算出アルゴリズムを設計し実装した. 5.木構造データからの閉集合を用いた学習について,これまでの研究では,木特徴量を用いて数値空間に射影する手法と,木の生成モデルをそのまま用いる手法が提案されてきた.本研究では第三の方法として部分木を特徴とする空間への射影という方法を考案して,知識発見アルゴリズムを設計した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
基本的アイデアである「閉集合と形式概念解析を用いて,離散値・数値混在データからの知識発見」については,一つの方式が完成し,アルゴリズムの設計と生命科学データへの適用実験まで進めることができている.また,閉集合を用いた知識発見に付随するいくつかの問題についても研究が進展している.
|
今後の研究の推進方策 |
本年度までに開発してきた知識発見アルゴリズムについて,対象とするデータの種類を拡大し,アルゴリズムを改良し,実データ実験を行うともに,その代数的な性質を探求する.また,並行して開発してきた量子化を用いた高速知識発見アルゴリズムについて,位相的性質に着目しながら理論的整備を進める.
|