研究概要 |
本研究では,対象の離散化と機械学習の2つのプロセスを融合するという方針に基づき,理論的に仮定されるアナログデータと,実際に計算機上で扱われるデジタルデータのギャップを埋めることを主眼として,離散化を取り込んだ具体的な機械学習アルゴリズムを提案した.まず,符号化による実数値データの離散化過程をクラスタリングそのものと同一視することで,実数の符号化方式に基づきクラスタリングの結果を評価する新しい尺度MCLを提案し,その尺度のもとで最適なクラスタを発見するアルゴリズムCOOLを構築した.グレイコードを用いることで,内的結合と外的分離を達成しつつ,任意形状のクラスタを発見可能であることを理論的に示した.また,この結果を発展させることで,任意形状のクラスタを抽出し,かつ高速なクラスタリングのアルゴリズムBOOLを提案した.これは,任意形状のクラスタを抽出可能なアルゴリズムとしては世界最速であり,他研究が提案したものよりも100~1000倍高速に動作する.さらに,半教師あり学習と順序学習というさらに複雑な機械学習のタスクと,その生物学データへの応用に取り組んだ.形式概念解析を利用することで,離散値と連続値が混在するデータから,クラスの分類とランキングを半教師あり学習によって達成するアルゴリズムSELFを提案した.また,生物学データベースからのリガンド候補の発見を,半教師ありのマルチラベルクラス分類問題として定式化した上で,その問題を解くアルゴリズムLIFTを構築した.実データを用いた実験によって,既存手法よりも良い精度でリガンド候補が発見できることを示した.これらの研究は,離散的な空間における位相的・代数的構造が連続値からの機械学習において有効に機能するという新たな知見を提供している.
|