2013 Fiscal Year Annual Research Report
多クラスの大規模感性データを対象とした概念マイニングシステムの開発
Project/Area Number |
24700204
|
Research Institution | Muroran Institute of Technology |
Principal Investigator |
岡田 吉史 室蘭工業大学, 工学(系)研究科(研究院), 准教授 (00443177)
|
Keywords | 多クラス / バイクラスタリング / 概念 / データマイニング |
Research Abstract |
本研究の目的は、大規模かつ多クラスからなる表形式の行列データから、個々のクラスを特徴づける「概念」を抽出する手法を開発することである。前年度は、バイクラスタリングに基づく概念抽出法の開発および性能評価実験を行った。本法により個々のクラスで特異的に出現する概念(=バイクラスタ)の抽出が可能となった。一方で、大部分の行列要素が重複する互いに類似したバイクラスタが大量に出力されていた。そのようなバイクラスタは概念的な意味を共有していると考えられ、ユーザによる事後処理(例えば、共通概念を手作業でまとめる処理)を軽減するためにも、融合して出力されることが望ましい。 そこで今年度は新たに、類似バイクラスタを自動的に融合する手法を開発し、前年度の概念抽出法への導入を行った。この融合法は、階層的クラスタリング(群平均法)に基づいて、事前に指定された重複度閾値を満たすバイクラスタ同士を順次併合する。重複度閾値を小さくすると、出力バイクラスタ数は減るが、不一致要素(ノイズ)が多いバイクラスタが出力されてしまう。逆に、重複度閾値を高くすると、ノイズの少ないバイクラスタが生成されるが、出力バイクラスタは多くなる。そこで、重複度閾値の概念抽出性能に与える影響に的を絞って研究を行った。実験として、癌細胞群と正常細胞群の2クラスから構成される3つの遺伝子発現データセットへ適用し、様々な重複度閾値における生成バイクラスタ数および生物学的に意味のあるバイクラスタの割合を調査した。結果、非常に高い重複度閾値(80%~90%)において、前年度の融合なしの方法と比較して、特定の生物学的機能で特徴づけられるバイクラスタの割合を下げずに出力バイクラスタを半数程度に抑えることが可能となった。
|