2012 Fiscal Year Research-status Report
多クラスの大規模感性データを対象とした概念マイニングシステムの開発
Project/Area Number |
24700204
|
Research Institution | Muroran Institute of Technology |
Principal Investigator |
岡田 吉史 室蘭工業大学, 工学(系)研究科(研究院), 准教授 (00443177)
|
Project Period (FY) |
2012-04-01 – 2014-03-31
|
Keywords | 多クラス / バイクラスタリング / 概念 / データマイニング |
Research Abstract |
本研究の目的は、大規模かつ多クラスからなる表形式の感性データから、個々のクラスを特徴づける「概念」を抽出する手法を開発することである。今年度は、1)概念抽出のコア技術として多クラスを対象とした新規バイクラスタリング法を開発し、2)実データを用いた性能評価実験を行った。新たに開発されたバイクラスタリング法(以下、本手法)は、以前申請者らが開発した“飽和集合に基づくバイクラスタリング法(以下、従来法)”を多クラスデータ用に拡張したものである。本手法の特徴は、クラスを跨いで出現しているバイクラスタ(概念)を効率的に除外するアルゴリズムを実装している点、そして、バイクラスタの特異性を顕在パタン分析により判定する仕組みを導入している点にある。前者により、クラスラベルを持たないバイクラスタの探索をスキップすることで探索空間の大幅な縮減が実現されている。後者では、Growth Rateと呼ばれる指標により、個々のクラスで特異的かつサイズの大きいバイクラスタの抽出が行われている。これにより、複数クラスに属する解釈困難な膨大なバイクラスタの出力数を減らし、個々のクラスを特徴づけるバイクラスタのみの高速抽出が可能となった。性能評価実験として、本手法を癌細胞群と正常細胞群からなる遺伝子発現データセットへ適用し、計算時間、および得られたバイクラスタの生物学的機能を調査した。結果、本手法は従来法と比較して、バイクラスタ探索時間が大幅に低減したことに加え、特定機能を持つ遺伝子が集約した意味のあるバイクラスタの割合が高いことが確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
24年度の目標は、概念抽出のコア技術として多クラスを対象とした新規バイクラスタリング法を開発し、その有用性を検討することであった。新規バイクラスタリング法の開発に関しては、「クラス特異的なバイクラスタ生成」を主たる目標として研究を行った。本研究ではこれを、1)複数クラスに跨るバイクラスタを除外する枝刈りアルゴリズム、2)顕在パタン分析によるクラス特異的バイクラスタの同定、という2つのステップにより実現している。また、遺伝子発現データへの適用実験によって、本手法は従来法よりも優れていることが示された。以上より、当初の計画どおり順調に進展していると考えている。
|
Strategy for Future Research Activity |
24年度開発したバイクラスタリング法では、大部分が重複した類似のバイクラスタが多数出力される。そのようなバイクラスタが概念的に共通の意味を持つならば、融合して出力されることが望ましい。25年度はバイクラスタ融合法の開発と性能評価を行う。 1)バイクラスタ融合法の開発 バイクラスタ間の融合は「要素値の重複度」と「概念的意味の類似度」という2つの指標に基づいて行う。ここで、「要素値の重複度」とは、任意の2つのバイクラスタの行(属性)、列(サンプル)および属性値がどの程度共有されているかを示す指標である。また、「概念的意味の類似度」とは、属性集合(またはサンプル集合)に関するオントロジーを用いて算出されるバイクラスタ間の意味的類似度のことである。「概念的意味の類似度」に関する指標としては、オントロジーの階層構造に基づく類似尺度であるSemantic Similarityや、特定概念の統計的な出現確率を用いるEnrichment Analysisの利用が考えられる。これら2つの指標の利用に加えて、バイクラスタの融合順序と融合規則に関しても検討していく。 2)バイクラスタ融合法の性能評価実験 遺伝子発現データや機械学習用UCIベンチマークデータなどの評価用データを用いて、バイクラスタの抽出精度と計算時間についての評価を行う。バイクラスタ融合法の性能は、融合指標、融合順序および融合規則に大きく依存する。そこで、これらを様々に組み合わせた評価実験を行っていく。
|
Expenditure Plans for the Next FY Research Funding |
バイクラスタ融合法の開発と性能評価を行うための、高機能計算機およびNASをそれぞれ1台ずつ購入する。また、国内旅費として日本感性工学会、生命ソフトウェアシンポジウムへの参加・発表、外国旅費としてはKEERやICBAKEなどの感性工学に関わる国際会議への参加・発表の使用を予定している。
|
Research Products
(10 results)