研究課題/領域番号 |
22240010
|
研究機関 | 京都大学 |
研究代表者 |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
研究分担者 |
平田 耕一 九州工業大学, その他の研究科, 教授 (20274558)
徳永 浩雄 首都大学東京, 理工学研究科, 教授 (30211395)
吉仲 亮 京都大学, 情報学研究科, 助教 (80466424)
|
研究期間 (年度) |
2010-04-01 – 2014-03-31
|
キーワード | 知識発見 / 機械学習 / 形式概念解析 / 閉集合 / 実数計算 |
研究概要 |
本研究の目的は, 離散値データと数値データが混用されたデータからの新たな知識発見に対して,数値の離散化と閉集合に着目し,2種類のデータに一貫性を持つ理論と手法を開発することにある.本年度の主な成果は以下の通りである. 1.昨年度に新たに設計した,木構造データの特徴として部分木を用いながら閉集合を利用して知識発見するアルゴリズムについて,そのアルゴリズムを洗練し,実データに対する計算機実験を行った上で学術雑誌に発表した. 2.数値データからの知識発見手法として,実数の2進符号化を利用したクラスタリングを一昨年度に提案した.その応用として,書籍などのを文書を写した文書画像における文字列検索への応用を試みた.文書画像が白黒の2色からなると仮定したとき,クラスタである閉集合が文字や文字の一部となる連結成分を表すことになる,という観察に基づき,さらにクラスタから数列を導出した上で,その数列のマッチングだけを行うことで文字認識をせずに文字列検索を行う方式を考案し,実装と実データによる評価を行った. 3.離散値データの一種である文字列データを非可換半群の要素とみなしたとき,文字と変数の列である単項式を知識発見に用いる方法を2種類考案した.1つは,単項式間に定まる自然な半順序を利用して正データの背後にあるべき生成過程を表現した上で,HMMやPCFGと同様にパラメータ推定を行う手法である.もう1つは,正データを生成する単項式と負データを生成する単項式を独立に生成する方式である.後者は大学入試センターの数学試験問題について,問題文のクラスタリングに応用した. 4.日本語文において,名詞・動詞と機能語の組合せを属性とした上で,閉集合を利用した知識発見を利用することにより,シソーラス拡張を行うという新たな方式を考案し,実装と実データによる評価を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当研究課題の基本的な目標であるである「位相的閉集合と代数的閉集合を用いて,離散値・数値混在データからの知識発見」については,一つの方式が完成し,アルゴリズムの設計と生命科学データへの適用実験まで進めることができ,昨年度までに国際会議発表,学術雑誌論文掲載を行ってきた.閉集合を用いた知識発見に付随するいくつかの問題についても研究が進展している.本年度は,代数的閉集合や位相的閉集合を利用した知識発見手法のバリエーションとアプリケーションを増やしながら,実問題を解ける手法を考案する,という段階に入っている.実際,昨年度までの研究成果をまとめた論文が本年度に国際雑誌に掲載されたのをはじめ,本年度の成果は国際会議や研究会で発表済み,もしくは近く発表予定である.
|
今後の研究の推進方策 |
代数的閉集合や位相的閉集合を利用した知識発見手法のバリエーションとアプリケーションを増やすという研究を続け,この手法の有効性を実例をもって示してゆく.また,基本的な成果については,論文だけではなく成書にまとめるように進める.
|