2012 Fiscal Year Research-status Report
世代継続的な進化型計算手法による欠損値を含むデータからの知識発見に関する研究
Project/Area Number |
24500191
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Fukuoka Dental College |
Principal Investigator |
嶋田 香 福岡歯科大学, 歯学部, 准教授 (20454100)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | ソフトコンピューティング / 人工知能 / データマイニング / 欠損値 |
Research Abstract |
欠損値を含むデータベースから相関ルールを抽出してルールベースの欠損値推定を行うための進化型計算手法を応用した基本アルゴリズムを確立し、評価実験用のプログラムを作成してその有効性を検討した。提案手法は、データベースのある属性の欠損値を推定するための相関ルール集合を抽出し、これを用いてその属性における欠損値を推定し、さらにその推定値を含めて別の属性の欠損値推定のためのルール抽出を行い、欠損値を推定、推定値を更新することを繰り返していくことでデータベース全体の欠損値推定を最適化しようとする方式である。 評価実験では、公開されている2値データまたはカテゴリデータの離散値からなるデータベースを用いて、人工的にランダムな欠損値を発生させ、これらを提案方式により推定することで、欠損値発生率と推定精度の関連等の評価を行った。また、欠損値を含むデータにおけるルール指標の特性についての検討、属性による推定の難易の状況の把握方法の検討を併せて行った。欠損値を含むレコードを削除する従来手法では、欠損値発生率の増大により、利用可能なレコード数が減少するため、ルール抽出が困難となる課題があったが、提案方式では、ルール抽出を利用した欠損値の推定が可能であることが明らかとなった。 提案方式のうち欠損値の予測を特定の属性に対して行おうとする場合について、アルゴリズムの評価結果と応用例を国際会議で発表した。また、提案方式におけるルール抽出技術を応用した欠損値の推定前・推定後のデータベースの差異の評価、人工的欠損値利用時と完全時の差異の評価をルール抽出状況の観点から行うことのできるルール抽出法について国際会議で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の目的のうち「データベースの欠損値推定アルゴリズムの提案」については、24年度に欠損値を含むデータベースからの相関ルール抽出を組込んだ世代継続型進化論的計算手法による欠損値推定アルゴリズムを開発している。欠損値の推定は、各欠損値を個々に定めていくのではなく、推定済みの欠損値を用いた状態でルール抽出を行い、既知のデータへのあてはまりを確認しながらデータベース全体の欠損値を順次推定・更新して埋めていく進化計算型の戦略を応用するとした、当初の計画通りのアルゴリズムとなっている。開発アルゴリズムの評価実験については、プログラムを作成し、医療系のデータを含む公開データを用いて実施しており、欠損値を含むデータの取扱いに関する新たな知見発見方法としての有効性が明らかとなっている。また、24年度に計画していた、提案方式を用いて欠損値発生率と推定精度の関連等の評価、欠損値を含むデータにおけるルール指標の特性の検討を行っている。
|
Strategy for Future Research Activity |
今後は、手法の高速化・簡易化および連続値を含むデータベースへの拡張など実用化に向けた研究を研究計画通りに推進する。具体的には、パラメータの最適化による高速化、アルゴリズムの改良による高速化・簡易化を行うほか、データベースの属性値として、連続値についても扱うものとし、連続値属性の閾値の決定、ファジィの利用の検討を行う。離散化方法による欠損値の推定への影響を評価し、実用化に向けた応用研究を進める計画である。また、人工的欠損値を発生させる場合に、属性に関連する統計量や相関ルールの知見を反映させた場合の結果を分析することで、データの特性に応じた調整機能をもつ欠損値推定法を検討する。推定精度の最適化を考慮した条件設定法についても検討・評価する。 また、人工的に発生させた欠損値を利用した情報保護等の応用研究についても併せて行う。データベース保有者が人工的な欠損値を用いてデータを保護する場合を想定し、ルール抽出を行う者は、データの全容を知ることはないが、どの程度の正確さでルールを抽出可能か検討・評価する。欠損値推定アルゴリズムと組合せて、情報保護への信頼性を評価する。
|
Expenditure Plans for the Next FY Research Funding |
次年度に使用する予定の研究費が、40,313円生じている。25年度は、海外で開催される国際会議での研究成果発表を7月に計画しており、このための学会登録料・旅費が当初計画よりも50,000円程度増加すると予想されることから、これに使用する計画である。その他の費目については、研究計画通りである。
|
Research Products
(2 results)