2016 Fiscal Year Research-status Report
人工的欠損値を導入した大規模データにおける知識発見
Project/Area Number |
16K00316
|
Research Institution | Fukuoka Dental College |
Principal Investigator |
嶋田 香 福岡歯科大学, 口腔歯学部, 准教授 (20454100)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 知識発見 / データマイニング / 人工知能 / ソフトコンピューティング / 欠損値 |
Outline of Annual Research Achievements |
研究代表者らは、欠損値を含むデータベースからIF~THEN~型ルール集合を発見する方法を世代継続的に成果を蓄積して課題解決をしていく進化型計算手法を用いて提案しており、本研究課題ではその応用として、データベースに人工的欠損値を導入することを特徴とする知識発見方法の開発を計画した。人工的欠損値は、ある方策によってデータベースの情報を間引いて隠すなどしたものであるが、28年度はルールベースの予測・分類問題における数値属性の離散化において離散化時の境界値付近の値を欠損値として扱うことを特徴とする方式を検討・評価した。IF~THEN~型ルールの利用においては、数値属性の離散化方法がルールの解釈やルールベースの分類結果等に大きな影響を及ぼすことが考えられることから、具体的には、公開されているデータを用いて人工的欠損値の量的・範囲的な与え方がルールの興味深さ指標に与える影響や分類での精度の向上を評価し、最適な人工的欠損値生成の設定法、属性間の欠損値発生条件の組合せ最適化などのアルゴリズムを検討した。また、人工的欠損値を導入しない場合との比較を行い、提案方式の特性を検証した。評価実験からは、人工的欠損値の導入によって予測・分類問題で学習データにおいては境界値付近の属性値を持つレコードはルール指標の算出からその都度除外し、一方、テスト事例のルールマッチングにおいては、境界値付近の値を用いたルールによる判断は避けて別のルールを用いて判断しようとすることを実現することにより性能を改善できると評価できる結果を得た。また、比較的小規模の医療データを用いた評価実験では、人工的欠損値の導入の設定により真陽性の割合を大きくできる可能性があることが示された。また、人工的欠損値を導入した場合の方が従来の方式より精度のばらつきが小さく、偽陽性の割合が小さい傾向にある結果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の目的のうち「実社会に応用可能な人工的欠損値を用いた人間の思考様式に似た知識発見法の創成」においては、医療系データを用いた評価実験により、ルールの生成時における離散化境界値付近の値の扱いや、ルール利用時の手元の数値が離散化境界値付近である場合等、判断に迷うと考えられる場合において、判断を一旦保留しておき、よりよい情報に基づいて処理しようとするといった、人間の発想に似た知識発見法の観点からの評価を行ったほか、所属機関の研究者らと協力して比較的大規模なデータを用いた医療専門家の視点からの発見されたルールの解釈や分類結果等の評価に関する検討も行っている。また、研究目的のうち「人工的欠損値を用いたルールベースの予測・分類問題解決アルゴリズムの提案」についても、基礎となるアルゴリズムの開発を評価実験を行いながら当初の計画通り進めている。
|
Strategy for Future Research Activity |
今後は、最適な人工的欠損値生成の設定法、属性間の欠損値発生条件の組合せ最適化を実現するための検討・評価を行って人工的欠損値を用いたルールベースの予測・分類問題解決アルゴリズムを開発する。具体的には、人工的欠損値を導入する場合に、属性に関連する統計量や発見されるルールの知見を反映させた場合の結果を分析することで、データの特性に応じた調整機能をもつ人工的欠損値導入法を検討・評価する。また、ビッグデータにおける情報の選択的利用の観点からの手法の拡張を行い、人間の思考様式に似た判断の特性や倫理面の課題を考察しながら知的なシステム構築の検討を行う。さらに、人工的欠損値の利用について、データベースの構造解析を目指した知識発見手法への応用展開を進め、その有効性を大規模データを用いて検証する。具体的には、人工的欠損値の最適利用となる条件設定を獲得することから、逆にデータベースにおける属性相互の関係性や、ある属性のとる値の領域の予測・分類に与える影響の把握といったデータ構造に関する知識発見法を提案する。
|
Causes of Carryover |
所属研究機関が2017年4月1日より変更となることから、2017年3月に計画していた国際会議参加を2017年7月に変更することとし外国旅費の支出がなかったため。
|
Expenditure Plan for Carryover Budget |
次年度使用額は、2017年7月開催の国際会議での成果発表のための外国旅費として使用する計画である。
|