2021 Fiscal Year Research-status Report
自己展開型の知識発見による大規模データからの説明可能な知識創出
Project/Area Number |
20K11964
|
Research Institution | Gunma University |
Principal Investigator |
嶋田 香 群馬大学, 情報学部, 教授 (20454100)
|
Co-Investigator(Kenkyū-buntansha) |
荒平 高章 九州情報大学, 経営情報学部, 講師 (30706958)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | データマイニング / 知識発見 / 知識創出 / 進化計算 / アイテム集合 |
Outline of Annual Research Achievements |
令和3年度は、局所的な知識発見手法の確立、大域的な知識創出手法の検討について大規模公開データ等を用いて評価するとともに、開発したアルゴリズムの拡張・応用法を検討した。局所的な知識発見においては、統計的な特徴を背景として持つアイテム集合(ItemSB:Itemsets with Statistically Distinctive Backgrounds)による局所的な知識表現とその発見法を提案した。頻出アイテム集合はデータマイニングの基礎的技術として広く用いられているが、ItemSBはアイテム集合の捉え方をその出現頻度だけでなく、興味の対象となる2つの連続変数の統計的な特性に拡張したものであり、ルールベースの知識表現の拡張としても位置付けられた。ItemSBの発見に2変数の特徴的な分布や相関を扱うことを提案したほか、とくに2変数の値が微小な領域に集中して分布するItemSBを発見することで、2変数の値の組を予測するルールベースの回帰問題を扱う方法を提案した。個別性の観点からは予測・分類目的でItemSBを発見する際に探索範囲を個別事例のもつ属性群に限定する方法を検討・評価した。本研究での進化計算は、進化の過程で得られた小さな成果を蓄積して問題を世代継続的に解決していくことが特徴であり、探索時の設定や稼働中に獲得した情報を個別事例に直ちに適用できる。公開データを用いた検証実験では、予測性能としてのカバー率や精度が個別性対応により向上する結果を得た。また、大域的な知識創出手法としてItemSBの集合体によるデータ全体の知識表現に注目し、その背景が説明可能な小集団の組合せで構成する方法を検討した。この方法では、個々の小集団の信頼性・再現性が求められることから、同一設定で収集された複数のデータから得られた同一表現のItemSBの差異を分析できる拡張方法を提案して、その評価を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の目的の一つは「大規模データから個別の事例の特徴を最大限に説明すると考えられる知識を従来のモデル構築の過程を経ずに発見する局所的な知識発見方法を提案する。」ことである。令和3年度は、局所的な知識表現として統計的な特徴を背景として持つアイテム集合をItemSBとして定義し、これを発見する方法を国際会議で発表している。また、個別の事例のもつ属性を考慮したItemSBを発見してルールベースの予測を行うことを特徴とする手法を国際会議で発表している。令和3年度以降の当初計画では、「局所的な知識発見手法、大域的な知識創出手法を公開されている大規模データ等を用いて幅広く評価する。また、開発したアルゴリズムの拡張・応用法を検討する。」こととしていたが、これらは計画通りに進められている。なお、「知識創出手法の評価を行うために、該当分野の専門家の協力を得て、検証用データに利用可能なデータ収集のデザインを検討し、データ収集の準備を進める。」としている当初計画については、新型コロナウイルス感染症の状況により新たなデータの収集が困難となる状況も考えられたため、当初計画のデータ収集とは別に医療系の研究者らがこれまでに収集したデータの利用によることでの評価を共同で発展的に実施する計画を進めている。
|
Strategy for Future Research Activity |
令和4年度は、最終年度となることから、局所的な知識発見手法、大域的な知識創出手法を確立し、公開されている大規模データ等を用いて幅広く評価することとする。とくに、大域的な知識創出では令和3年度までに手法として確立した統計的な特徴を背景として持つアイテム集合(ItemSB)の発見を基礎とした新しい概念に基づくクラスタリング的な手法を確立する。従来のクラスタリングの発想とは異なり、ItemSBの集合体によりデータ全体のを知識表現しようとするものであり、小集団ごとに回帰式を持つことを特徴とする全体的な予測方式の提案などの応用方式を検討・評価する。また、これまでに本研究課題で開発したアルゴリズムの拡張・応用法を検討する。本研究課題では、進化の過程で得られた小さな成果を蓄積して問題を世代継続的に解決していくことを特徴とする進化計算を用いているが、小さな成果の蓄積による外部環境の変化に対応しながら問題をよりよく解決していくように進化していく方式の基本型と捉えることにより基盤となる手法自体の改善・拡張を行うことを考えている。さらに、とくに個別性の観点からの知識発見が期待される人間的・ライフ支援的データからの知識発見を実施・評価するために、これらのデータから獲得されると期待される知識の表現および説明性を検討する。医療等の現場から収集された複雑なデータを対象として、知識発見・知識創出を実施する。その実施結果について、説明可能な知識となっているか、経験知の見える化となっているか、結果をデータ収集対象者に還元した際の有効性はどのようなものか等をデータに関連する分野の専門家の協力を得て検証する。これらの結果から実際の複雑なデータを用いることで知識創出手法としての提案手法が説明可能なAIとなっているかを評価する。
|
Causes of Carryover |
研究成果を国際学術誌に1件投稿中であったが、令和4年度前期に掲載見込みとなったことから、掲載費相当分を繰り越したため。また、研究代表者が令和3年度に参加した2件の国際会議がオンライン開催となったことから、2件分の海外旅費相当分を次年度使用としたため。令和4年度の研究成果について国際会議発表が当初計画よりも多く見込めることからこのための参加登録費・旅費としての使用を計画している。
|