研究課題/領域番号 |
19H04128
|
研究機関 | 北海道大学 |
研究代表者 |
工藤 峰一 北海道大学, 情報科学研究院, 教授 (60205101)
|
研究分担者 |
今井 英幸 北海道大学, 情報科学研究院, 教授 (10213216)
中村 篤祥 北海道大学, 情報科学研究院, 准教授 (50344487)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 不頻出事象の予測 / マイノリティクラス / インバランス問題 / パターン認識 / 希少疾患 / データマイニング |
研究実績の概要 |
本研究「稀」においては不頻出なモノやコトの認識に取り組んでいる。本年度については理論検討および実用研究において以下のことを行った。 理論検討として以下を行った。 1.マルチラベルデータの可視化において、従来のラプラシアン固有マップ法を改良し、特徴からの情報とラベル情報のトレードオフを行うパラメトリックモデルを提案した(国際会議で発表)。これにより、ラベルの分離性を適切に強調した可視化が可能となった。2.不頻出ラベルの推定問題はインバランス問題となるため、インバランス問題においてマイノリティラベルの再現率を上げる決定木アンサンブルの改良法を提案した(国内研究会で発表)。さらに、マイノリティクラスに関して説明能力の強いIF-THEN規則の抽出に成功した。3.マイノリティラベルを持つデータはマジョリティラベルを持つデータに分布として埋もれてしまうことが多い。そこで、ラベル混在領域を推定する方式を決定木として行う方式を検討した。これにより、混在領域の形状によっては従来よりも適切に領域推定が行えることを示した。 実用検討として以下を行った。 4.希少疾患の症状からの推定に関して文献およびDB調査を行った。これにより、症例ー疾患の形のデータが極めて少ないこと、また、世界的に研究機運が高まっていることが分かった。さらに、診断に重要な症例に重みをかけて予測することを提案し、人工データを使った実験においてその有効性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度当初予定した検討のうち、予定通り、あるいは予定以上に進んだ内容は以下の通りである。 1.不頻出事象の予測に関するパターン認識の理論および方法論の調査においてはほぼ終了した。2.不頻出ラベルの推定に関してはこれまで、サンプル数の少なさに関しては「インバランス問題」、頻出ラベルへの誤分類については「オーバーラップ」問題として扱われていることが判明した。3.インバランス問題に対しては新たな決定木を提案し、一定の成果を得た。4.オーバーラップ問題に関しては超矩形な表現を得る方法を改良した。5.可視化に関してはラベル分離度を基準とした方法論を提案し、その効果を確認した。 一方、予定通り進まなかった内容は以下の通りである。 6.データマイニング手法に関する調査ができなかった。7.希少疾患予測のためのDBの調査が不十分であり、医療分野の専門性の高さから方法論も十分は調査できなかった。
|
今後の研究の推進方策 |
本年度やり残した内容を急ぎ行うとともに、本年度予定していた検討ならびに、本年度新たに検討すべき課題となったものに関して検討する。主な項目は以下の通りである。 ・不頻出事象の予測に関して決定木以外の方法を検討する。 ・「インバランス問題」と「オーバーラップ」問題に関して相互作用を含めて再度検討する。 ・データマイニング手法に関する調査を進める ・希少疾患予測のための手法とデータべースに関して再度調査を行う。 ・スーパークラスとサブクラスによるクラス決定木の解析を始める。
|