研究課題/領域番号 |
16K09178
|
研究機関 | 鹿児島大学 |
研究代表者 |
村永 文学 鹿児島大学, 医歯学総合研究科, 客員研究員 (00325812)
|
研究分担者 |
熊本 一朗 鹿児島大学, 医歯学域医学系, 教授 (40225230)
宇都 由美子 鹿児島大学, 医歯学域医学系, 准教授 (50223582)
岩穴口 孝 鹿児島大学, 医歯学域附属病院, 助教 (80619198)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 糖尿病合併症 / データマイニング / 機械学習 / Doc2Vec |
研究実績の概要 |
本研究は糖尿病にターゲットし、糖尿病合併症の発症に関与する因子を発見するデータマイニング手法について研究を行った。特に、人工知能による機械学習を応用し、記事情報等の非定形的な情報からの糖尿病合併症発症の因子抽出が可能かについて研究を行った。最終年度である本年度は、まずは自然言語の特徴を分析する為の手法の確立として、GenSimライブラリのDoc2Vecアルゴリズムの評価と、最適パラメータの探索を行った。その結果、調整パラメーター値は、size80、window13、min_count2のパラメーター値が最も適合性が高かった。最大となる感度・特異度において、感度は90.9%、特異度は60.3%となり、Doc2Vec手法によって自然言語処理解析の有効性を確認することが出来た。 次に、前年度に構築した糖尿病合併症分析用DWHから、糖尿病合併症未発症群、糖尿病性網膜症発症群、糖尿病性腎症発症群の各症例DMを作成した。このDMを「検証用データ群」と「機械学習用データ群」に2分した。次にDoc2Vecに前研究で確定した最適パラメータを適応し、検証用データに対して、機械学習用データ群とのコサイン類似度を算出した。その結果、糖尿病性網膜症の検証用データは、学習用の糖尿病性網膜症発症群データベース症例とのコサイン類似度が有意に高く、糖尿病性腎症発症群評価用データも同様、有意に判別できた。しかし本研究期間では、Doc2Vecの内部解析を行い、機械学習の試行で重みづけされた語彙群は発見できたが、機械学習を繰り返すと、試行毎に異なる語彙に内部ニューラルネットワークの重みが偏り、安定した語彙の発見には至れなかった。これは他の機械学習分析でも同様の報告がある。今後は、機械学習を繰り返し、発見した特徴的要因に対して統計学的な集計を行うなどして、機械学習結果から要因を絞り込む手法の研究が必要になる。
|