2019 Fiscal Year Research-status Report
特定保健指導のアウトカム最適化を目指すAIを活用した大規模テキストデータ解析
Project/Area Number |
19K10620
|
Research Institution | Kyoto University |
Principal Investigator |
池之上 辰義 京都大学, 医学研究科, 特定講師 (70761443)
|
Co-Investigator(Kenkyū-buntansha) |
山田 ゆかり 京都大学, 医学研究科, 特定講師 (00306846)
福間 真悟 京都大学, 医学研究科, 特定准教授 (60706703)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 特定保健指導 / 人工知能 / 自然言語処理 / 教師なし学習 / 教師あり学習 |
Outline of Annual Research Achievements |
「保健指導記録の分類と解析」を行った。使用したデータセットでは、各指導後に指導員が選択する目標カテゴリー(適正受診、活動量、栄養バランスなど19のカテゴリー)と目標カテゴリーに対応した自由記載が存在している。これらの関連性を「ラベル付きテキスト」としてAIに学習させ、自由記載記録の持つ特徴を数値化し、可視化をした。自由記載部分についてクラウドシステムであるGoogle Cloud Platform (GCP) Natural Language API で日本語形態素解析を行い、形態素解析の結果から名詞、動詞を抽出し、順序を加味した単語ベクトルを作成した。作成した単語ベクトルをDoc2vec(Lau, J. H., & Baldwin, T. (2016). An empirical evaluation of doc2vec with practical insights into document embedding generation. arXiv preprint arXiv:1607.05368.)の手法を用いて、それぞれの文章の持つ類似性を目標カテゴリーを特徴量として表示させた。さらに、この特徴量をベクトルとて距離を計算し、距離の近いもの同士を同じグループとするように、k-means法を用いて分類した。分類された各指導における特徴量の偏差値を求め、その平均値を算出し、レーダーチャートを作成し、研究者の合議にて臨床的に意味づけが可能なグループを選択した。これにより、18,006ある指導記録を4ないし6の分類へとグループ化した。 これにより、保健指導記録の自由記載箇所(テキストデータ)を人工知能で解析することによって、従来のデータでは見えなかった指導毎のパターンの違い(指導実態)が可視化された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2019年度の目標としていた「保健指導記録の分類と解析」を実施しており、主となる目標は達成した。本結果については成果として報告準備を行っている。しかしながら、応用数学理論の利用とクラウドコンピューティング技術で処理の高速化による処理については、十分な取り組みができておらず不十分である。
|
Strategy for Future Research Activity |
予定通り、分類をもとにした「アウトカムとの関連性解析」を行う。アウトカムは指導対象項目(腹囲、BMI、空腹時血糖、HbA1c、中性脂肪、HDLコレステロール、収縮期・拡張期血圧、喫煙)の翌年以降の健診での変化とレセプト情報を基にした糖尿病、高脂血症、高血圧症による受療開始、受療コストの変動、Major AdverseCardiovascular Events (MACE)の発生と受療コストする。本研究においては、分類の中で保健指導の前後で指導対象項目改善幅が最大群と最小群で比較を行い、保健指導を受けた対象者内で有効な指導と有効でない指導を受けた場合での差を検討する。
|
Causes of Carryover |
データ入手と整備に時間がかかってしまったために、予定していたCloudを用いた解析に必要となる経費の使用が生じなかったため。2020年度での使用を予定している。
|