2023 Fiscal Year Annual Research Report
患者レジストリを二次利用した潜在的患者ニーズの自動抽出方法の検討
Project/Area Number |
20K07206
|
Research Institution | National Institutes of Biomedical Innovation, Health and Nutrition |
Principal Investigator |
種村 菜奈枝 国立研究開発法人医薬基盤・健康・栄養研究所, 国立健康・栄養研究所 食品保健機能研究部, 室長 (50790630)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 淳子 慶應義塾大学, 薬学部(芝共立), 客員教授 (10231341) [Withdrawn]
漆原 尚巳 慶應義塾大学, 薬学部(芝共立), 教授 (10511917) [Withdrawn]
佐々木 剛 千葉大学, 医学部附属病院, 准教授 (90507378)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 潜在ニーズ / 機械学習モデル / Word2Vec / Zスコア / 患者市民参画 / 自然言語処理 / 人工知能 / 口語テキスト |
Outline of Annual Research Achievements |
本研究では、次のテーマでAI技術の開発を行い、それぞれ論文にて結果を公表した。 ■ 口語テキストでの発話者の潜在ニーズ予測 1)Word2Vecモデルを用いた機械学習モデルの精度改善に関する検討 本研究では、口語テキストから発話者の潜在的ニーズを予測するための機械学習モデル構築、及びニューラルネットワークを用いて単語をベクトル変換する手法であるWord2Vecモデルを用いて機械学習モデルの精度改善を検討した。予備検討では、機械学習モデルの精度比較を行い、最適なモデルを選択した。本調査では、Word2Vecモデルを用いて同義語辞書を作成し、この辞書を使用して同一の特徴量に変換し学習を行う新手法を検討した。新手法の適応の有無で機械学習モデルの精度比較を行った。予備検討でのモデル選定実験の結果、モデル精度はxgboostでF値0.54と最も高く、本調査では、モデル精度は同義語辞書ありでF値0.61、同義語辞書なしでF値0.54であり、Word2Vecモデルを用いた同義語辞書の適応が機械学習モデルの精度改善に寄与した。 2)Zスコアを用いた特徴量選択によるモデル精度向上に向けた有用性評価 本研究は、発話者の潜在的ニーズを予測する機械学習モデル構築において、より予測に資する語句を効率的に選定するため、Zスコアを用いた特徴量選択のための新手法の有用性を評価した。発話者の潜在的ニーズ自動抽出のための機械学習モデル構築において、Zスコアによる潜在ニーズを含む形態素を考慮した特徴量選定の新手法を考案した。新手法を用いたSVMとランダムフォレストにてF値が向上し、SVMで最も高精度であった。新手法は、潜在ニーズの予測の他、適切な情報除去を行い予測処理量の削減に貢献可能である点も踏まえると、口語テキストの前処理においてさらなる利活用が期待される。
|