研究実績の概要 |
本研究は臨床自然言語処理(CNLP)と次世代シークエンサー(NGS)を用いた自動診断アルゴリズム(システム)の医療実装を目的としている。3年目はソーシャルメディアから得られる情報の影響を中心に検討した。近年、TwitterなどのSocial Network Serviceは急速に普及し多くの疾患に関する具体的な情報を得たり発信したりすることができるようになった。そこで、CNLPの構築の参考のためにこれらの情報について検討した。発達障害の代表的な疾患である脆弱X症候群(FXS)とダウン症候群(DS)に例とし、これらの疾患に関する2022年1年間のツイートの情報をPython言語によるTweepyを用い収集し、類似点と相違点を客観的に分析した。データクリーニングはVisual Studio Codeを用い、KH Coderを用いて頻度別の単語の抽出や関係性を解析した。FXSに関するツイートは3,732件、DSに関するツイートは2,528件あり、FXSでは72,612語、DSでは36,894語が検出された。頻度に基づく単語リストでは、FXSとDSの共通の上位10語に「意識」「子供」が含まれ、FXSでは「遺伝子」や「研究」が特徴的であった。共起ネットワーク分析では、FXSとDSの単語間の関係が可視化され、キーワードに基づいてサブグループに分類された。FXSでは「キャリア」に関するグループが見られたが、DSにはなかった。この結果は、FXSとDSに関する情報の違いを示している。今回の検討では、Twitterの情報の発信源が家族なのか、研究者なのか、医療の専門家なのかは分類することはできなかったが、多くの人が利用するSNS上の情報を利用しCNLPシステムの精度の向上を図り、より実用的な自動診断システムの開発に貢献すると考えられた。
|