研究課題/領域番号 |
17H05078
|
研究機関 | 国立研究開発法人国立循環器病研究センター |
研究代表者 |
中尾 葉子 国立研究開発法人国立循環器病研究センター, 研究開発基盤センター, 上級研究員 (90752824)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 循環器疫学 / 心筋梗塞 / レジストリ / ビッグデータ / 人工知能 / 自然言語 |
研究実績の概要 |
当院心臓血管内科へ受診・入院した全患者を対象とし、電子カルテ内の診療情報、生理機能検査データ、心臓カテーテル検査データ等を、「データ」として自動抽出するシステムを開発した。抽出項目は、米国で実施されている循環器疾患のレジストリを参照し、我が国の実情に合わせて改変した上で決定した。電子カルテ内の抽出対象となったデータには、データとしての抽出が容易な数値データ、カテゴリデータの他に、テキスト形式で書かれた自然言語データが存在する。後者に関しては、IBM Watsonのうち、IBM Watson Knowlegde Studioを用いて、機械学習により自然言語解析を行い、電子カルテに記述された自然言語から該当箇所をデータとして抽出するプログラムを開発した。文章中のエンティティの識別を行い、それぞれのエンティティがどの種別に属するかを学習させ、各エンティティに対して同一性の指定、エンティティ間の「関係」を教えることを繰り返すことで、エンティティの識別と関係の識別が自動的に行えるようになった。そしてデモデータにおいてきちんと抽出されているかを検証し、必要に応じてプログラムの修正を行った。 また、循環器疾患の非構造化データの分析に関する基盤整備を行なった。テキストマイニング技術を活用し、システマティックレビューおよびメタアナリシス分析で必要な自然言語・数値情報(研究デザイン、n数、介入 [あるいは曝露]、比較、効果量、p値など)を自動収集することに成功した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画において本年度実施予定であったことを一部完了していないが、研究効率を考慮し次年度実施予定分を先取りした。従って全体計画としては、おおむね順調である。
|
今後の研究の推進方策 |
抽出されたデータからデータベースを構築、データクレンジングを実施し、データベースを完成させる。心筋梗塞予後予測における分類体系を確立し、予測モデルを開発する。
|