2017 Fiscal Year Research-status Report

Evaluation of various methods of phenotyping from the health insurance claims data

Research Project

Project/Area Number	17K09226
Research Institution	The University of Tokyo
Principal Investigator	平松達雄東京大学, 医学部附属病院, 特任助教 (00713554)
Co-Investigator(Kenkyū-buntansha)	中島直樹九州大学, 大学病院, 教授 (60325529) 森田瑞樹岡山大学, 医歯薬学総合研究科, 准教授 (00519316) 佐藤真理順天堂大学, 医学(系)研究科(研究院), 助手 (90768631)
Project Period (FY)	2017-04-01 – 2020-03-31
Keywords	レセプト分析 / Phenotyping / バリデーション / データ分析基盤
Outline of Annual Research Achievements	レセプトデータには診療報酬の請求のための情報は正確に記載されていても、それが必ずしも医学的に患者の状態を適切に表しているとは限らない。いわゆるレセプト病名ではない真の疾病罹患や疾患ステージ、検査値異常等の患者群をレセプトデータから推定して抽出しようとするときには、患者群をより正確に抽出するためのアルゴリズムが必要となる。本研究の目的は、良好な抽出アルゴリズムを選択するための指針となり得る基礎的な知見を見出すことである。抽出アルゴリズム研究を単一の医療機関からのデータで行なうと、その施設特有の事情によるバイアスがかかった結果となる可能性があるため、複数の医療機関のデータで行なう必要がある。このとき各施設から全レセプトデータを１箇所に集めて研究する方法だと患者情報保護上の懸念により研究参加施設が集まりにくいと予想されるため、本研究では各医療機関内で各施設の研究者がそれぞれ自施設分を分担する構成とし、複数施設で同一の抽出アルゴリズムを実行して結果を比較検討する方法をとっている。このため同一プログラムにより各施設のデータを対象に同一の抽出動作を行なうための共通基盤が必要であり、研究初年度にあたる今年度はこの共通基盤の整備に注力した。具体的には、主任施設で国際的なデータモデルを用いたデータベースへのレセプトデータや検査データからの変換・読み込み基盤を開発し、その共通基盤を各分担施設に配布して各施設での動作の確認を行った。本共通基盤は仮想マシン技術を利用しており、各分担施設でコンピュータ環境が異なっても動作させることができる。レセプトデータが準備できた施設から順次動作確認を行ない、データ利用環境が年度内に準備できなかった１施設を除き各施設のレセプトデータを対象に基盤が動作することが確認できた。なお新たに１施設が研究協力施設として参加した。全参加施設で倫理審査は承認済みである。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 初年度に行なったことは、レセプトや検査結果値等の元データ準備と、抽出アルゴリズムの実行環境の準備とに大きくわけられる。元データ準備の状況としては、参加全施設で倫理審査の承認は得られたが、１施設において施設内での具体的な利用方法が固まらず、本研究でまだデータが利用可能になっていない。おおよその方法については目処がたっており今後順次進めていく。新たな１施設が研究協力施設として参加していただけることになり順調に準備が進んでいるため、現状の実効施設数としては元の計画と同数である。一方、抽出アルゴリズムの実行環境については、データが利用可能な状況にある各施設で実際のレセプトを読み込む等の検証はできたが、抽出アルゴリズムの動作確認まではいたっていない。各分担施設で容易に実行できるような実行環境の開発に想定より時間を要したためであり、スケジュールが全体にやや遅れている。開発に時間は要したものの各施設で大きな問題なく動作する状態に現在は到達しており、今後は急ピッチで遅延分も追いつくことができる。
Strategy for Future Research Activity	まずはスケジュールを早急にキャッチアップした後、各施設に整備した実行環境を用いて様々な抽出アルゴリズムを次々に実行していく。抽出アルゴリズムには、条件式によるもの、ルールによるもの、様々なタイプの機械学習がある。条件式とは、年齢、処方薬、検査実施等の単純条件をandやorで結合して指定する方法で、単純な条件では指定がわかりやすい反面、複雑な条件の指定が難しい特性がある。ルールによるものは、単純条件を分岐を含めて順に並べたフローチャート的な手順を指定したもので、複雑な条件でも記載が行いやすい。機械学習には様々な手法があるが、分類すると教師あり学習、半教師あり学習、教師なし学習があり、強化学習によりパラメータを改良していくことができる。中心となる教師あり学習には、RandomForest等の決定木、ロジスティック回帰、サポートベクターマシン、ディープラーニング等の手法があり、それぞれ向き不向きがある。これらの中から適切な手法を用いて抽出アルゴリズムを作成し、その実行結果に対して陽性的中率や感度等の性能指標を導出し、また各施設での結果を比較することにより、各抽出アルゴリズムの精度と信頼性を評価する。研究推進の中で、できるだけ良い抽出アルゴリズムを探索することも追求し、準備した各抽出アルゴリズムの実行をすすめると同時に、新たなアルゴリズムや新たな抽出状態を順次増やしていく。研究実施状況および予備的な結果をホームページ等で発信していき、本研究に興味のある研究者や実務者からフィードバックを得ることも進める。新たな研究協力施設も機会があれば増やしていきたい。
Causes of Carryover	スケジュールのやや遅延に伴い使用額もやや少なくなった。次年度の物品費・出張費・論文費用等に使用予定である。