我が国のレセプトデータベースとして良く知られているNDBやJMDCデータベースは,リレーショナルモデルをベースに構築されているため,被保険者に関する情報が複数のファイル(テーブル)に分散して格納されている.リレーショナルモデルは集合論と述語論理学を基盤としているため応用性が高く,有用なモデルである.一方で,疫学研究へ二次利用する際には,患者ごとの変数が1レコードに集約された構造に再編成することが望ましいとされている. しかしながら,疫学研究で必要となる変数は,研究デザインにより異なるため,データハンドリングに不慣れな利用者はもとより,情報工学の専門家であっても一定以上の時間を費やしている状況であった. 本研究では,利用者のリサーチクエスチョンに最適化したデータウェアハウスを構築することで,患者ごとに集約された構造(テーブル)を定型的なSQLで作成する手法を考案した.本手法を用いて新規に疫学研究を実施し,SQLに不慣れな利用者が独力で研究を実施することができた.リサーチクエスチョンによっては対応できないケースも存在するが,PDCAサイクルによりデータウェアハウスを再構築することで,ほとんどの研究がカバーできると思われる. 本手法は,研究デザインに応じた患者ごとのデータセットを作成するソフトウェアの開発を容易にする.さらに,利用者のリサーチクエスチョンを分割する作業は自然言語処理技術や機械学習と相性が良い.今後,これらの技術を本手法と組み合わせることで,更なる進展が期待できる. また,本研究で考案した手法は,リレーショナルデータベースで運用されている他の構造化データ(電子カルテ,健診データなど)にも応用することができる.昨今では製薬業界などでは市販後調査など二次利用にデータベース研究が活発になっており,今後は本研究で得られた成果を主体的に社会実装していく予定である.
|