• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

大規模コホートの調査票における新規データクリーニング手法の開発

Research Project

Project/Area Number 18K10099
Research InstitutionTohoku University

Principal Investigator

牧野 悟士  東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)

Co-Investigator(Kenkyū-buntansha) 田宮 元  東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
櫻井 利恵子  東北大学, 東北メディカル・メガバンク機構, 非常勤講師 (50794541)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsコホート研究 / データクリーニング / 外れ値検出
Outline of Annual Research Achievements

東北メディカル・メガバンク機構の大規模ゲノムコホート研究では、15万人の参加者について、各種の血液検査値や画像データ、健康診断結果が計測されると同時に、同意書、生活習慣などに関する調査票といった、紙媒体の形態で収集される情報を取り扱っている。適切な調査結果の還元と医療支援への貢献、そして学術的用途としての有用性を高めるために、データの信頼性確保が必須であり、そのためには、データ入力におけるモニタリングや論理チェック、データクリーニングが重要である。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2)検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることにより、この問題の本質的解決を目指している。
2019年度においては、我々が開発する検出方法を適用して得られる結果をエラー候補とし、目視検査を通して精度の保証を図った。精度の保証が得られた段階で論理的エラーのリストアップの自動化の検討もあわせて実施した。リストアップは、調査票の様式ファイルの読み合わせと、実際の登録データからの読みあわせを独立して実施した。目視検査作業は複数回実施し、エラー候補発見率の分布から、高頻度にエラーが生じうる箇所をほぼ全てリストアップしていることを統計的に推定した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究におけるエラー候補検出に関して、人力による異常値検出から自動化アルゴリズムおよびソフトウェア実装への移行を提案している。このことに関して、主成分分析に基づいた手法を開発し、さらなる高精度化を進めている。異常検出の自動化を行い、検出の作業効率を上げるため、統計量の一つである尖度を用いたアルゴリズムを開発した。また、開発したアルゴリズムはソフトウェアに実装しており、当初の予定どおりの進捗である。

Strategy for Future Research Activity

引き続き、エラー候補検出に関する下記2点について開発を進める。
(1)エラー検出を自動化するアルゴリズムの開発およびソフトウェア実装
(2)既知の情報を取り込む工夫
(1)に関して、主成分分析に基づいた手法を開発しており、検出の作業効率を上げるため、統計量の一つである尖度を用いたアルゴリズムをさらにブラッシュアップする。また、実際の大規模コホートデータの解析に応用する。(2)は、欠損パターンが既知である項目(例えば、女性にのみ回答を求める項目において、男性の試験参加者のデータは欠損である)に対し、想定された欠損パターンの情報をあらかじめモデルに入れておくことで異常パターンから除外し、検出結果の精度を向上させる。

Causes of Carryover

ソフトウェアアルゴリズムを開発するにあたり、計算環境を進捗に合わせて拡張してきた。特に、アルゴリズムのテスト目的で使用する公共データベースについて、その更新をキャッチアップするために計算機およびストレージの購入を12月頃予定していたが、世界的な部材不足のため想定していた価格で希望時期にそれらを購入することが難しくなった。そのため、購入時期をずらして、同価格でより高性能、大容量の後継品を選ぶほうが効率的と考え、繰越をするものとした。

  • Research Products

    (3 results)

All 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (1 results)

  • [Journal Article] Genome-wide association study identifies new loci for albuminuria in the Japanese population2020

    • Author(s)
      Hiroshi Okuda, Koji Okamoto, Michiaki Abe, Kota Ishizawa, Satoshi Makino, Osamu Tanabe, Junichi Sugawara, Atsushi Hozawa, Kozo Tanno, Makoto Sasaki, Gen Tamiya, Masayuki Yamamoto, Sadayoshi Ito, Tadashi Ishii
    • Journal Title

      Clinical and Experimental Nephrology

      Volume: 印刷中 Pages: 印刷中

    • DOI

      10.1007/s10157-020-01884-x

    • Peer Reviewed
  • [Journal Article] 3.5KJPNv2: an allele frequency panel of 3552 Japanese individuals including the X chromosome2019

    • Author(s)
      Tadaka S, Katsuoka F, Ueki M, Kojima K, Makino S, Saito S, Otsuki A, Gocho C, Sakurai-Yageta M, Danjoh I, Motoike IN, Yamaguchi-Kabata Y, Shirota M, Koshiba S, Nagasaki M, Minegishi N, Hozawa A, Kuriyama S, Shimizu A, Yasuda J, Fuse N; Tohoku Medical Megabank Project Study Group, Tamiya G, Yamamoto M, Kinoshita K.
    • Journal Title

      Human Genome Variation

      Volume: 6 Pages: 28

    • DOI

      10.1038/s41439-019-0059-5

    • Peer Reviewed / Open Access
  • [Presentation] バイオバンクにおける質問票データに対する外れ値検出2020

    • Author(s)
      櫻井利恵子
    • Organizer
      第2回日本メディカルAI学会学術集会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi