2017 Fiscal Year Research-status Report
Development of text data analysis based on statistical modeling in medical big data
Project/Area Number |
17K00047
|
Research Institution | Shiga University |
Principal Investigator |
和泉 志津恵 (大久保志津恵) 滋賀大学, データサイエンス学部, 教授 (70344413)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 健一 広島大学, 原爆放射線医科学研究所, 准教授 (30284219)
冨田 哲治 県立広島大学, 経営情報学部, 准教授 (60346533)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 生物統計 / データサイエンス / 共変量効果 / 出現頻度 / 可視化 |
Outline of Annual Research Achievements |
近年、国内外において、新たな治療技術の発見や創薬などの医学・医療の技術革新、そして、医療の効率化・最適化のために、医療ビッグデータからの新しい価値観の創出が期待されている。経時テキストデータの解析のため、和泉・佐藤ら(2015)は、特徴の時間変化を考慮して要約する方法を提案した。一方、加藤ら(2015)も、Word2Vec (Mikolov et al., 2013) と深層学習を用いたビッグテキストデータの解析方法を提案した。しかし、共変量の影響と、テキストの特徴の経時変化をともに考慮したテキストマイニング法の開発には至っていない。そこで、本研究では、大規模集団において経時的に観測されたテキストデータの解析方法を提案し、医療ビッグデータへ応用することを目的とする。 平成29年度(初年度)には、和泉・佐藤ら(2015) の経時テキストデータに対して提案された方法を共変量付き経時テキストデータへ拡張した。観測時点でのキーワードの出現確率に対して、まず、セミパラメトリックな変化係数を用いて、共変量の効果を推測した。次に、多次元尺度法を用いて、テキストの特徴の経時変化と共変量の関係を視覚化した。キーワードの頻度データに対しても、キーワードの出現確率の場合と同様に理論の拡張を行なった。また、提案方法について統計ソフトRのデータ解析プログラムを作成した。さらに、医療ビッグデータの解析用作業データの加工方法についても検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、大規模集団において経時的に観測されたテキストデータの解析方法を提案し、医療ビッグデータへ応用することを目的とする。平成29年度(初年度)の研究計画の概要は、① 共変量付き経時テキストデータへの拡張、すなわち、和泉・佐藤ら(2015) の経時テキストデータに対して提案された方法を共変量付き経時テキストデータへ拡張する、であった。 観測時点でのキーワードの出現確率に対して、まず、セミパラメトリックな変化係数を用いて、共変量の効果を推測した。次に、多次元尺度法を用いて、テキストの特徴の経時変化と共変量の関係を視覚化した(Izumi, et al., 2017a)。キーワードの頻度データに対しても、キーワードの出現確率の場合と同様に理論の拡張を行なった(Izumi, et al., 2017b)。これにより、研究はおおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
平成30年度は、平成29年度までの研究:①の方法論の改善を行いながら、② ウェブアプリケーションの開発、すなわち ①で提案した方法を実用化するウェブアプリケーションを開発する。そして、③ 実データへ応用するための準備を行う。具体的には、Shinyを用いて統計ソフトRのデータ解析プログラムをウェブアプリケーション化する。そして、①で提案した方法を全国土木建築国民健康保険組合の医療ビッグデータへ応用するために、解析用作業データを準備する。研究が当初計画どおりに進まない時は、別のソフトウェアや別のデータについても検討する。
|
Causes of Carryover |
(理由) 予定していたワークステーションの購入が、モデルチェンジのため延期となり、物品について残高が生じた。加えて、大学院生の研究補助を必要な期間に得ることが出来なかったことから、人件費・謝金について残高が生じた。 (使用計画) 平成30年度は、平成29年度と同様に、引き続き円滑に研究を進める。そのために、平成30年度の研究費に対して、以下のような使用計画を立てている。物品として、ワークステーションの購入を計画している。旅費として、国内学会での成果発表や研究打ち合わせのための国内旅費、および国際学会での成果発表のための外国旅費を計画している。謝金として、研究補助のための大学院生への謝金や文献複写への使用を計画している。その他として、ソフトウェアの更新費や学術大会への参加費としての使用を計画している。
|