• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

オントロジーと深層学習の融合による生命情報推論システム

Research Project

Project/Area Number 18K11522
Research InstitutionFUJITSU LABORATORIES LTD.

Principal Investigator

村上 勝彦  株式会社富士通研究所, その他部局等, 研究員(移行) (30344055)

Co-Investigator(Kenkyū-buntansha) 高松 邦彦  神戸常盤大学, 教育学部こども教育学科, 准教授 (80392017)
Project Period (FY) 2018-04-01 – 2022-03-31
Keywords分散表現 / 深層学習 / オントロジー / 推論 / 知識表現 / 自然言語処理 / 遺伝子変異
Outline of Annual Research Achievements

本研究は、オントロジー(用語と関係の知識表現)と分散表現(多次元空間への埋め込み方法)を相補的に融合することと、それを用いた新たな推論技術の開発を目的としている。これまでに、テストケースとなる分野を検討し、「がん」と「アルツハイマー」に選定した。それらの分野において重要な情報源となるデータを調査収集した。データのタイプは、自然言語テキストデータとオントロジーデータ、およびデータベース(主に知識を表現できるもの)である。
現在、分散表現の獲得方法で注目される研究の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、グラフデータを構築しその関係から分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめている。
自然言語志向の方法としてはPubMed Central (PMC)の論文フルテキストデータのうち、MeSHタームを用いて論文を絞って収集した。これらを固有表現抽出、関係抽出を行い、IS-A関係の自動獲得をテストした。
グラフ志向の方法としては、複数データベースから利用できる関係を収集し、グラフにもとづく知識グラフの分散表現学習を行った。がんの事例データについては、National Cancer InstituteのThe Cancer Genome Atlas (TCGA)の一部、The Broad Instituteの「がん細胞株百科事典(CCLE)」などを収集した。変異、遺伝子、疾患、薬剤などのゲノム医療関係の用語を中心にデータ整備(RDF対応)を行い、知識グラフを構築した。この統合グラフをもとに、ComplEx等の方法を用いて、遺伝子、薬剤、疾患についての分散表現を学習し、統計的学習にもとづく推論システムの構築を行うことができた。今後は、これらの結果と各種オントロジーとの突き合わせを行う。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

分散表現の獲得方法で注目される仕事の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、グラフデータを構築しその関係から分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめており、今年度は特に後者の「グラフ志向」分散表現の獲得と評価をすすめた。そのなかでも、がんの事例データは豊富にあったが、アルツハイマー関連の情報については様相が異なっていたい。研究や論文こそ多いが、データとして扱える形式のものが少なく、利用可能なデータで粒度と量において所望の条件をみたせるように、実行可能な問題設定を修正する検討に時間がかかった。

Strategy for Future Research Activity

近年では、未知の変異がゲノム中にあるとき、その診療的な意義を見出すことがますます重要になっている。またゲノム関連では多種類のオミックスデータが新たに公開されており、これらのデータ内部に未知なる活用方法が潜んでいると考えられる。そこで、本技術をこの問題への応用することを狙い、追加の変異と薬剤に関するデータの追加を検討する。
RDFグラフの分散表現とそれに基づく推論技術について、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、またそのための人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。
一方で、AIなどのICT技術だけでなく、生命系データ解析の分野でも、テンソル解析によるデータ統合とマイニングの手法が提案されている。テンソル分解は、近年いくつかの方法がバイオデータに適用されて成果が出されている。これらをうまく使い、本研究の対象とするオントロジーや分散表現データと融合できないかはまだ検討に入ったばかりである。また、近年の埋め込みや分散表現の手法の発展で、自然言語の分散表現をうまく獲得しているモデルが続々と発表されているため、その活用を試みる。近年では、精度において優秀とされるシステムであるRoBERTaやGPTがあり、これらの事前学習モデルを用いて関係抽出を行うこと検討する。

Causes of Carryover

新型コロナによって様々な影響があった。学会のリモート開催や延期による費用減少、また、打ち合わせや学会への出張中止が多かったため。
主に、計算機の追加、論文の出版費用に使用する予定である。

  • Research Products

    (3 results)

All 2020

All Journal Article (1 results) Presentation (2 results) (of which Invited: 1 results)

  • [Journal Article] がんゲノム医療に向けたナレッジグラフと予後情報を活用した論文検索システム2020

    • Author(s)
      村上勝彦 富士秀
    • Journal Title

      JMAI Letter

      Volume: - Pages: -

  • [Presentation] 医師の負担軽減をめざす医療文献検索AIシステム2020

    • Author(s)
      村上 勝彦、他9名
    • Organizer
      日本オペレーションズ・リサーチ学会
    • Invited
  • [Presentation] ネットワーク構造を利用した知識グラフの埋込2020

    • Author(s)
      村上勝彦
    • Organizer
      2020年度人工知能学会全国大会

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi