• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

オントロジーと深層学習の融合による生命情報推論システム

Research Project

Project/Area Number 18K11522
Research InstitutionFUJITSU LABORATORIES LTD.

Principal Investigator

村上 勝彦  株式会社富士通研究所, その他部局等, 研究員(移行) (30344055)

Co-Investigator(Kenkyū-buntansha) 高松 邦彦  神戸常盤大学, 短期大学部口腔保健学科, 准教授 (80392017)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywords分散表現 / 深層学習 / ナレッジグラフ / 推論 / 自然言語処理
Outline of Annual Research Achievements

本研究の一つのテーマは、既存オントロジーの自動的な拡張である。具体的に生命科学で重要なオントロジーとして、改善を試みる具体的なオントロジーをいくつか選定する作業を行った。生命科学の研究ドメインから近年(分子生物学的な)進歩が著しいものを選定する。選定する条件を前年度検討したうえで、、特にがんとアルツハイマー・認知症のオントロジーを拡張対象とした。具体的には、Alzheimer's disease ontology (ADO; 2014)とAlzPathwayの利用である。後者は100を超えるレビュー論文から1,300個の分子と1,070の反応を格納しているため十分な量を含んでおり、本研究に向いている。後者のデータについては、形式的にも問題なく扱えることが確認できた。他の分子生物学的な進歩が著しいテーマとして、がんは国内でも上位にくる死因であるため、研究成果が多く発表されている。いくつかのがんについての知識についてもオントロジーを選定していくことにした。どのがんに絞るかについては、候補が多数であるため検討中である。
一方、知識情報を取得するテキストデータの取得、選定を行った。候補としてはNCBIのPMCとWikipedia (生命科学部分)がある。今年度はPMCを中心に、ベースラインとしてのデータを作成するためword2vec による埋め込みを行って内容の検証をした。
データリソースの整備をすすめてきたが、過去に収集したCCLEとTCGAのデータについてRDF対応の整備を進めた。また、新たにGenomics of Drug Sensitivity in Cancer (GDSC)についての薬剤応答データを収集した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

リソースデータの更新を簡便に取り込む際、自動更新が望ましい。そのため、データを半自動的に収集してプログラムで統合する計算機環境を構築している。既存のもので大きく提供形式が変わることも多いため、必要に応じて改良している。
本研究でテキストから得られた科学的言及はResource Description Framework (RDF)に従ったトリプルの形で得られるが、それらをバイオ系データベースの記述・事実と照会する必要がある。そこで、照会する対象としての、がん研究に関するデータセットの収集を行った。昨年度はNational Cancer InstituteのThe Cancer Genome Atlas (TCGA)の一部、The Broad Instituteの「がん細胞株百科事典(CCLE)」などを収集した。今年度は、収集したものから、ゲノム変異情報などの整備(RDF対応)をさらにすすめるとともに、新たにGenomics of Drug Sensitivity in Cancer (GDSC)についての薬剤応答データを収集した。これらをRDFグラフへ変換しているが、データの種類が膨大で不要な部分があるので、必要部分を取捨選択したものだけについて、RDF対応(TTL形式へ変換)を行っている。
もう一方の解析対象であるテキストデータについては、PMCのXMLデータを用いる。XMLルールがケースバイケースで多岐にわたるため、統一的な解析をすることがやや難航している。簡便にとりだせる部分について目下作成中である。

Strategy for Future Research Activity

今後は、引き続きTCGAとCCLEのデータをもとに、遺伝子名や関連する多数の属性情報で表現されたRDFを作成する部分を続けていかなくてはいけない。
RDFグラフの埋め込みとそれに基づく推論技術について、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、またそのための人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。
一方で、AIなどのICT技術だけでなく、生命系データ解析の分野でも、テンソル解析によるデータ統合とマイニングの手法が提案されている。テンソル分解は、近年いくつかの方法がバイオデータに適用されて成果が出されている。これらをうまく使い、本研究の対象とするオントロジーや埋め込みデータと融合できないかを検討する予定である。また、近年の埋め込みや分散表現の手法の発展で、自然言語の分散表現をうまく獲得しているBERTが出てきたため、その活用を試みる。また生命科学系のテキストを学習したBioBERTも発表されており、その活用を検討する。

Causes of Carryover

評価を行うためのデータセットの構築が遅れており,それに伴い評価指標プログラムの開発が遅れているため。

  • Research Products

    (5 results)

All 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 1 results,  Open Access: 2 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] BioHackathon series in 2013 and 2014: improvements of semantic interoperability in life science data and services2019

    • Author(s)
      Toshiaki, Katayama, et. al.
    • Journal Title

      F1000Research

      Volume: 8 Pages: 1-25

    • DOI

      10.12688/f1000research.18238.1

    • Peer Reviewed / Open Access
  • [Journal Article] 第1 回ナレッジグラフ推論チャレンジ2018 開催報告─説明性のある人工知能システムを目指して─2019

    • Author(s)
      川村 隆浩 江上 周作 田村 光太郎 外園 康智 鵜飼 孝典 小柳 佑介 西野 文人 岡嶋 成司 村上 勝彦 高松 邦彦 杉浦 あおい 白松 俊 張 翔宇 古崎 晃司
    • Journal Title

      人工知能学会誌

      Volume: 34 Pages: 396-412

    • Open Access
  • [Presentation] がんゲノム医療に向けたナレッジグラフと予後情報を活用した論文検索システム2020

    • Author(s)
      村上勝彦, 富士秀
    • Organizer
      日本メディカルAI学会
  • [Presentation] Report on the First Knowledge Graph Reasoning Challenge 2018 Toward the eXplainable AI System2019

    • Author(s)
      akahiro Kawamura, Shusaku Egami, Koutarou Tamura, Yasunori Hokazono, Takanori Ugai, Yusuke Koyanagi, Fumihito Nishino, Seiji Okajima, Katsuhiko Murakami, Kunihiko Takamatsu, Aoi Sugiura, Shun Shiramatsu, Xiangyu Zhang, Kouji Kozaki
    • Organizer
      Proceedings of the 9th Joint International Semantic Technology Conference (JIST2019)
    • Int'l Joint Research
  • [Presentation] サンプル混合度を考慮した遺伝子発現量のがんバイオマーカー探索2019

    • Author(s)
      村上勝彦
    • Organizer
      2019年度人工知能学会全国大会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi