2018 Fiscal Year Research-status Report
オントロジーと深層学習の融合による生命情報推論システム
Project/Area Number |
18K11522
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
村上 勝彦 株式会社富士通研究所, その他部局等, 研究員(移行) (30344055)
|
Co-Investigator(Kenkyū-buntansha) |
高松 邦彦 神戸常盤大学, 教育学部こども教育学科, 准教授 (80392017)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 分散表現 / 深層学習 / ナレッジグラフ / 推論 / 自然言語処理 |
Outline of Annual Research Achievements |
本研究の一つのテーマは、既存オントロジーの自動的な拡張である。具体的に生命科学で重要なオントロジーとして、改善を試みる具体的なオントロジーをいくつか選定する作業を行った。生命科学の研究ドメインから近年(分子生物学的な)進歩が著しいものを選定する。選定する条件としては、1)1つ以上の論文により研究ドメインを包含するオントロジーが提案されてそのデータが公開されていること。2)細胞生物学的な進歩により、様々な細胞内化学反応が継続的かつ量的に発表されていること、とした。さらに特定の疾患、特にがんとアルツハイマー・認知症については、社会的重要性が高いと考え、これらのオントロジーを拡張対象とすることにした。具体的には、Alzheimer's disease ontology (ADO; 2014)とAlzPathwayの利用である。後者は100を超えるレビュー論文から1,300個の分子と1,070の反応を格納しているため十分な量を含んでおり、本研究に向いている。後者のデータについては、形式的にも問題なく扱えることが確認できた。他の分子生物学的な進歩が著しいテーマとして、がんは国内でも上位にくる死因であるため、研究成果が多く発表されている。いくつかのがんについての知識についてもオントロジーを選定していくことにした。どのがんに絞るかについては、候補が多数であるため検討中である。 一方、知識情報を取得するテキストデータの取得、選定を行った。候補としてはNCBIのPMCとWikipedia (生命科学部分)がある。ベースラインとしてのデータを作成するためword2vec による埋め込みを行って内容の検証をした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データを大規模に収集して統合する環境を構築するため、GPUを備えた計算機の準備を行った。研究環境が新しくなり、ネットワーク環境でも多くのルールに対応しなくてはならないため、計算機の手続きや環境構築を行った。 次に、本研究でテキストから得られた科学的言及はResource Description Framework (RDF)に従ったトリプルの形で得られるが、それらの事実を、伝統的なバイオ系データベースの記述・事実と照会する必要がある。そこで、照会する対象としての、がん研究に関するデータセットの収集を行った。National Cancer InstituteのThe Cancer Genome Atlas (TCGA)、およびThe Broad Instituteの「がん細胞株百科事典(CCLE)」などを収集した。これらをRDFグラフへ変換しているが、データの種類が膨大であるため現時点で未完成である。アルツハイマー関連についてはReview論文を収集し、関連するインフォマティクス論文から、どのような言及を獲得すべきかを生体反応を中心に吟味・検討した。検討の結果、アルツハイマー発症の因子とされる30程度の言及を中心にデータ化することとした。 知識情報を取得するテキストデータからの埋め込みについては、PMCのXMLデータのルールが複雑で解析がやや難航している。簡便にとりだせる部分について作成しておくことで対応した。
|
Strategy for Future Research Activity |
今後は、引き続きTCGAとCCLEのデータをもとに、遺伝子名や関連する多数の属性情報で表現されたRDFを作成する部分を続けていかなくてはいけない。 RDFグラフの埋め込みとそれに基づく推論技術について、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、またそのための人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。 一方で、AIなどのICT技術だけでなく、生命系データ解析の分野でも、テンソル解析によるデータ統合とマイニングの手法が提案されている。テンソル分解は、近年いくつかの方法がバイオデータに適用されて成果が出されている。これらをうまく使い、本研究の対象とするオントロジーや埋め込みデータと融合できないかを検討する予定である。
|
Causes of Carryover |
埋め込み計算に使用するための高速計算機の購入が不急となったため、次年度使用額が生じた。
|