研究課題/領域番号 |
18K11522
|
研究機関 | 株式会社富士通研究所 |
研究代表者 |
村上 勝彦 株式会社富士通研究所, その他部局等, 研究員(移行) (30344055)
|
研究分担者 |
高松 邦彦 神戸常盤大学, 短期大学部口腔保健学科, 准教授 (80392017)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 分散表現 / 深層学習 / ナレッジグラフ / 推論 / 自然言語処理 |
研究実績の概要 |
本研究の一つのテーマは、既存オントロジーの自動的な拡張である。具体的に生命科学で重要なオントロジーとして、改善を試みる具体的なオントロジーをいくつか選定する作業を行った。生命科学の研究ドメインから近年(分子生物学的な)進歩が著しいものを選定する。選定する条件を前年度検討したうえで、、特にがんとアルツハイマー・認知症のオントロジーを拡張対象とした。具体的には、Alzheimer's disease ontology (ADO; 2014)とAlzPathwayの利用である。後者は100を超えるレビュー論文から1,300個の分子と1,070の反応を格納しているため十分な量を含んでおり、本研究に向いている。後者のデータについては、形式的にも問題なく扱えることが確認できた。他の分子生物学的な進歩が著しいテーマとして、がんは国内でも上位にくる死因であるため、研究成果が多く発表されている。いくつかのがんについての知識についてもオントロジーを選定していくことにした。どのがんに絞るかについては、候補が多数であるため検討中である。 一方、知識情報を取得するテキストデータの取得、選定を行った。候補としてはNCBIのPMCとWikipedia (生命科学部分)がある。今年度はPMCを中心に、ベースラインとしてのデータを作成するためword2vec による埋め込みを行って内容の検証をした。 データリソースの整備をすすめてきたが、過去に収集したCCLEとTCGAのデータについてRDF対応の整備を進めた。また、新たにGenomics of Drug Sensitivity in Cancer (GDSC)についての薬剤応答データを収集した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
リソースデータの更新を簡便に取り込む際、自動更新が望ましい。そのため、データを半自動的に収集してプログラムで統合する計算機環境を構築している。既存のもので大きく提供形式が変わることも多いため、必要に応じて改良している。 本研究でテキストから得られた科学的言及はResource Description Framework (RDF)に従ったトリプルの形で得られるが、それらをバイオ系データベースの記述・事実と照会する必要がある。そこで、照会する対象としての、がん研究に関するデータセットの収集を行った。昨年度はNational Cancer InstituteのThe Cancer Genome Atlas (TCGA)の一部、The Broad Instituteの「がん細胞株百科事典(CCLE)」などを収集した。今年度は、収集したものから、ゲノム変異情報などの整備(RDF対応)をさらにすすめるとともに、新たにGenomics of Drug Sensitivity in Cancer (GDSC)についての薬剤応答データを収集した。これらをRDFグラフへ変換しているが、データの種類が膨大で不要な部分があるので、必要部分を取捨選択したものだけについて、RDF対応(TTL形式へ変換)を行っている。 もう一方の解析対象であるテキストデータについては、PMCのXMLデータを用いる。XMLルールがケースバイケースで多岐にわたるため、統一的な解析をすることがやや難航している。簡便にとりだせる部分について目下作成中である。
|
今後の研究の推進方策 |
今後は、引き続きTCGAとCCLEのデータをもとに、遺伝子名や関連する多数の属性情報で表現されたRDFを作成する部分を続けていかなくてはいけない。 RDFグラフの埋め込みとそれに基づく推論技術について、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、またそのための人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。 一方で、AIなどのICT技術だけでなく、生命系データ解析の分野でも、テンソル解析によるデータ統合とマイニングの手法が提案されている。テンソル分解は、近年いくつかの方法がバイオデータに適用されて成果が出されている。これらをうまく使い、本研究の対象とするオントロジーや埋め込みデータと融合できないかを検討する予定である。また、近年の埋め込みや分散表現の手法の発展で、自然言語の分散表現をうまく獲得しているBERTが出てきたため、その活用を試みる。また生命科学系のテキストを学習したBioBERTも発表されており、その活用を検討する。
|
次年度使用額が生じた理由 |
評価を行うためのデータセットの構築が遅れており,それに伴い評価指標プログラムの開発が遅れているため。
|