研究課題/領域番号 |
18K11522
|
研究機関 | 株式会社富士通研究所 |
研究代表者 |
村上 勝彦 株式会社富士通研究所, その他部局等, 研究員(移行) (30344055)
|
研究分担者 |
高松 邦彦 神戸常盤大学, 教育学部こども教育学科, 准教授 (80392017)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 分散表現 / 深層学習 / オントロジー / 推論 / 知識表現 / 自然言語処理 / 遺伝子変異 |
研究実績の概要 |
本研究は、オントロジー(用語と関係の知識表現)と分散表現(多次元空間への埋め込み方法)を相補的に融合することと、それを用いた新たな推論技術の開発を目的としている。これまでに、テストケースとなる分野を検討し、「がん」と「アルツハイマー」に選定した。それらの分野において重要な情報源となるデータを調査収集した。データのタイプは、自然言語テキストデータとオントロジーデータ、およびデータベース(主に知識を表現できるもの)である。 現在、分散表現の獲得方法で注目される研究の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、グラフデータを構築しその関係から分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめている。 自然言語志向の方法としてはPubMed Central (PMC)の論文フルテキストデータのうち、MeSHタームを用いて論文を絞って収集した。これらを固有表現抽出、関係抽出を行い、IS-A関係の自動獲得をテストした。 グラフ志向の方法としては、複数データベースから利用できる関係を収集し、グラフにもとづく知識グラフの分散表現学習を行った。がんの事例データについては、National Cancer InstituteのThe Cancer Genome Atlas (TCGA)の一部、The Broad Instituteの「がん細胞株百科事典(CCLE)」などを収集した。変異、遺伝子、疾患、薬剤などのゲノム医療関係の用語を中心にデータ整備(RDF対応)を行い、知識グラフを構築した。この統合グラフをもとに、ComplEx等の方法を用いて、遺伝子、薬剤、疾患についての分散表現を学習し、統計的学習にもとづく推論システムの構築を行うことができた。今後は、これらの結果と各種オントロジーとの突き合わせを行う。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
分散表現の獲得方法で注目される仕事の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、グラフデータを構築しその関係から分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめており、今年度は特に後者の「グラフ志向」分散表現の獲得と評価をすすめた。そのなかでも、がんの事例データは豊富にあったが、アルツハイマー関連の情報については様相が異なっていたい。研究や論文こそ多いが、データとして扱える形式のものが少なく、利用可能なデータで粒度と量において所望の条件をみたせるように、実行可能な問題設定を修正する検討に時間がかかった。
|
今後の研究の推進方策 |
近年では、未知の変異がゲノム中にあるとき、その診療的な意義を見出すことがますます重要になっている。またゲノム関連では多種類のオミックスデータが新たに公開されており、これらのデータ内部に未知なる活用方法が潜んでいると考えられる。そこで、本技術をこの問題への応用することを狙い、追加の変異と薬剤に関するデータの追加を検討する。 RDFグラフの分散表現とそれに基づく推論技術について、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、またそのための人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。 一方で、AIなどのICT技術だけでなく、生命系データ解析の分野でも、テンソル解析によるデータ統合とマイニングの手法が提案されている。テンソル分解は、近年いくつかの方法がバイオデータに適用されて成果が出されている。これらをうまく使い、本研究の対象とするオントロジーや分散表現データと融合できないかはまだ検討に入ったばかりである。また、近年の埋め込みや分散表現の手法の発展で、自然言語の分散表現をうまく獲得しているモデルが続々と発表されているため、その活用を試みる。近年では、精度において優秀とされるシステムであるRoBERTaやGPTがあり、これらの事前学習モデルを用いて関係抽出を行うこと検討する。
|
次年度使用額が生じた理由 |
新型コロナによって様々な影響があった。学会のリモート開催や延期による費用減少、また、打ち合わせや学会への出張中止が多かったため。 主に、計算機の追加、論文の出版費用に使用する予定である。
|