研究課題/領域番号 |
18K11522
|
研究機関 | 富士通株式会社(富士通研究所) |
研究代表者 |
村上 勝彦 富士通株式会社(富士通研究所), その他部局等, 研究員 (30344055)
|
研究分担者 |
高松 邦彦 神戸常盤大学, 教育学部こども教育学科, 准教授 (80392017)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | 分散表現 / オントロジー / ナレッジグラフ / 自然言語処理 / 疾患 / 薬剤 |
研究実績の概要 |
本研究は、専門家が作成したオントロジー(用語とそれらの関係)と、テキストから自動生成した分散表現(多次元ベクトル)を相補的に活用し、その結果を用いた新たな推論技術の開発を目的としている。これまでに、テストケースとなる分野を検討し、「がん」と「アルツハイマー」に選定した。それらの分野でのテキストデータ、オントロジーデータ、およびデータベース(主に知識を表現できるもの)を扱う。 現在、分散表現の獲得方法で注目される研究の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、ある程度情報が整理されたグラフデータベースに登録されたEntityとrelationから分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめている。 昨年度は自然言語志向の方法としてはPubMed Central (PMC)のテキストデータの一部に対して自動獲得を行っていた。本年度は、アルツハイマーのGWASや疾患の分子機序に関するデータベースのデータを利用し、グラフ志向の方法による分散表現の構築をすすめた。Alzheimer's disease ontology (ADO)やAlzPathwayなどの複数データベースから利用できる関係を収集し、グラフにもとづく知識グラフの分散表現学習をComplEx等の方法を用いて行った。さらに、テキストからの分散表現とグラフからの分散表現の比較を行い、一部の不一致が自動修復できることが確認できた。今後は、これらの結果を複数の視点で評価する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
期間の延期にともない計画を引き直したため。
|
今後の研究の推進方策 |
近年では、未知の変異がゲノム中にあるとき、その診療的な意義を見出すことがますます重要になっている。また、データが古くなってきているため、新たなデータを更新していくことが必要である。特に、新しく登録された変異や薬剤に関するデータの追加を検討する。 RDFグラフの分散表現とそれに基づく推論技術については、その基本的な演算性能を評価するため、評価のための独自な問題を設定し、評価用の人工データを整え検証をする予定である。その後に、バイオデータ(実データ)での性能を評価したい。 一方で、テンソル解析と知識グラフ埋め込み(分散表現)の統合方法による推論が近年提案されたが、我々はこれを独自に拡張しており、その応用が現実的になってきた。このモデルを用いて推論などを行うことを検討する。
|
次年度使用額が生じた理由 |
新型コロナによる影響が残り、予算を利用する機会が計画より減った。学会のリモート参加、打ち合わせのオンライン化というように変更せざるを得なかった。今後は主に、資料やデータの購入、論文の出版費用に使用する予定である。
|