この研究の主な目指すところは、新しい推論技術の開発であり、そのためには専門家が策定したオントロジー(用語とその関係性)と、テキストから自動的に生成される分散表現(多次元ベクトル)を結合的に利用する。これまでに、テストケースとして採用される分野を厳選し、「がん」と「アルツハイマー」を選択した。これらの特定の領域で、テキストデータ、オントロジーデータ、そして主に知識を表現することに注目したデータベースの使用を考慮している。 分散表現の取得手法は大きく二つに分けられる。一つは自然言語のコーパスデータを活用して分散表現を取得する「自然言語志向」の方法であり、もう一つはより体系的に整理された情報が格納されたグラフデータベースからエンティティと関連性を抽出する「グラフ志向」の方法である。この研究では、これらの二つのアプローチを平行して推進している。 昨年度までで、自然言語志向のアプローチとして、PubMed Central (PMC) のテキストデータの一部を自動取得した。また、アルツハイマーのGWASや疾患の分子機序に関するデータベースのデータを用いて、グラフ志向の手法で分散表現の構築を行った。Alzheimer's disease ontology (ADO)やAlzPathwayなどの複数のデータベースから抽出可能な関係性を収集し、ComplExなどの方法を使用して、グラフに基づく知識グラフの分散表現の学習を進めた。さらに、テキストから得られる分散表現とグラフから得られる分散表現を比較し、一部の不一致を自動修正した。本年度は、これらの結果を多角的な視点から評価することをおこなった。
|