研究課題/領域番号 |
18K18109
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
進藤 裕之 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (20734784)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 知識獲得 / 情報抽出 / 科学技術論文 / 構文解析 / 意味解析 / 自然言語処理 |
研究実績の概要 |
科学技術論文を対象とした情報抽出では,「ある特定のデータやパラメータを用いて実験を行った論文」といった高度な検索を行うことが難しい.これは,論文データから,セクション,段落,数式,図表などの基本的な構造を解析できていないことが根本的な原因の一つである.本研究では,様々な分野の論文を構造化する技術の確立を目指す. 平成30年度は,化学・材料分野,情報分野,バイオロジー分野の3つの専門分野の論文データを収集し,それらに共通の構造について調査を行った.また,それらを集約し,一貫性のあるXMLの仕様を定義する作業を行った.主に,タイトル,セクション,数式,段落,図,表といった基本要素によって,分野によらない論文フォーマットを定義することが可能であることがわかった.また,JATS(既存の科学技術論文フォーマット)は,細かいタグや定義が曖昧なタグが多く,実際の論文では使用されていないものも多い.そこで,JATSを大幅に簡略化したタグ仕様を定義し,それに基づいてPDFを構造化することとした. 次に,上記のXML仕様に基づく学習データ(PDFをXML化するための学習データ)を構築した.具体的には,PubMedのJATS形式の論文とPDFのペアを大量に収集し,それらを変換して,XMLとPDFと対応付ける作業を行った.単純な文字列マッチングでは上手く対応が取れないケースがあり,いくつかの近似文字列マッチングアルゴリズムを考案し,それに基づいて評価実験を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している.平成30年度は,予定通り,データ収集や仕様定義などの準備作業・環境構築作業が中心であり,来年度からは本格的に技術的な作業へ取り掛かることができる.
|
今後の研究の推進方策 |
平成31年度は,平成30年度に構築した学習データを用いて,PDFをXML化する技術の確立を目指す.特に,図表の位置認識や段落の認識が重要であり,この部分に関して変換技術の性能評価を行う予定である.まずは,個々の要素(図,表,数式など)ごとに別々のモデルを考案し,最終的にはそれらを統合して一つのPDF変換プログラムとすることを計画している.また,実際の化学・材料・バイオ研究者と協調し,XML化された論文からどういった情報を抽出するかについて議論し,データフォーマットの定義やアノテーションガイドラインの作成に目途をつける予定である.
|
次年度使用額が生じた理由 |
使用物品を予定よりも安価で調達することができたため,若干の次年度使用額が生じた.こちらは次年度の物品費として使用する予定である.
|