研究課題/領域番号 |
18K18109
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
進藤 裕之 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2018年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 論文解析 / 自然言語処理 / 構文解析 / オブジェクト検出 / 構造解析 / PDF / XML / 知識獲得 / 情報抽出 / 科学技術論文 / 意味解析 / 関係抽出 |
研究成果の概要 |
科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは困難である.そこで本研究では,論文に含まれる本文,数式,図表などの領域や構造を解析し,XMLなどの構造化フォーマットへ自動変換するためのモデルおよびアルゴリズム構築を行った.特に,材料科学の文献を主なターゲットとして,図表や数式の領域は画像処理によって検出し,本文や表の構造は自然言語処理の構造解析技術を援用した統合的な解析手法を実現した.また,モデルの訓練や評価に必要な図表領域のデータセットや,本文および表の構造に関するデータセットなどのリソースを構築し,論文の統合的な構造解析を行う技術を確立した.
|
研究成果の学術的意義や社会的意義 |
本研究により,PDF形式の論文データを入力として,図表,数式,段落などのオブジェクトを抽出することや,表の内部構造(ヘッダや行列)を取得することができるようになった.そのため,ある分野における論文の実験データを網羅的に収集することや,図表に記述されている情報の細かい分析や検索が可能になると考えられる.また,本技術を用いて様々な分野の論文を構造化して知識データベースを構築し,ユーザーが閲覧できるようなサービスの実現も可能となる.
|