研究課題/領域番号 |
18K18109
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
進藤 裕之 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (20734784)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 論文解析 / 構文解析 / PDF |
研究実績の概要 |
科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは極めて困難な状況である.科学技術論文は,概要,本文,数式,図表などで構成される構造化文章であり,PDFを構造化する技術が確立されれば,従来では困難であった論文の高度な検索や情報抽出が可能となる.そこで本研究では,論文を解析してXMLなどの構造化フォーマットへ変換するためのモデルおよびアルゴリズム構築を目指している. 平成31年度は,論文に含まれる表,数式,本文それぞれの構造化モデルを相互に組み合わせることにより,実際の論文を解析するモデルおよびアルゴリズムの構築を行った.具体的には,PDFから取得した文字とその位置情報に基づいて,機械学習により文字列にタグを付与することでセクションや段落などの構造を決定する.また,セクションや段落同士の関係性も機械学習により推定することで,PDF全体の木構造を決定することができる. 実際の専門分野への応用として,材料科学分野の文献を対象として,論文の構造化に関する実験を行った.材料科学文献では,物質名や物性値に関する情報の多くが表に含まれるため,表の構造化を正しく行うことが情報抽出にとって重要である.実験の結果,本文に関しては,非常に高い性能で構造化を実現することができた,また,おおよそ90%の表に関しては正しく解析を行うことができたが,行や列が連結された複雑な表については解析誤りが多く含まれることがわかった.今後の課題として,複雑な表の解析性能を向上させるためのモデル改善やアルゴリズム改善を実施する必要がある.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している.平成31年度は,予定通り,PDFを構造化するためのモデル構築およびアルゴリズム考案を進捗通りに進めることができた.次年度は,構造解析の更なる性能向上と,いくつかの専門分野の論文へ本技術を適用して評価することを中心として作業を進める予定である.
|
今後の研究の推進方策 |
令和2年度は,平成31年度の研究で明らかになった構造化性能の向上,特に複雑な表の解析に関して,モデルおよびアルゴリズムの両側面から改善を目指す.また,様々な専門分野(バイオロジー,材料科学など)で適用しても性能が下がらないように,分野適応や教師無し学習の知見を取り込んでいく予定である. また,PDFを構造化および情報抽出について,バイオロジーや材料科学分野の研究者と協調し,どのような構造や情報が抽出できると実際に役に立つかということを考慮して技術開発に反映させていく.
|
次年度使用額が生じた理由 |
データ作成に関する謝金・外注費に関して,一部を次年度に回す方が効率的に研究開発を進めることができるため.
|