研究課題/領域番号 |
25330384
|
研究機関 | 岡山大学 |
研究代表者 |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 電子図書館 / 文書解析 / 情報抽出 / メタデータ / CRF / ウェブ / 電子書籍 / 閲覧支援 |
研究実績の概要 |
本研究は、学術論文から書誌情報、図表、節題、専門用語など様々なメタ情報を抽出し、他のデータベースと付き合わせて同定を行うための論文文書解析システムの実装を目指している。また、抽出したメタ情報を利用してタブレット端末による学術論文のオンライン閲覧の利便性を向上させる。論文文書解析システムでは、条件付確率場(CRF)などの機械学習を駆使してメタ情報を高精度かつ低コストで抽出するとともに、抽出誤りを実用的なコストで修正できるようにする。 平成27年度は、図表などを人手でマークアップしたNTCIR9の英文論文コーパスを利用して、これらのメタ情報を自動抽出するとともに、実験結果などを示す抽出した表をグラフに自動変換して可視化する方法を提案した。ここでNTCIR9はNII主催の国際的な情報検索ワークショップである。この研究成果については国内研究会で発表した。 論文の参考文献欄の書誌情報については、国内学会の和文誌と英文誌の論文の参考文献文字列コーパスを利用して、CRFの学習コストを抑えながら高精度に書誌情報を抽出する方法を提案し、またこの抽出に有効な素性を実験により確認した。これらの成果については雑誌論文や国内フォーラムなどで発表した。 また新たな電子図書館サービスとして、様々な閲覧支援機能をもつ学術論文ブラウザのプロトタイプを改良するとともに、文献の引用意図を解析して閲覧支援に利用する方法を検討した。またこれらの成果を国内フォーラムなどで発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成27年度は、これまでに整備した論文コーパスを利用して、論文から実験に関する図表や段落(実験情報)を抽出する方法を提案するとともに、抽出した表をグラフに自動変換する方法を提案した。論文の参考文献欄からの書誌情報抽出については、CRF抽出器による高精度抽出に有効な素性を実験により確かめ、有効な素性の拡充方法について検討した。またタブレット端末で利用する学術論文ブラウザのプロトタイプを改良し、論文から自動抽出したメタ情報を活用した学術論文閲覧支援の方法について検討した。これらの研究成果について、雑誌論文と図書で各1件、国内研究会などで6件発表した。
|
今後の研究の推進方策 |
平成28年度は、論文文書解析システムが備える書誌情報や図表、専門用語などのメタ情報の抽出器を洗練し、抽出したメタ情報のその後の活用方法をより詳細に検討する。とりわけ、メタ情報をウェブなどとリンクして、タブレット端末による新しいオンライン論文閲覧の方法を提案する。 学術的な成果としては、国際会議発表2~3回および査読付き論文1報の投稿を計画している。国際会議の投稿先としては、International Conference on Theory and Practice of Digital Libraries (TPDL)、International Conference on Asia-Pacific Digital Libraries (ICADL)といった電子図書館分野の代表的な国際会議やACM Symposium on Document Engineering (DocEng)などを目標としたい。
|
次年度使用額が生じた理由 |
研究の進捗に伴い平成27年度に予定していた研究成果発表が平成28年度になるなどしたため次年度使用額が生じた。
|
次年度使用額の使用計画 |
主に国際会議などにおける研究成果発表の費用として支出する予定である。
|