研究課題/領域番号 |
25330384
|
研究機関 | 岡山大学 |
研究代表者 |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 電子図書館 / 文書解析 / 情報抽出 / メタデータ / CRF / ウェブ / 電子書籍 / 閲覧支援 |
研究実績の概要 |
本研究は、電子文書から様々なメタ情報を抽出し、他のデータベースと付き合わせて同定を行うための文書解析システムの実装を目指している。とりわけ学術論文の電子文書を対象とし、メタ情報として書誌情報、図表、節題、専門用語などを抽出し、それらを利用してタブレット端末などによる文書のオンライン閲覧の利便性を向上させる。そのため、条件付確率場(CRF)などの機械学習を駆使した高精度かつ低コストな情報抽出と、その抽出誤りに実用的に対処できる文書解析システムを提案する。 平成26年度は、図表や脚注、参考文献などを人手でマークアップしたNTCIR9(英文)やDEIM2013(和文)の論文コーパスを利用して、機械学習などにより図表や専門用語などのメタ情報を抽出する方法を提案した。ここでNTCIR9はNII主催の国際的な情報検索ワークショップであり、DEIM2013はデータ工学と情報マネジメントに関する国内向けのフォーラムである。これらの研究成果については国内フォーラムで発表した。 論文の参考文献欄の書誌情報については、電子情報通信学会論文誌の和文誌、英文誌と情報処理学会論文誌(和文誌)の論文の参考文献文字列コーパスを利用して、CRFの学習コストを抑えながら高精度に書誌情報を抽出する方法を提案し、実験により評価した。これらの成果については国際会議や国内フォーラムで発表した。 また、新たな電子図書館サービスを創出するため、学術論文の閲覧を支援するタブレット端末におけるインタフェースなどについて検討し、閲覧支援機能をもつ学術論文ブラウザのプロトタイプを開発した。またその成果を国内研究会などで発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成26年度までに、平成25年度に整備したNTCIR9の論文コーパスを活用して、論文から実験に関する図表や段落(実験情報)を抽出する方法を提案し、実験により評価した。論文の参考文献欄の書誌情報抽出については、抽出器の学習コストを抑えながら高精度に抽出する方法を考案し、実験によりその性能を確かめた。またタブレット端末における学術論文閲覧支援について検討し、閲覧支援機能をもつ学術論文ブラウザのプロトタイプを開発した。これらの研究成果について、国際会議で1件、国内研究会などで6件発表した。
|
今後の研究の推進方策 |
平成27年度は、書誌情報や図表、専門用語など個々のメタ情報の抽出器を洗練するとともに、これらの抽出器を組み込んだ論文文書解析システムの完成を目指す。また、抽出した情報を電子図書館外部の情報源により同定し、その結果を利用して電子図書館におけるウェブなどによる論文閲覧支援の方法を提案する。さらにこのような提案を可能な限り実装し、タブレット端末に適した新しいオンライン論文閲覧の方法を具体的に示す。 学術的な成果としては、国際会議発表1~2回および査読付き論文1~2報の投稿を計画している。国際会議の投稿先としては、Joint Conference on Digital Libraries (JCDL)(米国)、International Conference on Theory and Practice of Digital Libraries (TPDL)(欧州)、International Conference on Asia-Pacific Digital Libraries (ICADL)(アジア)といった電子図書館分野の代表的な国際会議などを目標としたい。
|
次年度使用額が生じた理由 |
平成26年度に予定していた雑誌論文での研究成果発表が平成27年度になるなどしたため次年度使用額が生じた。
|
次年度使用額の使用計画 |
主に雑誌論文の掲載料や国際会議などにおける研究成果発表の費用として支出する予定である。
|
備考 |
(受賞) 第7回Webとデータベースに関するフォーラム (WebDB Forum 2014) 学生奨励賞, 少量学習データによる参考文献書誌情報抽出, 川上 尚慶, 2014年11月20日.
|