研究課題/領域番号 |
25330384
|
研究種目 |
基盤研究(C)
|
研究機関 | 岡山大学 |
研究代表者 |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 電子図書館 / 文書解析 / 情報抽出 / メタデータ / CRF / ウェブ / 電子書籍 / 閲覧支援 |
研究概要 |
本研究は、電子文書から様々なメタ情報を抽出し、他のデータベースと付き合わせて同定を行うための文書解析システムの実装を目指している。とりわけ学術論文の電子文書を対象とし、メタ情報として書誌情報、図表、節題、専門用語などを抽出し、それらを利用して電子書籍閲覧端末などによる文書のオンライン閲覧の利便性を向上させる。そのため、条件付確率場(CRF)などの機械学習を駆使した高精度の情報抽出と、その抽出誤りに実用的に対処できる文書解析システムを提案する。 平成25年度は、NII主催の情報検索ワークショップNTCIR9の会議録論文約100件などに対し、図表、脚注、参考文献などを人手でマークアップした論文コーパスを整備するとともに、この論文コーパスを活用して機械学習などにより図表や専門用語などのメタ情報を抽出する方法を検討した。これらの成果については国内のフォーラムなどで発表した。 論文の参考文献欄の書誌情報については、既存の参考文献文字列コーパスを利用して、電子情報通信学会論文誌の和文誌、英文誌と情報処理学会論文誌(和文誌)の論文の参考文献文字列からCRFにより書誌情報を抽出する実験を行った。実験では、雑誌毎に抽出性能を詳細に分析するとともに、CRFの学習コストの削減方法について検討した。これらの成果については国際会議と国内ワークショップで発表した。さらに、複数の書誌要素抽出器による複数雑誌の論文タイトルページ文書画像からの書誌要素抽出を行い、その成果を国際会議で発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成25年度は、NTCIR9の会議録論文約100件などに対し、図表、脚注、参考文献などを人手でマークアップした論文コーパスを整備して実験等に活用するとともに、機械学習などにより、学術論文から図表や専門用語などのメタ情報を自動抽出する研究に着手した。また論文の参考文献欄の書誌情報については、電子情報通信学会論文誌の和文誌、英文誌と情報処理学会論文誌(和文誌)の論文の参考文献文字列からCRFにより書誌情報を抽出する実験を行い、雑誌毎に抽出性能を詳細に分析するとともに、CRFの学習コストの削減方法について検討した。さらに、CRFに基づく複数の書誌要素抽出器による、論文タイトルページの文書画像からの書誌要素抽出について検討した。これらの研究成果については、国際会議で2件、国内研究会等で5件発表している。
|
今後の研究の推進方策 |
平成26年度は、図、表、専門用語などメタ情報個別の抽出器の性能向上を図り、その後は徐々に論文文書解析システム構築に力点を移す。平成25年度に整備できた論文コーパスは多くないので、この論文文書解析システムにより論文コーパス整備の省力化を図りたい。また、抽出した情報をウェブ等の電子図書館外部の情報源により同定して、電子図書館とウェブ等の間に様々なリンクを生成する方法を検討する。これにより、タブレット端末等に適した新しいオンライン論文閲覧法の提案を目指す。 学術的な成果としては、国際会議発表1~2回および査読付き論文1~2報の投稿を計画している。国際会議の投稿先としては、Joint Conference on Digital Libraries (JCDL)(米国)、International Conference on Theory and Practice of Digital Libraries (TPDL)(欧州)、International Conference on Asia-Pacific Digital Libraries (ICADL)(アジア)といった電子図書館分野の代表的な国際会議等を目標としたい。
|
次年度の研究費の使用計画 |
平成25年度に国際会議発表を予定していたが、学内業務のため取りやめた。そのため次年度使用額が生じた。 平成26年度に国際会議等における成果発表を増やす予定である。
|