2011 Fiscal Year Research-status Report
文書画像とウェブを活用した新しい電子図書館サービスに関する研究
Project/Area Number |
23700119
|
Research Institution | Okayama University |
Principal Investigator |
太田 学 岡山大学, 自然科学研究科, 准教授 (10326019)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | 電子図書館 / ウェブ / 文書画像 / 情報抽出 / CRF / 文書閲覧支援 / 論文推薦 |
Research Abstract |
学術論文を蓄積する電子図書館では、論文タイトルページ内の書誌情報を自動で判別する技術が求められる。そこで、論文タイトルページの文書画像をOCRでレイアウト解析し、その結果得られる各テキスト行がいずれの書誌要素に該当するか、条件付確率場(CRF)に基づき推定する方法を過去に提案した。これにより一定の精度で書誌要素推定が可能であるが、推定誤りは避けられず、電子図書館で利用するには人手による後処理が必要となる。本研究では、CRFが推定した書誌要素を解析し、書誌要素推定が困難な論文データを自動的に判別するための指標を提案した。提案指標により書誌要素推定が困難な論文が分かれば、書誌要素推定の後処理コストが削減できる。評価実験の結果、CRFによる書誌要素推定精度が現状程度であれば、提案した方法によって推定結果の修正などの後処理コストが大幅に削減できる見通しを得た。 さらに、学術論文の参考文献文字列のテキストデータから、CRFを用いて書誌要素を自動抽出する手法を提案した。本手法は、参考文献文字列のテキストをまずトークン列に変換し、CRFを用いて各トークンに著者名、表題、雑誌名などの書誌要素ラベルを付与する。実験では、電子情報通信学会論文誌の論文の参考文献文字列データから、複数のトークナイザを用いて様々な粒度のトークンを生成し、CRFで書誌要素を抽出した。その結果、93.5%の参考文献文字列から過不足なく書誌要素を抽出できることを確認した。 またオンラインでの論文閲覧の利便性を高めるため、関連性が自明なコンテンツへのリンクだけでなく、関連性は明示されていないがユーザが閲覧している論文と関わりがあり、重要な論文のリストを推薦するサービスを提案した。論文から情報を自動抽出するだけでなく、抽出した情報を有効に活用してこのような論文閲覧支援サービスが実現可能であることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
電子図書館のための学術論文からの高精度書誌情報抽出では、CRFによる論文タイトルページの書誌要素推定に確信度を導入することで、書誌情報整備にかかる人的コストの削減が可能であることを示した。この意義は大きいが、当初計画していた様々な雑誌へ適用して汎用性を確認するという点では、3雑誌についての実験にとどまっており、さらなる検証が必要である。さらに、抽出する情報の対象を広げるという点では、論文のタイトルページからだけでなく参考文献文字列からの書誌情報抽出を提案した。抽出精度にまだ改善の余地があり、抽出誤りの修正等にかかるコストについても検討する必要があるが、抽出した情報と書誌情報データベースやウェブ等とのリンクを自動生成すれば、容易に任意の参考文献等を参照できるようになり、オンラインでの論文閲覧効率が飛躍的に高まる。これらの書誌情報抽出に関する研究成果について、国際会議ならびに国際ワークショップにおいて発表した。 また、電子図書館での論文閲覧を支援するサービスとして、関連論文推薦がある。平成23年度は、関連性は明示されていないがユーザが閲覧している論文と関わりがあり重要な論文のリストを推薦する方法を提案し、実験によりその有効性を確認した。この成果についても国際会議で発表した。
|
Strategy for Future Research Activity |
平成23年度は、実験評価に不可欠な正解データ(書誌情報の判定済み論文データ)の整備を大学院生に謝金にて作業させる予定であったが、共同研究を行っている相手の国立情報学研究所から正解データの一部を入手できるようになったためこの作業を取りやめた。ただし、提案する書誌情報抽出の汎用性検証のためには、適用する雑誌数を増やす必要があるため、次年度は必要に応じて正解データ整備のための謝金を支出する予定である。 また、電子図書館の新サービスとしての論文閲覧支援に関する研究では、平成23年度は論文から抽出した専門用語を利用した関連論文推薦を提案した。本研究ではさらに、電子書籍専用の閲覧端末をユーザインタフェースとして利用した文書閲覧支援についても検討したかったが、最新の電子書籍閲覧端末の発売時期などを考慮して平成23年度はその購入を見送った。そのためこのような電子書籍閲覧端末を次年度購入する予定である。
|
Expenditure Plans for the Next FY Research Funding |
物品費では、PCやソフトウェア、書籍、計算機関連の消耗品の他に、平成23年度に購入を見送った電子書籍閲覧端末を購入する予定である。また研究成果を国内外で積極的に発表するため、旅費の支出は80万円程度を予定している。さらに、必要に応じて論文の書誌情報等の正解データを整備するための謝金と、研究成果の公表などに必要なその他の費用として、それぞれ10万円程度を見込んでいる。
|
Research Products
(7 results)