2013 Fiscal Year Annual Research Report
機械学習による統合的書誌メタ情報編集システムの実装
Project/Area Number |
24300097
|
Research Institution | National Institute of Informatics |
Principal Investigator |
安達 淳 国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)
|
Co-Investigator(Kenkyū-buntansha) |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 書誌パージング / メタデータ / コーパス / CRF / 機関リポジトリ / テキストマイニング |
Research Abstract |
本研究は、統合的なメタ情報編集の環境として、電子文書の中からメタ情報を抽出し、その編集とともに他のデータベースと付き合わせて同定を精度良く行うためのシステムの実装を目指している。特に学術論文のような電子文書からメタ情報として書誌および引用文献情報を抽出し、書誌要素への分解なども行う。 平成25年度は、平成24年度に整備した3種類の学術論文誌の合計1万3千件以上の参考文献文字列コーパスを利用して、参考文献文字列からの自動書誌要素抽出において、電子情報通信学会の和英論文誌に加えて、情報処理学会論文誌からも一定の精度(90%)で抽出可能であることを実験により確認した。しかしこの精度は、電子情報通信学会和文論文誌(94%)、英文論文誌(93%)に比べると低く、実用では雑誌種別や言語別に書誌要素抽出器を用意して、ある程度チューニングする必要があることが示唆された。この実験に関わる詳細な分析と、複数の書誌要素抽出器による複数雑誌の論文タイトルページからの書誌要素抽出について、それぞれ国際会議で発表した。 本研究の自動書誌情報抽出では、参考文献の文字列をまずトークン列に変換して、条件付確率場(CRF, Conditional Random Field)により各トークンの書誌要素ラベルを推定する。これまでに、CRFの計算する入力トークンに対する出力書誌要素ラベルの尤度を利用した確信度を複数提案し、確信度と実際の書誌要素推定の正誤などについて分析した。その結果提案した確信度は、自動書誌要素推定の誤り検出に利用可能なことを実験により示したが、新たに能動学習における学習データ選択の指標としても有望であることを確認した。そこで、能動学習などを利用した参考文献書誌情報抽出における学習コストの削減などについて、国内のフォーラムなどで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
平成24年度に、3種類の学術論文誌の各1年分の論文から合計1万3千件以上のコーパスを作成して実験等に活用するとともに、機械学習手法の一つであるCRFを利用して、学術論文の参考文献文字列およびタイトルページから、書誌情報を高精度に抽出する手法を提案した。平成25年度には、学術論文PDFファイルを入力としてレイアウト解析を行うモジュール、レイアウト解析で得られる引用文献文字列をパージングして書誌要素を抽出するモジュールなどを作成した。また、整備した引用文献情報のコーパスを用いて、個々のモジュールのアルゴリズムを洗練するとともに、書誌要素抽出器と既存の書誌情報同定器のインタフェースなどを設計し、複数のモジュールが連携動作するプロトタイプをいくつか実装した。平成26年度に、これらのモジュールを有機的に結合した統合的メタ情報編集環境システム(MWB)のソフト開発を予定通り実施すれば、当初の研究目的は十二分に達成される見込みである。さらに平成25年度までに、書誌情報以外の情報、具体的には図表や実験に関わる情報の論文からの自動抽出の研究にも着手した。研究成果については、国内外の学術雑誌や国際会議などで6件、国内研究会等で8件発表している。
|
Strategy for Future Research Activity |
最終年度となる平成26年度は、研究代表者らが開発したサポートベクトルマシン(SVM)によるレコード同定システムのモジュールを結合し、既存の文字列編集のソフトウェアとも連携して動作するような統合的メタ情報編集環境システム(MWB)を実装する。具体的には、外注などを利用して、これらを有機的に結合してファイル等のデータを管理するためのシステムソフトウェアを開発する。プロダクトとしてMWBのデモシステムを作成し、情報処理学会など一部学会の電子図書館のもつ実データのメタ情報の編集を試みて、実務的なフィードバックをシステム開発に反映することを目指す。 実用的観点からは、CRFによる引用文献文字列パージングの結果に導入した確信度を利用して、現実的な人的コストで例えば99%以上という高い書誌情報抽出精度を保証する仕組みの実現を図る。具体的には、多様な学術雑誌から高精度に書誌情報を抽出するため、雑誌の種別などに基づいて複数の書誌要素抽出器を用意し、確信度やアンサンブル学習などによりその適切な切替や連携を行うことで自動抽出精度を高める。また、抽出器の書誌要素推定結果の正誤と相関が高い確信度と、確信度の適切な閾値の設定法などを与えて、実用的な書誌要素抽出誤りの検出法を確立する。さらに確信度は能動学習における学習データ選択の指標としても有望なため、確信度を利用して書誌要素抽出器に与える初期の学習データ量の削減も図る。
|
Expenditure Plans for the Next FY Research Funding |
平成25年度にソフト開発を予定していたが、予算が不足したため平成26年度にまとめて実施する形に変更した。そのため次年度使用額が生じた。また平成25年度に予定していた研究分担者の国際会議発表が平成26年4月(平成26年度)となった。 最終年度となる平成26年度にまとめてソフト開発をする予定である。また研究分担者は平成26年4月に国際会議で発表した。
|
Research Products
(7 results)