2017 Fiscal Year Research-status Report
外交データ分析に関する人工知能(AI)の開発に向けて
Project/Area Number |
17K18549
|
Research Institution | Fukuoka Institute of Technology |
Principal Investigator |
長岡 さくら 福岡工業大学, 付置研究所, 研究員 (10550402)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 外交文書 / AI技術 / データ分析 / 外交研究 / 国際法学 |
Outline of Annual Research Achievements |
本研究は、将来、人工知能(Artificial Intelligence、以下「AI」と称する。)技術を外交史料研究において利活用するために行う探究的な研究である。 近年、外交記録公開によって公開される外交文書の量が著しく増大している。このような状況において、公開された厖大な外交文書を、一人の研究者が、特定の研究目的に従って、全ての関連ある資料を探し出し、読みこなし、分析を行い、それを一定の期間内に体系的に検討することについては、今後ますます困難になっていくことが予想される。そこで、本研究では、近年、発展がめざましいAI技術を外交史料研究に利活用するために必要となる手法について検討を行い、現状におけるAI技術が、どの程度、外交研究において利活用可能なのかについて整理し、利活用の手法について提案を試みる。 研究初年度である平成29年度は、研究の前提として、法学及び政治学分野において、現在、AI技術がどのように活用されようとしているか、等について整理を行った。その上で、これまで研究代表者が収集し検討を重ねてきた国際海洋法分野の外交史料や国会議事録等をサンプルデータとして用い、現存するAI技術の到達度を明らかにする作業・検討に取り掛かった。 初年度は、まず、サンプルデータ(文字データ及び画像データ)をパソコンでの分析可能な文字データとして認識させるための準備作業として、画像データ資料に対し、既存の複数の光学文字認識(以下、「OCR」と称する。)ソフトを用いてOCR作業を行い、市販されている汎用的なOCRソフトにおける技術的到達点と課題を整理した。また、文字データ資料の一部について、研究代表者がこれまでに人力で行ってきた資料の「探し出し、読みこなし、分析する」といった一連の作業の代替可能性について分析ソフトを用い、比較・検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、当初、紙媒体で提供され、これを画像化した一連の外交史料を主たるサンプルデータとして用い、研究を進める予定であった。 しかし、研究を進めるにつれ、文字データとして提供されていない一連の外交史料は、言語の種類、文字の態様、文書の形式、綴り込まれている史料の多様性等の問題から、準備作業として必要となる、既存の市販のOCRソフトを用いた簡便な文字データ化に相当の技術と時間を要することが判明した。このため、これらの課題を回避できる外交史料を新たに主たるサンプルデータとして用いることを余儀なくされたが、全体として、研究計画自体は概ね順調に進展していると言える。
|
Strategy for Future Research Activity |
平成30年度は、主として次の二点、即ち、文字認識及び文書解析について更に検討を進める。 まず、文字認識については、平成29年度における作業・検討によって、既存の市販のOCRソフトを用いた簡便な文字データ化の成果及び課題が判明したため、数値解析ソフトを用いてパターン認識を行い、文字画像の認識精度の向上を目指すとともに、文字認識についての現在の技術的到達点及び課題の整理を行う。 また、文書解析については、文字データ化された文書についてそれぞれ複数のデータマイニングソフトを用いて解析を行うとともに、解析結果を抽出及び比較検討する予定である。
|
Causes of Carryover |
当初、使用を予定していたデータ解析ソフトについて、研究を進めて行く上での課題があり、本研究の実施に適していないことが判明した。このため、これらの課題を回避でき、かつ、より安価な別個のソフトを用いることとした。また、入手を予定していた外交史料は、「現在までの進捗状況」に記載の通り、文字データ化するサンプルデータとしては欠点のあることが判明したため、これを回避する方策を講じるまで、入手を保留した。これらにより、次年度使用が生じた。 なお、平成30年度は、当初予定されていた使用計画に加えて、平成29年度に判明した課題を解決するため、新たに数値解析ソフトを購入・使用してパターン認識を行い、文字画像の認識精度の向上に資する予定である。
|