2018 Fiscal Year Research-status Report
外交データ分析に関する人工知能(AI)の開発に向けて
Project/Area Number |
17K18549
|
Research Institution | Fukuoka Institute of Technology |
Principal Investigator |
長岡 さくら 福岡工業大学, 付置研究所, 研究員 (10550402)
|
Co-Investigator(Kenkyū-buntansha) |
中川 智治 福岡工業大学, 社会環境学部, 教授 (50336046)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 外交文書 / AI技術 / データ分析 / 外交研究 / 国際法学 |
Outline of Annual Research Achievements |
本研究は、将来、人工知能(Artificial Intelligence、以下「AI」と称する。)技術を外交史料研究において利活用するために行う探究的な研究である。 近年、外交記録公開によって公開される外交文書の量が著しく増大している。このような状況において、公開された厖大な外交文書を、一人の研究者が、特定の研究目的に従って、全ての関連ある資料を探し出し、読みこなし、分析を行い、それを一定の期間内に体系的に検討することについては、今後ますます困難になっていくことが予想される。そこで、本研究では、近年、発展がめざましいAI技術を外交史料研究に利活用するために必要となる手法について検討を行い、現状におけるAI技術が、どの程度、外交研究において利活用可能なのかについて整理し、利活用の手法について提案を試みる。 平成30年度は、研究初年度に取り掛かった市販されている汎用的なOCRソフトを用いての作業(文字画像の認識)の結果として得られた技術的課題を回避するための作業を中心に進めた。使用したサンプルデータには、言語の種類、文字の態様、文書の形式、綴り込まれている史料の多様性等の問題から、汎用的なOCRソフト及び質的データ分析ソフト等では対応できないことが判明した。そこで、サンプルデータの見直し行うと共に、OCR作業に関しては認識アルゴリズム自体を構築可能な数値解析ソフトにて対応することにした。今回は、書体や言語等の混在しない19世紀に公刊された資料の画像データを利用しOCR作業を実施した。その結果、数値解析ソフトによるOCR作業結果の方が、前年度の作業結果よりも高精度であることが確認できた。平成30年度までの検討で、AI技術を用いて、研究代表者がこれまでに人力で行ってきた資料の「探し出し、読みこなし、分析する」といった一連の作業の一部を代替させることでさえ課題が多いことが判明した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、当初、紙媒体で提供され、これを画像化した一連の外交史料を主たるサンプルデータとして用い、研究を進める予定であった。 ところが、研究を進めるにつれ、文字データとして提供されていない一連の外交史料は、言語の種類、文字の態様、文書の形式、綴り込まれている史料の多様性等の問題から、市販されている汎用的なOCRソフトを用いた簡便な文字データ化には、ソフトの調整だけでは越えられない課題があることが判明した。複数のOCRソフトを試してみたが、一データ中に複数の言語等が混在する外交史料についてOCRソフトでは文字データ化すら十分にこなせないことが判明した。そこで、画像化された史料のOCRに関しては、パターン認識による文字認識アルゴリズム自体を構築可能な数値解析ソフトに変更して対応することにした。数値解析ソフトを用いての文字認識アルゴリズムの構築には、プログラミング環境を整備する必要があり、平成30年度は新たに当該環境を整えた。また、文字画像認識に用いるサンプルデータの見直しも行った。今回は、書体や言語等の混在しない19世紀に公刊された資料の画像データを利用した。なお念のため、前年度に用いたOCRソフトによる文字データ化の作業結果と数値解析ソフトを用いて作成した文字認識アルゴリズムによる文字データ化の作業結果とを比較した。その結果、数値解析ソフトによる作業結果の方が、前年度に用いたOCRソフトによる作業結果よりも高精度であることが確認できた。文字データ化された文書についての解析に関しては、質的データ分析(QDA:Qualitative Data Analysis)ソフトの有用性について確認を行った。平成30年度に文字認識アルゴリズムの構築作業が新たに発生したため、当初の予定より全体として作業量が増加してはいるものの、全体として、研究計画自体は概ね順調に進展していると言える。
|
Strategy for Future Research Activity |
研究最終年度である平成31/令和元年度は、主として次の二点、即ち、文字データ化された文書の解析を進めるとともに、本研究の総括を行う。 まず、文字データ化された文書の解析については、平成30年度における作業・検討によって、QDAソフトによる解析は、AI技術の開発(実装)についての研究として本研究を展開させるには適していないことが判明した。そこで本年度は、前年度に文字認識アルゴリズムを構築した数値解析ソフト環境を用いて、新たにデータマイニングのアルゴリズム構築に取り組む。これにより、平成30年度中に開始した文字データ化された文書の解析作業を文字認識アルゴリズムと一体的に進めることが可能になると考える。データマイニングのアルゴリズム構築にあたっては、他分野における先行事例を参考に、外交史料研究において利活用可能な手法等について検討を行う。その際、平成29及び30年度に入手を保留したデータを用いての検証についても検討する。 また、本年度は研究最終年度であるため研究結果についての総括を行う。その際、本研究が目指す、AI技術を用いて、研究代表者がこれまでに人力で行ってきた資料の「探し出し、読みこなし、分析する」といった一連の作業の一部を代替させることの課題についても盛り込む予定である。
|
Causes of Carryover |
当初、使用を予定していた統計分析ソフト及び質的データ分析ソフトについて、AI技術の開発(実装)についての研究を進めて行く上での課題があり、本研究の実施に適していないことが判明した。このため、これらの課題を回避でき、かつ、より安価な別個の数値解析ソフトを用いることとした。また、入手を予定していた外交史料は、文字データ化するサンプルデータとしては課題のあることが判明したため、入手を保留した(平成29年度)。平成30年度には、これらの課題を回避できる史料を新たに、主たるサンプルデータとして入手する予定であったが、公共機関のウェブサイトにて当該データの一部が無料で入手できることが判明したため、同年度は、無料で入手したデータを用いて分析・検討を行った。これにより、次年度使用が生じた。 なお、平成31/令和元年度は、当初予定されていた使用計画に加えて、平成29及び30年度に入手を保留したデータを用いての検証について更に検討するとともに、本研究の総括を行う予定である。
|
Remarks |
長岡さくら、「人工知能(AI)技術の外交史料研究への利活用の探究--紙媒体史料の文字認識と課題--」福岡工業大学環境科学研究所環境研究発表2019(2019年)
|