2019 Fiscal Year Annual Research Report
Data-Driven Reconstruction and Integrated Analysis of the Past World Using the Infrastructure for Historical Big Data
Project/Area Number |
19H01141
|
Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)
|
Co-Investigator(Kenkyū-buntansha) |
加納 靖之 東京大学, 地震研究所, 准教授 (30447940)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 歴史ビッグデータ / データ構造化 / 統合解析 / データ駆動型復元 / 研究基盤 / 機械学習 / 歴史GIS / IIIF |
Outline of Annual Research Achievements |
(1) 歴史的記録のテキスト化については、機械学習によるアプローチ(KuroNet)を発展させるとともに、市民科学によるアプローチ(みんなで翻刻)と連携させることで、翻刻プラットフォーム構想を発展させた。また、KuroNetをIIIF(International Image Interoperability Framework)対応のウェブサービスとして公開し、全世界のライブラリ・ミュージアム等が公開する歴史的記録をAIくずし字認識でテキスト化可能にするとともに、KuroNet Text Editorなどのオープンソースソフトウェアを開発し、テキスト化の結果をIIIF環境で閲覧可能とした。さらに市民科学によるアプローチで構築した翻刻データを機械学習モデルと連携させる方法についても、研究分担者との定期的なミーティングで実現の見通しを得た。最後に文書空間とデータ空間をつなぐデータの半構造化については、ライフサイエンス分野におけるアノテーションの手法を参考にする検討会を開催した。 (2) データセット構築については、まず江戸切絵図をベースに江戸の都市空間に関する基礎データセットを構築するため、全28枚中22枚の江戸切絵図からランドマークとなる地名を収集して地図座標とともにデータベース化し、その成果を「江戸マップβ版」として2019年11月に公開した。次に「武鑑全集」については、コンピュータビジョンに基づく「差読」技術の基礎的なアルゴリズムを開発し、国文学研究資料館の研究者との議論を通して有望であるとの評価を得た。 (3) IIIF Curation Platformについては、IIIF Curation Viewerを地図マーカーやくずし字認識結果の表示に対応させるアノテーションビューモードを開発するなど、機能強化と新ツールのリリースを進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の研究は順調に進展している。 まず、歴史的記録のテキスト化については、KuroNetの研究開発を進めただけでなく、Kaggleコンペティション「くずし字認識」を開催することで、世界中から優秀なくずし字認識アルゴリズムを獲得できたことは特筆すべき成果である。 また、歴史ビッグデータの構造化ワークフローについても重要な進展があった。当初の計画では、データ構造化ワークフローの両末端に近い部分、すなわち文書に近い部分(文書のOCRやマークアップ等)とデータに近い部分(データの変換や品質管理等)の方向性は見えていたが、文書とデータを接続する中間部分が、関連研究も少なく方向性も定めにくい「ミッシングリンク」となっていた。そこで、研究分担者や外部の研究協力者などと数度のディスカッションを繰り返し、この部分で取り組むべき研究課題を具体化することができた。もしこのギャップを埋めることができれば、研究期間が終了する頃には、世界的な使用に耐えうる仕組みの構築が見えてくると考えている。 さらにデータセット構築やソフトウェア構築についても、当初の想定通りに進めることができた。まず「江戸マップβ版」については、初年度に半分以上の絵図をデータベース化することができ、今後半年以内にすべてをデータベース化できる見通しとなった。また「武鑑全集」についても基礎的なアルゴリズムが完成し、今後半年以内にサービス化し公開できる見通しとなった。さらにIIIF Curation Platformについては、すでにいくつかのツールを公開し、研究者や市民の様々な活動への活用が進みつつある。 このように、研究成果の公表や普及についても、学会における研究発表だけでなく、データセットやソフトウェアの公開なども含めてバランスよく積極的に推進できた。
|
Strategy for Future Research Activity |
これまでの研究で、歴史ビッグデータの構造化に向けた研究の方向性を固めることができた。ただし、研究期間が終了するまでにデータ構造化ワークフローのプロトタイプを公開するには、今後の2年間で数個のツールを追加で開発する必要がある。これらを設計、実装、公開できるように着実に研究を進めていく計画である。 一方、歴史ビッグデータというコンセプトに賛同する研究者が他分野にも増えており、こうした人々との協働を通して「歴史ビッグデータ」コミュニティを拡大していくことも重要な課題である。このコミュニティには、歴史学や経済史など人文社会分野の研究者だけでなく、古気候や古地震など理工学分野の研究者も参加しており、文理の違いを越えて過去の世界を探る方法を確立するため、様々な分野の意見を取り入れていくことが重要であると考えている。 また海外でも「過去のビッグデータ」に着目する研究が注目を集めており、中でも「欧州タイムマシン研究計画(Time Machine Europe)」は、この分野の研究を欧州中心に加速させる可能性が高い。こうした研究グループとの国際的な共同研究を進めるため、海外渡航をする計画もあったが、COVID-19の影響によって難しくなった。とはいえ、オンラインでのミーティングなどを活用して、研究推進に影響が生じないように工夫する。 最後にデータセット構築については、オープンデータの公開を今後も増やす予定である。また本研究で構築したデータセットのみならず、他の研究で構築したデータセットを受け入れて公開するなど、国内外の研究のハブとして果たすべき役割についても検討する計画である。人文社会分野では、せっかく構築したデータセットがきちんと公開されず埋もれていくことも多々あり、そうしたデータへのアクセス手段を提供することは社会的意義も大きい活動である。
|
Research Products
(20 results)