研究課題/領域番号 |
18K18337
|
研究機関 | 立命館大学 |
研究代表者 |
孟 林 立命館大学, 理工学部, 講師 (60615938)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 拓本時空間データベース / 深層学習 |
研究実績の概要 |
本研究では、漢字を中心とした日本と中国の重要な古資料文献である拓本の多書体文字を、深層学習を用いて認識し、さらに、時空間情報を含むデータベースを作成して、それらを地図上に可視化することで有用な情報を抽出し、歴史の整理、気候変動、自然災害の予測対応等の研究に貢献することを目的とする。 現在、拓本内の多書体文字を認識するためのデータ増強、データセット作成手法、深層学習による認識と認識率の向上手法を提案し、実験を行ってきた。また、拓本の時空間情報をキーワード毎に整理して時空間データベースを作成し、それらを地図上に可視化して潜在知識を抽出する、拓本潜在知識発見システムを設計している。 拓本内の多書体文字の認識では、集めてきた拓本内の文字に対して、ノイズの除去、切り取り、輝度値変更の処理を行い、訓練データを増強し、100文字種5267331枚の画像を生成した。また、AlexnetとGoogLenetを用いて学習、認識を行い、61文字種のときGoogLenetで認識率96%、100文字種のときAlexnetで認識率92%を達成することを示した。さらに、AlexnetのDropoutの値を変更することで、認識率を92%から93.5%まで向上することを示した。 時空間データベースの作成と可視化では、拓本の時空間情報を整理して、時空間管理番号表を作成し、さらに、キーワード毎に拓本の情報を管理番号でまとめた、キーワード管理番号表を12文字分作成した。そして、それら2つのリストを用いて、時空間データベースを作成するプログラムと、時空間データベースから地図上に可視化するのに必要な情報を整理するシステムを実現した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
新たに発見した問題点 (1)拓本の欠損により、深層学習においても認識できない部分が存在している。 (2)歴史の原因により、拓本の出土地域と出土時間を記載されていない拓本が存在していることが分かった。それにより、当該する拓本情報を時間空間データベースに記録できない問題が生じる。 (3)研究推進することにより、拓本のみならず、本研究は、日本の古典籍の認識と整理にも使えると発見した。
|
今後の研究の推進方策 |
今年度の研究計画は、当初設定されたプロセスの進行と、新たに発見された問題点の解決の二つで構成されている。 【設定されたプロセス】 (1)深層学習と画像処理を用いて、拓本文字認識精度の向上を目指す。 (2)時空間データベースを完成する。(3)画像処理を用いてキーワードの可視化を実現する。 【新たに発見された問題点】 (1)拓本欠損問題について:拓本の欠損による認識できない拓本文に対して、統計的な手法を用いて、認識できた部分を整理し、認識できない拓本文の推測を行う。(2)拓本情報の不足問題について:インタネットでの検索、海外の研究者を含めた専門に聞く、そして、認識できた拓本の文章から、必要な拓本に関する情報を分析し、取得する。(3)日本古典籍への応用について、本研究は日本古典籍への応用ができると判明し、今後本システムを用いて、日本古典籍のキーワードに関する時間空間データベースを作成し、日本古典籍から潜在的な知識の抽出に貢献したい。
|