研究課題/領域番号 |
19K01044
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分03030:アジア史およびアフリカ史関連
|
研究機関 | 関西大学 |
研究代表者 |
藤田 高夫 関西大学, 文学部, 教授 (90298836)
|
研究分担者 |
吉田 壮 関西大学, システム理工学部, 助教 (70780584)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2019年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 木簡 / 居延漢簡 / 書体分析 / 木簡文字検出 / 字体変換 / 都尉府 / 隷書体 / 章草体 / 文字のくずれ度合い / 同筆と異筆 / 手書き / AI / 行政文書 / 文字の謹直さ / 同筆 / 文字切りだし |
研究開始時の研究の概要 |
本研究課題は、中国漢代の行政機構研究の一次資料である簡牘文書の書体分析の手法確立を目指すものである。ここでいう書体とは文字の「書きぶり」を意味する。多数の漢代簡牘を観察すれば、書きぶりの謹直さにはかなりの幅があることが容易に見て取れるが、字体の崩れ方と文書の性格との間の関係性は等閑視されてきた。このような文字の謹直度が、文書行政の中でその文書が持つ意味とどのように関連するのかを解明し、行政の現場で文書作成の実態に切り込むことが本研究の最終的目的である。
|
研究実績の概要 |
本研究では、中国古代木簡の画像からの文字検出と字体分析、さらにそれに基づく木簡文書の書体分析の課題に取り組み、新たな技術の有効性が示された。 文字検出では、U-Netベースの文字検出・位置特定フレームワークを提案し、文字間の垂直・水平境界を同時に学習することで性能向上が達成された。また、学習された文字境界領域を活用した低コストの後処理を追加することで、近接する文字群の位置を正確に検出できるようになった。独自に構築した木簡データセットを用いた実験では、歴史的文書に対する最先端の文字検出方法を含む既存の方法を上回る性能が示され、査読付き論文への掲載が決定した。 字体分析においては、崩れた文字と謹直な文字の2つの文字群を用いて深層生成モデルCycleGANを学習させ、木簡文字の崩れた文字から謹直な文字への字体変換が可能であることが実証された。さらに、木簡文字の掠れや欠損を考慮したデータ拡張が導入され、画像処理技術で訓練データの総量が足りない課題に対処した。また、入力された崩れ文字と変換された謹直な文字との差分を計算することで、崩れ度の算出が行われ、データ拡張の有効性が確認された。 木簡文書の書体分析では、上述の技術で抽出した冊書(一件ファイル)に現れる個々の漢字の書体の相違から、文書作成のプロセスの重層性を確認し、さらに辺境における文書行政の最上位官署である都尉府の機能について、木簡文書と文献史料を相互に組み合わせながら新たな展望を得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
木簡画像からの文字の切り出しについては、2021年度に開発したアルゴリズムに改良を加え、近接する文字群の位置をほぼ性格に把握できるようになった。この結果、従来膨大な時間と手間を要した文字切り出しの自動化がほぼ実現した。 字体分析については、くずれた草書体から謹直な隷書体への変換を実現することで、典型的な隷書との差分を定量的に示すことが可能となり、当初からの目標であった、個々の木簡における文字のくずれ度合いの把握に目途が立った。
|
今後の研究の推進方策 |
本年度に実現した文字検出システムを全面的に稼働させ、数十万字におよぶ木簡文字の画像データセットを作成する。さらに個々の文字のくずれ度合いを定量的に把握し、文書行政における隷書体と草書体の位相を展望する。 加えて、如上の技術を応用して、バラバラの状態で出土する木簡群の中から同筆簡の摘出を試み、デジタルの目を通した「冊書の復原」に挑戦する。
|