訓点資料の解読過程の可視化と解読文の自動生成による可用性の向上

研究課題

研究課題/領域番号	23K00567
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分02070:日本語学関連
研究機関	岐阜工業高等専門学校
研究代表者	田島孝治岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
研究分担者	小助川貞次富山大学, 人文学部, 名誉教授 (20201486) 堤智昭筑波大学, 人文社会系, 助教 (80759035) 高田智和大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (90415612)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	訓点資料 / 書き下し文 / コーパス活用 / 古典中国語コーパス / 古典日本語コーパス / データベース / 自動解析 / 可用性向上
研究開始時の研究の概要	訓点資料の解読においては、訓点研究者の訓点や資料に関する知識や、古典日本語、中国語の文法などが暗黙的に使われ、その過程は明確でない。本研究課題では、訓点資料に記された訓点情報の解読過程を可視化し、解読文を自動的に生成可能な電子データとして再構築し、資料の可用性を高めることを目指す。まずは既に訓点の電子化が完了している『尚書（古活字版）』を対象とし、訓点に記された仮名や語順を考慮した書き下し文の生成を目指す。次に古典日本語コーパスなどを用いて語の表記統制を行う。最後に、古典中国語の辞書を用いた形態素解析技術などを用いて、自然な書き下し文の生成に挑戦する。
研究実績の概要	本研究の目的は、①訓点資料に記された訓点情報の解読過程を可視化し、②解読文を自動的に生成可能な電子データとして再構築し、③資料の可用性を高めることである。本文や訓点を、どんな知識を、どのように用いて、どう解釈して解読文を作ったのかを明確にすることで、専門家が職人芸的に行ってきた訓点資料の解読を、機械的に行えるようにする。また、解読過程で用いた、辞書や古典コーパスなどの他の知識データベースと紐づけることで、訓点資料の高精度な分析に対応した高度な電子データとして再構築する。 2023年度は、機械的に生成した書き下し文に対して、漢文文法を適用し、語彙をどの程度抽出できるかの判定を行う計画であった。しかしながら、これまでに生成してきた訓点資料データベースにさらなる整備を行うための作業が中心となってしまい、訓点資料データベースへの文字位置の搭載と、片仮名の訓点抽出でほとんどの研究時間を使ってしまったので、本年度は文献に対するNgram解析を行って、単語抽出、語彙抽出の段階までしか行っていない。現状のデータから単語を抽出するには専門家による確認が必須であり、自動で整理する段階には至っていない。まずは抽出された高頻出語彙に対し、辞書とのマッチングを行っていくことを優先する。これに加えて、漢文そのものの形態素解析などにも取り組んでいく予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由昨年度は、訓点資料の画像からの位置抽出と、ヲコト点のデータベースの整備は行ったものの具体的にコーパスを利用した文献の分析については行うことができていない。この２年間の目標として、機械的に生成した書き下し文を、語順や表記を整えた書き下し文に整理していく必要がある。現在までの分析としては、機械生成された文に対してNgram解析を行って、単語抽出、語彙抽出が行えるかを確認した段階であり、これから辞書とすり合わせができるかを調べていく。Unidicなどの古典中国語辞書の利用について準備を整えた段階である。
今後の研究の推進方策	2024年度中に、書き下し文の変換、校正を行える仕組みを構築することを目標とする。前期においては、漢文そのものを辞書により解析し、語順変換を行う部分に注力する。後期は表記の統一を行うために、語彙の分析を行う作業にはいる。資料全体を一気に扱うのは困難だと思われるため、訓点研究者が手作業により作成した書き下し文と比較可能な巻１冒頭部分を対象に動作を確認することにする。