研究課題/領域番号 |
23K00567
|
研究機関 | 岐阜工業高等専門学校 |
研究代表者 |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
研究分担者 |
小助川 貞次 富山大学, 人文学部, 名誉教授 (20201486)
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (90415612)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 訓点資料 / 書き下し文 / コーパス活用 / 古典中国語コーパス / 古典日本語コーパス |
研究実績の概要 |
本研究の目的は、①訓点資料に記された訓点情報の解読過程を可視化し、②解読文を自動的に生成可能な電子データとして再構築し、③資料の可用性を高めることである。 本文や訓点を、どんな知識を、どのように用いて、どう解釈して解読文を作ったのかを明確にすることで、専門家が職人芸的に行ってきた訓点資料の解読を、機械的に行えるようにする。また、解読過程で用いた、辞書や古典コーパスなどの他の知識データベースと紐づけることで、訓点資料の高精度な分析に対応した高度な電子データとして再構築する。 2023年度は、機械的に生成した書き下し文に対して、漢文文法を適用し、語彙をどの程度抽出できるかの判定を行う計画であった。 しかしながら、これまでに生成してきた訓点資料データベースにさらなる整備を行うための作業が中心となってしまい、訓点資料データベースへの文字位置の搭載と、片仮名の訓点抽出でほとんどの研究時間を使ってしまったので、本年度は文献に対するNgram解析を行って、単語抽出、語彙抽出の段階までしか行っていない。現状のデータから単語を抽出するには専門家による確認が必須であり、自動で整理する段階には至っていない。まずは抽出された高頻出語彙に対し、辞書とのマッチングを行っていくことを優先する。これに加えて、漢文そのものの形態素解析などにも取り組んでいく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
昨年度は、訓点資料の画像からの位置抽出と、ヲコト点のデータベースの整備は行ったものの具体的にコーパスを利用した文献の分析については行うことができていない。この2年間の目標として、機械的に生成した書き下し文を、語順や表記を整えた書き下し文に整理していく必要がある。 現在までの分析としては、機械生成された文に対してNgram解析を行って、単語抽出、語彙抽出が行えるかを確認した段階であり、これから辞書とすり合わせができるかを調べていく。Unidicなどの古典中国語辞書の利用について準備を整えた段階である。
|
今後の研究の推進方策 |
2024年度中に、書き下し文の変換、校正を行える仕組みを構築することを目標とする。前期においては、漢文そのものを辞書により解析し、語順変換を行う部分に注力する。後期は表記の統一を行うために、語彙の分析を行う作業にはいる。資料全体を一気に扱うのは困難だと思われるため、訓点研究者が手作業により作成した書き下し文と比較可能な巻1冒頭部分を対象に動作を確認することにする。
|
次年度使用額が生じた理由 |
2023年度中のデータ入力を行う予定であったが、入力用システムの構築およびテストの段階までしか完了せず、具体的なデータ入力およびデータの検証については2024年度以降に行うことにした。このため、作業用の人件費が残っている。また、途中状況を学会発表により公開する予定であったが、こちらも作業が十分に進んでいないため2024年度前期に予定変更している。
|