• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

訓点資料の解読過程の可視化と解読文の自動生成による可用性の向上

Research Project

Project/Area Number 23K00567
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 02070:Japanese linguistics-related
Research InstitutionGifu National College of Technology

Principal Investigator

田島 孝治  岐阜工業高等専門学校, その他部局等, 准教授 (90611640)

Co-Investigator(Kenkyū-buntansha) 小助川 貞次  富山大学, 人文学部, 名誉教授 (20201486)
堤 智昭  筑波大学, 人文社会系, 助教 (80759035)
高田 智和  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (90415612)
Project Period (FY) 2023-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2025: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords訓点資料 / 書き下し文 / コーパス活用 / 古典中国語コーパス / 古典日本語コーパス / データベース / 自動解析 / 可用性向上
Outline of Research at the Start

訓点資料の解読においては、訓点研究者の訓点や資料に関する知識や、古典日本語、中国語の文法などが暗黙的に使われ、その過程は明確でない。本研究課題では、訓点資料に記された訓点情報の解読過程を可視化し、解読文を自動的に生成可能な電子データとして再構築し、資料の可用性を高めることを目指す。
まずは既に訓点の電子化が完了している『尚書(古活字版)』を対象とし、訓点に記された仮名や語順を考慮した書き下し文の生成を目指す。次に古典日本語コーパスなどを用いて語の表記統制を行う。最後に、古典中国語の辞書を用いた形態素解析技術などを用いて、自然な書き下し文の生成に挑戦する。

Outline of Annual Research Achievements

本研究の目的は、①訓点資料に記された訓点情報の解読過程を可視化し、②解読文を自動的に生成可能な電子データとして再構築し、③資料の可用性を高めることである。
本文や訓点を、どんな知識を、どのように用いて、どう解釈して解読文を作ったのかを明確にすることで、専門家が職人芸的に行ってきた訓点資料の解読を、機械的に行えるようにする。また、解読過程で用いた、辞書や古典コーパスなどの他の知識データベースと紐づけることで、訓点資料の高精度な分析に対応した高度な電子データとして再構築する。
2023年度は、機械的に生成した書き下し文に対して、漢文文法を適用し、語彙をどの程度抽出できるかの判定を行う計画であった。
しかしながら、これまでに生成してきた訓点資料データベースにさらなる整備を行うための作業が中心となってしまい、訓点資料データベースへの文字位置の搭載と、片仮名の訓点抽出でほとんどの研究時間を使ってしまったので、本年度は文献に対するNgram解析を行って、単語抽出、語彙抽出の段階までしか行っていない。現状のデータから単語を抽出するには専門家による確認が必須であり、自動で整理する段階には至っていない。まずは抽出された高頻出語彙に対し、辞書とのマッチングを行っていくことを優先する。これに加えて、漢文そのものの形態素解析などにも取り組んでいく予定である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

昨年度は、訓点資料の画像からの位置抽出と、ヲコト点のデータベースの整備は行ったものの具体的にコーパスを利用した文献の分析については行うことができていない。この2年間の目標として、機械的に生成した書き下し文を、語順や表記を整えた書き下し文に整理していく必要がある。
現在までの分析としては、機械生成された文に対してNgram解析を行って、単語抽出、語彙抽出が行えるかを確認した段階であり、これから辞書とすり合わせができるかを調べていく。Unidicなどの古典中国語辞書の利用について準備を整えた段階である。

Strategy for Future Research Activity

2024年度中に、書き下し文の変換、校正を行える仕組みを構築することを目標とする。前期においては、漢文そのものを辞書により解析し、語順変換を行う部分に注力する。後期は表記の統一を行うために、語彙の分析を行う作業にはいる。資料全体を一気に扱うのは困難だと思われるため、訓点研究者が手作業により作成した書き下し文と比較可能な巻1冒頭部分を対象に動作を確認することにする。

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (2 results)

All 2023 Other

All Presentation (1 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Presentation] The Improvements of the Search-ability for Shosho Kunten Database2023

    • Author(s)
      Tajima Koji
    • Organizer
      The 33rd EAJRS Conference
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Remarks] 尚書(古活字版第三種本)訓点情報データベース

    • URL

      https://cid.ninjal.ac.jp/kunten-syousyo3/

    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-04-13   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi