研究課題/領域番号 |
23K00567
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 岐阜工業高等専門学校 |
研究代表者 |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
研究分担者 |
小助川 貞次 富山大学, 人文学部, 名誉教授 (20201486)
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (90415612)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 訓点資料 / 書き下し文 / コーパス活用 / 古典中国語コーパス / 古典日本語コーパス / データベース / 自動解析 / 可用性向上 |
研究開始時の研究の概要 |
訓点資料の解読においては、訓点研究者の訓点や資料に関する知識や、古典日本語、中国語の文法などが暗黙的に使われ、その過程は明確でない。本研究課題では、訓点資料に記された訓点情報の解読過程を可視化し、解読文を自動的に生成可能な電子データとして再構築し、資料の可用性を高めることを目指す。 まずは既に訓点の電子化が完了している『尚書(古活字版)』を対象とし、訓点に記された仮名や語順を考慮した書き下し文の生成を目指す。次に古典日本語コーパスなどを用いて語の表記統制を行う。最後に、古典中国語の辞書を用いた形態素解析技術などを用いて、自然な書き下し文の生成に挑戦する。
|
研究実績の概要 |
本研究の目的は、①訓点資料に記された訓点情報の解読過程を可視化し、②解読文を自動的に生成可能な電子データとして再構築し、③資料の可用性を高めることである。 本文や訓点を、どんな知識を、どのように用いて、どう解釈して解読文を作ったのかを明確にすることで、専門家が職人芸的に行ってきた訓点資料の解読を、機械的に行えるようにする。また、解読過程で用いた、辞書や古典コーパスなどの他の知識データベースと紐づけることで、訓点資料の高精度な分析に対応した高度な電子データとして再構築する。 2023年度は、機械的に生成した書き下し文に対して、漢文文法を適用し、語彙をどの程度抽出できるかの判定を行う計画であった。 しかしながら、これまでに生成してきた訓点資料データベースにさらなる整備を行うための作業が中心となってしまい、訓点資料データベースへの文字位置の搭載と、片仮名の訓点抽出でほとんどの研究時間を使ってしまったので、本年度は文献に対するNgram解析を行って、単語抽出、語彙抽出の段階までしか行っていない。現状のデータから単語を抽出するには専門家による確認が必須であり、自動で整理する段階には至っていない。まずは抽出された高頻出語彙に対し、辞書とのマッチングを行っていくことを優先する。これに加えて、漢文そのものの形態素解析などにも取り組んでいく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
昨年度は、訓点資料の画像からの位置抽出と、ヲコト点のデータベースの整備は行ったものの具体的にコーパスを利用した文献の分析については行うことができていない。この2年間の目標として、機械的に生成した書き下し文を、語順や表記を整えた書き下し文に整理していく必要がある。 現在までの分析としては、機械生成された文に対してNgram解析を行って、単語抽出、語彙抽出が行えるかを確認した段階であり、これから辞書とすり合わせができるかを調べていく。Unidicなどの古典中国語辞書の利用について準備を整えた段階である。
|
今後の研究の推進方策 |
2024年度中に、書き下し文の変換、校正を行える仕組みを構築することを目標とする。前期においては、漢文そのものを辞書により解析し、語順変換を行う部分に注力する。後期は表記の統一を行うために、語彙の分析を行う作業にはいる。資料全体を一気に扱うのは困難だと思われるため、訓点研究者が手作業により作成した書き下し文と比較可能な巻1冒頭部分を対象に動作を確認することにする。
|