研究課題/領域番号 |
20K00654
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 岐阜工業高等専門学校 |
研究代表者 |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
研究分担者 |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (90415612)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 訓点資料 / データベース / 自動解析 / ヲコト点 / 書き下し文 / 文字抽出 / 訓点抽出 / 書き下し文の自動生成 / 訓点データベース / 訓点の自動抽出 / 可用性の向上 / 訓点資料の可用性の向上 |
研究開始時の研究の概要 |
本研究では、漢文訓点資料の研究利用の促進や、一般の人々にもわかりやすい歴史資料としての提供を目的に、現状では難しい漢文訓点資料のカメラ画像からのテキスト認識、訓点認識、書き下し文生成の実現に向けての検討を行う。具体的には次の3種類を順に実施していく。 ①国立国語研蔵『尚書(古活字版第三種本)』に対する語順点、仮名点を反映させた書き下し文の生成 ②他の漢文訓点資料の電子化方式の検討と書き下し文生成 ③漢文訓点資料を機械学習させ、訓点情報を自動認識する方式の検討
|
研究成果の概要 |
本研究では、訓点資料の書き下し文の自動生成を目指し、訓点資料の高精度な電子化及びその解析を試みた。具体的な資料としては、国立国語研究所蔵 尚書(古活字版第三種本)の巻1~巻9を対称としたデータベースを構築し、そのデータを用いた画像からの文字抽出、訓点抽出を行った。この研究の成果は、国際会議である「第33回日本資料専門家欧州協会年次大会」で発表した。訓点については朱色のヲコト点のみに注目して抽出したが、位置まで正確に抽出できる割合は60%程度であり、文字の形状、使い方の特徴の考慮など、より文献に考慮した分析を行っていく必要がある。
|
研究成果の学術的意義や社会的意義 |
本研究の成果は、訓点資料という、解読に必要な知識が多いため限られた研究者しか解析できない資料を、計算機を用いて自動分析する仕組みを構築したことに社会的な意味がある。国語辞典や漢和辞典には、特定の単語の実例として漢籍(漢文による訓点資料)を提示していることが多いが、訓点研究を専門としない研究者が実際の漢文資料を使って、実例を理解することは、必要となる知識が不足するため極めて難しい。本研究では、誰もが平易な形で資料の訓点を詳細に把握できる、資料の訓点情報を詳細に記録したデータベースを構築した。 また、データ使った訓点資料の自動認識も行い、文字の位置に関しては自動で抽出できる成果が得られている。
|