研究課題/領域番号 |
20K00654
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 岐阜工業高等専門学校 |
研究代表者 |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
研究分担者 |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (90415612)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 訓点資料 / データベース / 自動解析 / 文字抽出 / 訓点抽出 / 書き下し文 / 書き下し文の自動生成 / 訓点データベース / 訓点の自動抽出 / 可用性の向上 / 訓点資料の可用性の向上 |
研究開始時の研究の概要 |
本研究では、漢文訓点資料の研究利用の促進や、一般の人々にもわかりやすい歴史資料としての提供を目的に、現状では難しい漢文訓点資料のカメラ画像からのテキスト認識、訓点認識、書き下し文生成の実現に向けての検討を行う。具体的には次の3種類を順に実施していく。 ①国立国語研蔵『尚書(古活字版第三種本)』に対する語順点、仮名点を反映させた書き下し文の生成 ②他の漢文訓点資料の電子化方式の検討と書き下し文生成 ③漢文訓点資料を機械学習させ、訓点情報を自動認識する方式の検討
|
研究実績の概要 |
本年度は1年延長後の最終年度であり、対外発表を行うことを目標として活動した。 これまでの研究の成果を、2023年9月に行われた、第33回日本資料専門家欧州協会年次大会(European Association of Japanese Resource Specialists(EAJRS))で発表した。発表タイトルは「尚書古活字版を対象とした訓点データベースにおける検索性の改良 The Improvements of the Search-ability for Shōsho Kunten Database」であり、本研究の成果として、尚書古活字版の文字に対する自動抽出方法についてまとめたものである。このなかで、資料につけられたヲコト点の認識への利用可能性についても示した。聴衆からは、具体的な方法というよりも、資料とその可用性向上に対する質問があった。特に古活字版であることに注目した、同じ文字印の再利用が行われているかを調べたいという質問に対しては、文字画像の切り出し結果の一つの有用な利用方法であるため、さらに検討していきたい。また、本研究は、スマートフォンなどで撮影した古文献を自動的に認識し、書き下し文の生成を行うことを目的としたが、既に翻刻データがあるものを処理対象としているため、何の文献の写真を撮ったものかをまず絞り込む方法についての検討が必要であることが分かった。これらの議論を通じて、今後の研究は二種類の方向性分けて展開していく予定である。一つは、(1)画像そのものをより深く分析し、訓点を抽出、解析すること。もう一つは、(2)文献のそのものを認識する方法の検討である。
|