2021 Fiscal Year Research-status Report
Project/Area Number |
20K00654
|
Research Institution | Gifu National College of Technology |
Principal Investigator |
田島 孝治 岐阜工業高等専門学校, 電気情報工学科, 准教授 (90611640)
|
Co-Investigator(Kenkyū-buntansha) |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (90415612)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 訓点資料 / 書き下し文の自動生成 / 訓点データベース / 訓点の自動抽出 |
Outline of Annual Research Achievements |
2021年度においては、(1)資料画像を用いたの文字位置検出およびヲコト点検出と(2)訓点情報データーベースの可用性の向上を目的に研究を行った。 (1)にについては、既に手動により構造化記述が終わっており、訓点情報が分かっている資料について、機械的な抽出方法により文字位置と訓点情報を抽出し、どの程度の精度で自動抽出が行えるかを確認する試みである。資料の文字数や改行位置などが明らかであれば、今回対象とした古活字版資料ではほぼ100%の精度で文字位置とその大きさは抽出できた。これに付随する形で訓点の認識も行い、星点についての抽出は位置も含めて可能であることが分かった。2022年度は、訓点種別の分類や手書き資料や他の古活字版資料などへ手法を適用し、有効性を検証する予定である。 (2)については、現状のデータベースを見直し、セキュリティ面での修正の他、自然な日本語で検索ができる機能を検討中である。データベースの構造については検討が終了し、2022年度前期をめどに実装を行う予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究は、国立国語研究所資料を確認しながら書き下し文を生成し、さらに他の資料の電子化を進めたのちに、自動生成を行う仕組みづくりを検討する予定であったが、研究所での現資料を用いた調査が困難であったため、まずは画像のみを利用して行える部分について実験、システム構築を先に行うことにした。
|
Strategy for Future Research Activity |
本年度は出張の実施や、実際の資料の確認が行えるようになったため、まずは遅れていた、精密な書き下し文の作成と、実験で用いてきた資料の写本などに電子化を中心に進める。また、データベースの修正を通じて、電子化した資料の検索および可用性向上を行う。さらに、自動的な書き下し文生成のために訓点の自動認識部分について、画像処理技術を適用して、どの手法が有効であるかを検証する。
|
Causes of Carryover |
新型コロナウイルスに関連し、出張旅費について大幅に残額が生じた。 (海外への渡航ができなかった。オンライン大会での発表となった等) 研究メンバーで会議を開き、本年度についても旅費に予算を組むと、同様に残額が生じる可能性が高いため、研究目的である資料の自動認識と精度向上にむけて、正解データである電子的に記述した資料を本年度は作る予定である。(人件費・謝金が増える予定)
|
Research Products
(3 results)