研究課題/領域番号 |
20K00654
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 岐阜工業高等専門学校 |
研究代表者 |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
研究分担者 |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (90415612)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 訓点資料 / データベース / 自動解析 / 書き下し文 / 書き下し文の自動生成 / 訓点データベース / 訓点の自動抽出 / 可用性の向上 / 訓点資料の可用性の向上 |
研究開始時の研究の概要 |
本研究では、漢文訓点資料の研究利用の促進や、一般の人々にもわかりやすい歴史資料としての提供を目的に、現状では難しい漢文訓点資料のカメラ画像からのテキスト認識、訓点認識、書き下し文生成の実現に向けての検討を行う。具体的には次の3種類を順に実施していく。 ①国立国語研蔵『尚書(古活字版第三種本)』に対する語順点、仮名点を反映させた書き下し文の生成 ②他の漢文訓点資料の電子化方式の検討と書き下し文生成 ③漢文訓点資料を機械学習させ、訓点情報を自動認識する方式の検討
|
研究実績の概要 |
本研究では、訓点とともに電子化した漢文訓点資料の書き下し文を、コンピュータを用いて自動的に生成することを目的として研究を進めてきた。最終年度である2022年度では、これまでに電子化された従来の研究成果を活用し、漢文訓点資料の自動的な電子化とそこからの書き下し文生成を目的としていた。 具体的な成果としては、資料画像からの文字位置の抽出が実現できた。書き下し文の生成に関しては、訓点の一部を使って機械的に生成することには成功した。当初の目標として「漢文訓点資料の電子化結果を機械学習させる」というものがあったが、今回の実験においては機械学習までは至らなかったが、ページごとの初期パラメータを与えることで、すべての文字を抽出することは可能となった。初期パラメータは最初の文字の位置、大きさ、行の幅であるため、このパラメータを自動推測するための仕組みについて検討していくことで、機械学習による文字の検出と電子化については実現できると思われる。 来年度は研究成果としては国内学会発表1本にとどまっており、コロナウイルス関係の問題により海外発表が実現できていない。このため、研究期間を1年延長し、国際発表できることを目標として研究を継続していく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定通り、国立国語研究所所蔵の『尚書』については詳細なデータを用いた、文字の自動認識、機械的な書き下し文の生成、そのデータベースの構築が完了し、成果を研究会などで発表することができている。訓点そのものの自動認識についても取り組む予定であったが、この点に関しては検討のみにとどまっており実装ができていないため、今後も継続して取り組んでいく予定である。
|
今後の研究の推進方策 |
当初の計画では、2022年度が最終年度であり、この年度内に研究成果について最終的に国際発表を行いまとめる予定となっていた。しかし、コロナウイルスの影響もあり、国際発表に申し込むことができず、この点に関してまだ達成できていない。また、予算についても発表分が残っている状態である。2023年度は大幅にコロナウイルス関係の問題が改善されることが予想されるため、2022年12月において募集中であった「2023年度9月実施予定の国際会議、EAJRS2023について申し込みを行った。2023年度は、この会場での発表に向けて研究の最終的なまとめを行っていく予定である。
|