Project/Area Number |
20K00654
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | Gifu National College of Technology |
Principal Investigator |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
Co-Investigator(Kenkyū-buntansha) |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (90415612)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 訓点資料 / データベース / 自動解析 / 書き下し文 / 書き下し文の自動生成 / 訓点データベース / 訓点の自動抽出 / 可用性の向上 / 訓点資料の可用性の向上 |
Outline of Research at the Start |
本研究では、漢文訓点資料の研究利用の促進や、一般の人々にもわかりやすい歴史資料としての提供を目的に、現状では難しい漢文訓点資料のカメラ画像からのテキスト認識、訓点認識、書き下し文生成の実現に向けての検討を行う。具体的には次の3種類を順に実施していく。 ①国立国語研蔵『尚書(古活字版第三種本)』に対する語順点、仮名点を反映させた書き下し文の生成 ②他の漢文訓点資料の電子化方式の検討と書き下し文生成 ③漢文訓点資料を機械学習させ、訓点情報を自動認識する方式の検討
|
Outline of Annual Research Achievements |
本研究では、訓点とともに電子化した漢文訓点資料の書き下し文を、コンピュータを用いて自動的に生成することを目的として研究を進めてきた。最終年度である2022年度では、これまでに電子化された従来の研究成果を活用し、漢文訓点資料の自動的な電子化とそこからの書き下し文生成を目的としていた。 具体的な成果としては、資料画像からの文字位置の抽出が実現できた。書き下し文の生成に関しては、訓点の一部を使って機械的に生成することには成功した。当初の目標として「漢文訓点資料の電子化結果を機械学習させる」というものがあったが、今回の実験においては機械学習までは至らなかったが、ページごとの初期パラメータを与えることで、すべての文字を抽出することは可能となった。初期パラメータは最初の文字の位置、大きさ、行の幅であるため、このパラメータを自動推測するための仕組みについて検討していくことで、機械学習による文字の検出と電子化については実現できると思われる。 来年度は研究成果としては国内学会発表1本にとどまっており、コロナウイルス関係の問題により海外発表が実現できていない。このため、研究期間を1年延長し、国際発表できることを目標として研究を継続していく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定通り、国立国語研究所所蔵の『尚書』については詳細なデータを用いた、文字の自動認識、機械的な書き下し文の生成、そのデータベースの構築が完了し、成果を研究会などで発表することができている。訓点そのものの自動認識についても取り組む予定であったが、この点に関しては検討のみにとどまっており実装ができていないため、今後も継続して取り組んでいく予定である。
|
Strategy for Future Research Activity |
当初の計画では、2022年度が最終年度であり、この年度内に研究成果について最終的に国際発表を行いまとめる予定となっていた。しかし、コロナウイルスの影響もあり、国際発表に申し込むことができず、この点に関してまだ達成できていない。また、予算についても発表分が残っている状態である。2023年度は大幅にコロナウイルス関係の問題が改善されることが予想されるため、2022年12月において募集中であった「2023年度9月実施予定の国際会議、EAJRS2023について申し込みを行った。2023年度は、この会場での発表に向けて研究の最終的なまとめを行っていく予定である。
|
Report
(3 results)
Research Products
(6 results)