2020 Fiscal Year Research-status Report
Project/Area Number |
20K00654
|
Research Institution | Gifu National College of Technology |
Principal Investigator |
田島 孝治 岐阜工業高等専門学校, その他部局等, 准教授 (90611640)
|
Co-Investigator(Kenkyū-buntansha) |
堤 智昭 筑波大学, 人文社会系, 助教 (80759035)
小助川 貞次 富山大学, 学術研究部人文科学系, 教授 (20201486)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (90415612)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 訓点資料 / 書き下し文の自動生成 / 可用性の向上 |
Outline of Annual Research Achievements |
本年度は新型コロナウイルスの広がりもあり、十分な打ち合わせと、資料を確認しながらの作業ができなかったため、当初の目標とは順番をやや変更して研究を進めた。具体的には、『尚書(古活字版)』の文字認識における、翻刻データおよび訓点DBの有効性の検証を中心に作業を行った。本研究の最終目標である、漢文訓点資料の機械学習と自動認識を行うためには、資料画像に付与された訓点を計算機に自動認識させることが欠かせない。このためには、画像中から文字と訓点を適切に抽出する必要がある。 本年度は、文字の自動認識エンジンに訓点資料の画像を読み込ませ、どの程度正確に認識できるかを中心に分析を進めた。訓点資料の画像からの文字認識には、(1)漢文資料に現れる異体字が登録されていない、(2)ヲコト点に代表される訓点が文字認識精度を落としてしまう、という課題がある。一方で、資料の翻刻データは既に作られていることが多く、これを利用することで「文字を認識する」のではなく、「ノイズの多い状況で文字の位置を認識する」ことができれば、今回の目標を達成できる可能性が高い。現在のところ、翻刻データから行の情報を取り出し活用することで、割注に記された文字の認識精度が上がることは確認でき、全体わたる実験を行っている途中である。 一方で、訓点の情報をデータベース化し、統計データや個々の資料に書かれたデータを自由に取り出せる枠組みがあれば、訓点そのものの認識精度も高めることができると考えられる。そこで、この訓点情報をカテゴリを分けて整理して格納したうえで、Web APIを用いて情報を取り出すことのできるデータベースを整備した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2020年度は新型コロナウイルス対策のための業務が立て込み十分に研究・開発時間が取れなかったことに加え、業務のための機材、研究資料の閲覧がリモート勤務となり半年以上できなかったため、進捗はやや遅れている。共同研究者との打ち合わせに関しては、リモートで行える体制は整ったものの、首都圏では大学・研究所に通勤できない状況もあり、スムーズな開発には至っていない。2021年度もこの状況は続くと思われるので、これらの対策として、ソフトウェアの開発を仮想基盤上で行えるように、整備を行っていく予定である。本研究の発表先として海外で開催される学会を予定していたが、これに関しても渡航が認められていないため実施は困難である。しかしながら、オンラインでの開催が多く予定されているため、旅費を上記の費用に置き換えることで、成果の発表は実施可能であると考えている。
|
Strategy for Future Research Activity |
オンラインでの打ち合わせ、発表、成果の共有を前提に研究・開発を進めていく。特に2021年度は昨年度実現しなかった、当初目標である「①『尚書(古活字版)』に対する語順点、仮名点を反映させた書き下し文の生成」の実現を目指す。一方で、資料を電子化し、他の研究者も活用可能にするためのデータベース構築については、一定の成果が得られているので学会論文や国際会議での発表を行いたいと考えている。さらに、昨年度検討した、文字と訓点の自動認識についてもデータベースを活用する方法を実現し、その有効性を検証していく予定である。
|
Causes of Carryover |
2020年度に関しては出張が一切認められず、旅費が発生しなかった。学会発表についてもオンラインで実施されたため、これに対応するための物品を購入し費用としては物品購入費のみであった。残金は2021年度以降の旅費、開発をリモートで進めるための仮想基盤の利用費用、および開発を効率的に進めるための謝金として利用することを考えている。
|
Research Products
(2 results)