2023 Fiscal Year Research-status Report
Illustration text conversion system for visually impaired students
Project/Area Number |
23K11376
|
Research Institution | Kinjo University |
Principal Investigator |
川邊 弘之 金城大学, 人間社会科学部, 教授 (60249167)
|
Co-Investigator(Kenkyū-buntansha) |
下村 有子 金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
瀬戸 就一 金城大学短期大学部, ビジネス実務学科, 教授 (90196973)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 点字翻訳 / 深層学習 / 全盲学生 / 学生支援 |
Outline of Annual Research Achievements |
グラフに含まれる文字情報の検出と読み取りについて実験した。文字情報の検出と認識にはディープラーニングを用いた。OpenCVで学習済みのResNet-50とCRNN-CTCネットワークを用いて、文字の検出・認識を行うpythonスクリプトを作成し、スキャンした図形の文字検出・認識を試みた。 一部の文字は検出されなかったが、一部の領域は誤って文字とされた。軸タイトルに隣接する座標軸のスケール番号や、スケール上の一桁の数字が検出されなかった。横軸のタイトル付近の目盛数字、横軸の補助目盛線、プロットされたマーカーで文字誤検出が発生した。 縦軸のタイトル付近の目盛りの数字が検出されず、1つの数字の塊として解釈されるのは、文字と数字の間隔が狭いと検出がうまくいかないことを示している。ResNetは1文字検出型のネットワークモデルであるため、上記のような結果になったと思われる。このようなネットワークモデルから多文字同時検出型のネットワークモデルに変更すれば、検出精度の向上が期待できる。なお、プロットされたマーカーを文字とみなさないようにするためには、ネットワークモデルを学習させる教師データの量を増やし、マーカーに対して否定学習を行う必要がある。 テキスト認識では、RCNN-CTCは単語辞書に含まれないギリシャ文字や単位記号の認識を試みるが、誤った結果を与えた。単語を構成する文字が正しく検出されれば、単語辞書にない単語以外は正しく認識されたことになる。 CRNN-CTCはうまく機能した。参照する単語辞書を拡張することで、より正確な単語認識を期待できる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初、1年目は、種々の教科書やウェブ サイトからグラフを集め、電子化しそれらにキャプションや座標軸 、その数値、凡例等の文字情報、値の傾向やピークや谷の位置等、概形に関する情報を付加し(アノテーション)、教師データを作る予定であった。だが、文字検出・認識に関し、OpenCVで学習済みのResNet-50とCRNN-CTCネットワークが公開されていたため、2年目の予定していた一部の研究を前倒しして、上記ネットワークを用いスキャンした図形の文字検出・認識を試みた。単語辞書の拡充により、より正確な単語認識を期待できることがわかった。
|
Strategy for Future Research Activity |
グラフの教師データをもとに、グラフの概形を識別し、適切な文字表現を与えるネットワークモデルを作る。入力はグラフの図形、出力は「単調に増加している」「ピークがある」「ロングテールになっている」等の文字列である。既存のimage2textのネットワークモデルを我々の教師データでFine Tuningすることで実現する。
|
Causes of Carryover |
システム開発用タワー型ワークステーションの納品が年度を超えてしまった。そのため差額が生じた、また、増設メモリも未購入で購入は翌年度送りとなった。両者とも、今年度購入予定である。また、国際会議への渡航費を計上していたが、当方の都合により急遽、オンライン参加となり、渡航費を執行しなかった。
|