視覚障害学生のためのグラフ等の図版文字化システム

研究課題

研究課題/領域番号	23K11376
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62030:学習支援システム関連
研究機関	金城大学
研究代表者	川邊弘之金城大学, 人間社会科学部, 教授 (60249167)
研究分担者	下村有子金沢大学, 設計製造技術研究所, 研究協力員 (70171006) 瀬戸就一金城大学短期大学部, ビジネス実務学科, 教授 (90196973)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2024年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2023年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	点字翻訳 / 深層学習 / 全盲学生 / 学生支援 / 文章生成 / 画像認識
研究開始時の研究の概要	全盲学生は大学に入学すると、教科書、参考書など多くの点字の本が必要になる。我々は深層学習を利用して、学生点訳ボランティアが容易に使える点字への翻訳システムを構築したが、図版、特にグラフの説明の文字化が未着手であった。表の読み上げ機能は既に実用化されているが、グラフではそのタイトルの提示程度で、示された内容の解説がなされていない。本研究では図版、特にグラフの解説文の作成に深層学習を導入する。深層学習をグラフの内容を文章化する部分に適用する。そして、我々の点字翻訳システムをグラフの読解に対応させ、全盲学生が健常学生と同等に学修できるようにする。
研究実績の概要	グラフに含まれる文字情報の検出と読み取りについて実験した。文字情報の検出と認識にはディープラーニングを用いた。OpenCVで学習済みのResNet-50とCRNN-CTCネットワークを用いて、文字の検出・認識を行うpythonスクリプトを作成し、スキャンした図形の文字検出・認識を試みた。一部の文字は検出されなかったが、一部の領域は誤って文字とされた。軸タイトルに隣接する座標軸のスケール番号や、スケール上の一桁の数字が検出されなかった。横軸のタイトル付近の目盛数字、横軸の補助目盛線、プロットされたマーカーで文字誤検出が発生した。縦軸のタイトル付近の目盛りの数字が検出されず、1つの数字の塊として解釈されるのは、文字と数字の間隔が狭いと検出がうまくいかないことを示している。ResNetは1文字検出型のネットワークモデルであるため、上記のような結果になったと思われる。このようなネットワークモデルから多文字同時検出型のネットワークモデルに変更すれば、検出精度の向上が期待できる。なお、プロットされたマーカーを文字とみなさないようにするためには、ネットワークモデルを学習させる教師データの量を増やし、マーカーに対して否定学習を行う必要がある。テキスト認識では、RCNN-CTCは単語辞書に含まれないギリシャ文字や単位記号の認識を試みるが、誤った結果を与えた。単語を構成する文字が正しく検出されれば、単語辞書にない単語以外は正しく認識されたことになる。 CRNN-CTCはうまく機能した。参照する単語辞書を拡張することで、より正確な単語認識を期待できる。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初、１年目は、種々の教科書やウェブサイトからグラフを集め、電子化しそれらにキャプションや座標軸、その数値、凡例等の文字情報、値の傾向やピークや谷の位置等、概形に関する情報を付加し(アノテーション)、教師データを作る予定であった。だが、文字検出・認識に関し、OpenCVで学習済みのResNet-50とCRNN-CTCネットワークが公開されていたため、２年目の予定していた一部の研究を前倒しして、上記ネットワークを用いスキャンした図形の文字検出・認識を試みた。単語辞書の拡充により、より正確な単語認識を期待できることがわかった。
今後の研究の推進方策	グラフの教師データをもとに、グラフの概形を識別し、適切な文字表現を与えるネットワークモデルを作る。入力はグラフの図形、出力は「単調に増加している」「ピークがある」「ロングテールになっている」等の文字列である。既存のimage2textのネットワークモデルを我々の教師データでFine Tuningすることで実現する。

報告書

(1件)

2023 実施状況報告書

研究成果
(3件)

すべて 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) (うち国際学会 1件) 図書 (1件)

[雑誌論文] Recognizing graph elements using deep learning for visually impaired students2023
- 著者名/発表者名
  H. Kawabe, Y. Shimomura and S. Seto
- 雑誌名
  
  Proceedings of the 23rd Asia Pacific Industrial Engineering & Management Systems Conference
  
  巻: - ページ: 302-303
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] Recognizing graph elements using deep learning for visually impaired students2023
- 著者名/発表者名
  H. Kawabe, Y. Shimomura and S. Seto
- 学会等名
  The 23rd Asia Pacific Industrial Engineering & Management Systems Conference
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[図書] Proceeding 23rd Asia Pacific Industrial Engineering & Management System2023
- 著者名/発表者名
  Mohd Helmi Ali, Asma Qamaliah Abdul Hamid and Mazzlida Mat Deli
- 総ページ数
  349
- 出版者
  UKM-Graduate School of Business Universiti Kebangsaan Malaysia
- ISBN
  9789671785614
- 関連する報告書
  2023 実施状況報告書

視覚障害学生のためのグラフ等の図版文字化システム

研究代表者

川邊 弘之 金城大学, 人間社会科学部, 教授 (60249167)

4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Recognizing graph elements using deep learning for visually impaired students2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Recognizing graph elements using deep learning for visually impaired students2023

著者名/発表者名

学会等名

関連する報告書

[図書] Proceeding 23rd Asia Pacific Industrial Engineering & Management System2023

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

川邊弘之金城大学, 人間社会科学部, 教授 (60249167)