感情と情景に着目した視覚障害者のためのマンガ自動音訳システム

研究課題

研究課題/領域番号	22K12939
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90150:医療福祉工学関連
研究機関	金城大学短期大学部
研究代表者	新井浩金城大学短期大学部, 美術学科, 教授 (30331557)
研究分担者	川邊弘之金城大学, 人間社会科学部, 教授 (60249167) 瀬戸就一金城大学短期大学部, ビジネス実務学科, 教授 (90196973) 下村有子金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	視覚障害 / マンガ / 音訳 / ディープラーニング / 漫符
研究開始時の研究の概要	本研究の目的は、視覚障害者支援のための自動マンガ音訳システムの構築である。本システムでは、入力されたマンガ画像からセリフやナレーションを検出し、正しい順番で読み上げる。さらに、吹き出し形状や文字サイズの特徴を抑揚や間として反映させ、状況説明を加えた自動音訳を行う。2019年に読書バリアフリー法が成立し、社会的弱者であっても、平等に学習機会や知的好奇心が満たされる社会が求められている。マンガやそれらから派生した映画などは日常的な話題にのぼることも多く、同時代性の高い文化である。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することになる。
研究実績の概要	日本では2019年に読書バリアフリー法が成立し、社会的弱者であっても平等に学習機会や知的好奇心が満たされる社会が求められている。視覚障害者の読書支援には、点字や音訳などが用いられている。本来、音訳とは読み手が自分の解釈を入れずに、視覚障害者が元の文書の内容を漏れなくそのまま理解できるようにすることであり、読み手の主観や解釈を排除することが求められる。一方で音訳はその多くがボランティアによって音声化されてきたため、新たな要望があっても迅速に対応することが難しい。近年は、電子書籍の普及に伴い、スマートフォン等の自動読み上げ機能が多く使われているが、テキスト化されていない本や図の多い本には対応が難しいのが現状である。本研究の目的は、視覚障害者支援のためのマンガ自動音訳システムの構築である。従来の音訳とはやや設計思想が異なるが、視覚障害者にマンガを気軽に触れてもらうことが最大の目標である。自動化されることで、膨大な過去作品のアーカイブに触れることができる。また、日本においては、マンガから派生したコンテンツは非常に多く存在し、日常的な話題に上ることが多い。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することも期待できる。昨年度おこなったシステム構築のための基礎研究を踏まえ、令和5年度はManga109（学術目的で使用されることを目的に公開されたマンガデータセット）のアノテーションデータを用い、コマと吹き出しの位置関係から適切な順番でセリフを読み上げるマンガ読み上げシステムを構築した。また、複数のボイスシンセサイザーによる読み上げ時の印象についても検討を行った。これらの成果について一件の海外発表を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由令和5年度に行った手動で付加したアノテーションデータを用い、各コマの座標情報を元にコマの配置を把握し、読み順を出力することができた。令和4年度に行った基礎研究と合わせて、テキストと画像認識を用いた自動音訳システムの構想は大まかに形が見えてきた。一方で、YOLOv5などのオブジェクト検出モデルを使った漫画内オブジェクトの検出の精度が上がらず苦戦している。当初は、先行研究や複数の参照モデルを利用することで実現できると考えていたが、学内業務と並行する中で十分なエフォートを確保できておらず危機感をもっている。システム開発担当には引き続きモデル作成を進めてもらい、最終的にテキストとして提示する際のルールづくりを進めている。また、学会発表後にデータ形式を変更し再度提出を求められていたが、勘違いから期日を過ぎてしまい発表のみの実績となっている。
今後の研究の推進方策	今年度の研究において、ディープラーニングによる画像検知の精度が十分にあがらず進捗は思わしくない。これら画像認識に進展があればシステム完成へむけ大きく前進する。先行研究調査や情報系学会へ参加等、完成へむけた知識のアップデートと行いながら引き続きシステム開発を行う。また一方で令和6年5月に公開されたChatGPT-4.0において、画像認識率の飛躍的な向上が見られた。プロンプトの適正化により、これまで苦戦していた文字の読み上げや画像のテキスト化の実現に大きな期待をもてる結果があった。これらの活用を取り入れる手法を模索しつつ、これまで構築を試みてきた教師用データを活用した画像認識、双方の検証を行なっていく。 AI技術の発展が我々の想像以上の結果を出している。ディープラーニングによる物体検知を活用するという手段は変更することになるかもしれないが、最終的に構想していたシステム構築が可能であると考えている。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(2件)

すべて 2023 2022

すべて学会発表 (2件) (うち国際学会 1件)

[学会発表] Technical difficulties in Automatic Manga Transcription Systems2023
- 著者名/発表者名
  Hiroshi Arai, Syuichi Seto, Yuko Shimomura, Hiroyuki Kawabe
- 学会等名
  23rd Asia Pacific Industrial Engineering & Management System Conference(APIEMS 2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] Automated Manga Transcription System for the Visually Impaired Focusing on Speech balloons and Scenes2022
- 著者名/発表者名
  Hiroshi Arai, Yuko Shimomura, Shuichi Seto, Hiroyuki Kawabe
- 学会等名
  Asia Pacific Industrial Engineering and Management Society Programme and Abstract Proceedings The 2022 Asia Pacific Industrial Engineering & Management Systems Conference (APIEMS2022)
- 関連する報告書
  2022 実施状況報告書
- 国際学会

感情と情景に着目した視覚障害者のためのマンガ自動音訳システム

研究代表者

新井 浩 金城大学短期大学部, 美術学科, 教授 (30331557)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Technical difficulties in Automatic Manga Transcription Systems2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automated Manga Transcription System for the Visually Impaired Focusing on Speech balloons and Scenes2022

著者名/発表者名

学会等名

関連する報告書

新井浩金城大学短期大学部, 美術学科, 教授 (30331557)