Automated Manga Transcription System for the Visually Impaired that Utilizes Emotions and Scenes

Research Project

Project/Area Number	22K12939
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90150:Medical assistive technology-related
Research Institution	Kinjo College
Principal Investigator	新井浩金城大学短期大学部, 美術学科, 教授 (30331557)
Co-Investigator(Kenkyū-buntansha)	川邊弘之金城大学, 人間社会科学部, 教授 (60249167) 瀬戸就一金城大学短期大学部, ビジネス実務学科, 教授 (90196973) 下村有子金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	視覚障害 / マンガ / 音訳 / ディープラーニング / 漫符
Outline of Research at the Start	本研究の目的は、視覚障害者支援のための自動マンガ音訳システムの構築である。本システムでは、入力されたマンガ画像からセリフやナレーションを検出し、正しい順番で読み上げる。さらに、吹き出し形状や文字サイズの特徴を抑揚や間として反映させ、状況説明を加えた自動音訳を行う。2019年に読書バリアフリー法が成立し、社会的弱者であっても、平等に学習機会や知的好奇心が満たされる社会が求められている。マンガやそれらから派生した映画などは日常的な話題にのぼることも多く、同時代性の高い文化である。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することになる。
Outline of Annual Research Achievements	日本では2019年に読書バリアフリー法が成立し、社会的弱者であっても平等に学習機会や知的好奇心が満たされる社会が求められている。視覚障害者の読書支援には、点字や音訳などが用いられている。本来、音訳とは読み手が自分の解釈を入れずに、視覚障害者が元の文書の内容を漏れなくそのまま理解できるようにすることであり、読み手の主観や解釈を排除することが求められる。一方で音訳はその多くがボランティアによって音声化されてきたため、新たな要望があっても迅速に対応することが難しい。近年は、電子書籍の普及に伴い、スマートフォン等の自動読み上げ機能が多く使われているが、テキスト化されていない本や図の多い本には対応が難しいのが現状である。本研究の目的は、視覚障害者支援のためのマンガ自動音訳システムの構築である。従来の音訳とはやや設計思想が異なるが、視覚障害者にマンガを気軽に触れてもらうことが最大の目標である。自動化されることで、膨大な過去作品のアーカイブに触れることができる。また、日本においては、マンガから派生したコンテンツは非常に多く存在し、日常的な話題に上ることが多い。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することも期待できる。昨年度おこなったシステム構築のための基礎研究を踏まえ、令和5年度はManga109（学術目的で使用されることを目的に公開されたマンガデータセット）のアノテーションデータを用い、コマと吹き出しの位置関係から適切な順番でセリフを読み上げるマンガ読み上げシステムを構築した。また、複数のボイスシンセサイザーによる読み上げ時の印象についても検討を行った。これらの成果について一件の海外発表を行った。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 令和5年度に行った手動で付加したアノテーションデータを用い、各コマの座標情報を元にコマの配置を把握し、読み順を出力することができた。令和4年度に行った基礎研究と合わせて、テキストと画像認識を用いた自動音訳システムの構想は大まかに形が見えてきた。一方で、YOLOv5などのオブジェクト検出モデルを使った漫画内オブジェクトの検出の精度が上がらず苦戦している。当初は、先行研究や複数の参照モデルを利用することで実現できると考えていたが、学内業務と並行する中で十分なエフォートを確保できておらず危機感をもっている。システム開発担当には引き続きモデル作成を進めてもらい、最終的にテキストとして提示する際のルールづくりを進めている。また、学会発表後にデータ形式を変更し再度提出を求められていたが、勘違いから期日を過ぎてしまい発表のみの実績となっている。
Strategy for Future Research Activity	今年度の研究において、ディープラーニングによる画像検知の精度が十分にあがらず進捗は思わしくない。これら画像認識に進展があればシステム完成へむけ大きく前進する。先行研究調査や情報系学会へ参加等、完成へむけた知識のアップデートと行いながら引き続きシステム開発を行う。また一方で令和6年5月に公開されたChatGPT-4.0において、画像認識率の飛躍的な向上が見られた。プロンプトの適正化により、これまで苦戦していた文字の読み上げや画像のテキスト化の実現に大きな期待をもてる結果があった。これらの活用を取り入れる手法を模索しつつ、これまで構築を試みてきた教師用データを活用した画像認識、双方の検証を行なっていく。 AI技術の発展が我々の想像以上の結果を出している。ディープラーニングによる物体検知を活用するという手段は変更することになるかもしれないが、最終的に構想していたシステム構築が可能であると考えている。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(2 results)

All 2023 2022

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Presentation] Technical difficulties in Automatic Manga Transcription Systems2023
- Author(s)
  Hiroshi Arai, Syuichi Seto, Yuko Shimomura, Hiroyuki Kawabe
- Organizer
  23rd Asia Pacific Industrial Engineering & Management System Conference(APIEMS 2023)
- Related Report
  2023 Research-status Report
[Presentation] Automated Manga Transcription System for the Visually Impaired Focusing on Speech balloons and Scenes2022
- Author(s)
  Hiroshi Arai, Yuko Shimomura, Shuichi Seto, Hiroyuki Kawabe
- Organizer
  Asia Pacific Industrial Engineering and Management Society Programme and Abstract Proceedings The 2022 Asia Pacific Industrial Engineering & Management Systems Conference (APIEMS2022)
- Related Report
  2022 Research-status Report
- Int'l Joint Research

Automated Manga Transcription System for the Visually Impaired that Utilizes Emotions and Scenes

Principal Investigator

新井 浩 金城大学短期大学部, 美術学科, 教授 (30331557)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Technical difficulties in Automatic Manga Transcription Systems2023

Author(s)

Organizer

Related Report

[Presentation] Automated Manga Transcription System for the Visually Impaired Focusing on Speech balloons and Scenes2022

Author(s)

Organizer

Related Report

新井浩金城大学短期大学部, 美術学科, 教授 (30331557)