2023 Fiscal Year Research-status Report
Automated Manga Transcription System for the Visually Impaired that Utilizes Emotions and Scenes
Project/Area Number |
22K12939
|
Research Institution | Kinjo College |
Principal Investigator |
新井 浩 金城大学短期大学部, 美術学科, 教授 (30331557)
|
Co-Investigator(Kenkyū-buntansha) |
川邊 弘之 金城大学, 人間社会科学部, 教授 (60249167)
瀬戸 就一 金城大学短期大学部, ビジネス実務学科, 教授 (90196973)
下村 有子 金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 視覚障害 / マンガ / 音訳 / ディープラーニング |
Outline of Annual Research Achievements |
日本では2019年に読書バリアフリー法が成立し、社会的弱者であっても平等に学習機会や知的好奇心が満たされる社会が求められている。視覚障害者の読書支援には、点字や音訳などが用いられている。 本来、音訳とは読み手が自分の解釈を入れずに、視覚障害者が元の文書の内容を漏れなくそのまま理解できるようにすることであり、読み手の主観や解釈を排除することが求められる。一方で音訳はその多くがボランティアによって音声化されてきたため、新たな要望があっても迅速に対応することが難しい。近年は、電子書籍の普及に伴い、スマートフォン等の自動読み上げ機能が多く使われているが、テキスト化されていない本や図の多い本には対応が難しいのが現状である。
本研究の目的は、視覚障害者支援のためのマンガ自動音訳システムの構築である。従来の音訳とはやや設計思想が異なるが、視覚障害者にマンガを気軽に触れてもらうことが最大の目標である。自動化されることで、膨大な過去作品のアーカイブに触れることができる。また、日本においては、マンガから派生したコンテンツは非常に多く存在し、日常的な話題に上ることが多い。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することも期待できる。
昨年度おこなったシステム構築のための基礎研究を踏まえ、令和5年度はManga109(学術目的で使用されることを目的に公開されたマンガデータセット)のアノテーションデータを用い、コマと吹き出しの位置関係から適切な順番でセリフを読み上げるマンガ読み上げシステムを構築した。また、複数のボイスシンセサイザーによる読み上げ時の印象についても検討を行った。これらの成果について一件の海外発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和5年度に行った手動で付加したアノテーションデータを用い、各コマの座標情報を元にコマの配置を把握し、読み順を出力することができた。令和4年度に行った基礎研究と合わせて、テキストと画像認識を用いた自動音訳システムの構想は大まかに形が見えてきた。一方で、YOLOv5などのオブジェクト検出モデルを使った漫画内オブジェクトの検出の精度が上がらず苦戦している。当初は、先行研究や複数の参照モデルを利用することで実現できると考えていたが、学内業務と並行する中で十分なエフォートを確保できておらず危機感をもっている。システム開発担当には引き続きモデル作成を進めてもらい、最終的にテキストとして提示する際のルールづくりを進めている。 また、学会発表後にデータ形式を変更し再度提出を求められていたが、勘違いから期日を過ぎてしまい発表のみの実績となっている。
|
Strategy for Future Research Activity |
今年度の研究において、ディープラーニングによる画像検知の精度が十分にあがらず進捗は思わしくない。これら画像認識に進展があればシステム完成へむけ大きく前進する。先行研究調査や情報系学会へ参加等、完成へむけた知識のアップデートと行いながら引き続きシステム開発を行う。また一方で令和6年5月に公開されたChatGPT-4.0において、画像認識率の飛躍的な向上が見られた。プロンプトの適正化により、これまで苦戦していた文字の読み上げや画像のテキスト化の実現に大きな期待をもてる結果があった。これらの活用を取り入れる手法を模索しつつ、これまで構築を試みてきた教師用データを活用した画像認識、双方の検証を行なっていく。 AI技術の発展が我々の想像以上の結果を出している。ディープラーニングによる物体検知を活用するという手段は変更することになるかもしれないが、最終的に構想していたシステム構築が可能であると考えている。
|
Causes of Carryover |
令和4年度にiPadpro 令和5年度にiMac27inch3.8Ghzを計上していた。ディープラーニングによる画像認識の精度があがらずこの点について研究を進めていた。最終的なインターフェースの構築まで十分に進展しなかったこともあり、新型iPadに搭載されると予想されるM4チップモデルの検討も考慮し、最終年度の購入とした。
|