Automated Manga Transcription System for the Visually Impaired that Utilizes Emotions and Scenes
Project/Area Number |
22K12939
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90150:Medical assistive technology-related
|
Research Institution | Kinjo College |
Principal Investigator |
新井 浩 金城大学短期大学部, 美術学科, 教授 (30331557)
|
Co-Investigator(Kenkyū-buntansha) |
川邊 弘之 金城大学, 社会福祉学部, 教授 (60249167)
瀬戸 就一 金城大学短期大学部, ビジネス実務学科, 教授 (90196973)
下村 有子 金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 視覚障害 / 音訳 / マンガ / ディープラーニング / 漫符 |
Outline of Research at the Start |
本研究の目的は、視覚障害者支援のための自動マンガ音訳システムの構築である。 本システムでは、入力されたマンガ画像からセリフやナレーションを検出し、正しい順番で読み上げる。さらに、吹き出し形状や文字サイズの特徴を抑揚や間として反映させ、状況説明を加えた自動音訳を行う。2019年に読書バリアフリー法が成立し、社会的弱者であっても、平等に学習機会や知 的好奇心が満たされる社会が求められている。マンガやそれらから派生した映画などは日常 的な話題にのぼることも多く、同時代性の高い文化である。共通の文化体験を持つことは社会的孤立を防ぎ、障害者と健常者の心のバリアフリーに大きく寄与することになる。
|
Outline of Annual Research Achievements |
本研究の目的は視覚障害者のたまのマンガ自動音訳システムの構築である。2019年、日本では「読書バリアフリー法」が成立した。この法律は、視覚障害者や読書が困難な人々が快適に読書をする環境を整えるものである。社会的マイノリティでも、学習機会を失ってはならない。日本では、出版物の1/3はマンガであると言われており、人々の話題になることが多いが、視覚障害者のためのマンガ音訳は非常に少ない。 これまで絵や写真といったビジュアル表現を音訳することは、自動化することが困難であった。どらくらいの情報を翻訳するかは、翻訳者の能力に依存していた。近年、ディープラーニングの精度が飛躍的に向上し、安定した精度で写真や絵の識別が可能になったマンガの自動音訳システムにより、これまで数が少なかった共通する体験を持つことは障害者の社会的孤立を防ぐことが期待できる。 令和4年度は①マンガ音訳における適切な情報量の検討と、②吹き出しとコマの順位付け基本的な読み上げ順のルール作りを行い、読み上げシステムの構築に取り組んだ。自動音訳するにあたり、図と文字の情報量からマンガを4分類し、本システムを構築するにあたり扱いやすい作品を検討した。文字数が少ない漫画は、絵の魅力で見せる漫画が多く、絵から読み取る情報が多くなる。このようなマンガ表現は、テキストを中心に自動翻訳システムを構築しようとする本研究の方針と異なるため除外し進めることを確認した。吹き出しとコマの順位づけについては、マンガの学術研究使用を目的に公開されているデータセットであるManga109のアノテーションデータを活用し座標軸から読みとるシステムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和令和4年度は音訳に適する情報量を探るために漫画の分類を行い、従来の音訳の問題点などを確認した。テキストの読み上げシステムに関しては、ルール作りの検討に時間がかかったものの、年度末に大まかなシステムを構築した。このシステムは画像認識による吹き出しやテキストの自動検知までは到達しておらず、Manga109の中にあるアノテーションデータを活用した限定的なシステムとなっており、先行研究から従来の物体検知を早急にすすめたい。 この半年ほど、チャットGPTなど自動生成AIの登場により,ディープラーニングのアプローチが大きく変化した。我々も新しい技術をどのように取り込み、活用できるかディスカッションを重ね研究を進めている。新しい開発環境へ移行したこともあり、ディープラーニングに関する理解と技術的な壁があるが、関連論文や書籍、インターネットから情報収集を行い、試行錯誤を繰り返し進めている。この点が前進することで、2年目に予定していた「セリフがない場所や感情をあらわすコマ」のテキスト化とナレーションを付加するシステムも形が見えてくると考えている。
|
Strategy for Future Research Activity |
令和4年度に構築した読み上げシステムは、あらかじめ手動で入れていたテキストや位置情報を活用したものである。テキストや吹き出し、コマ位置なども画像認識から自動的にアノテーションデータを生成できることが理想であるが、まずは「セリフがない場所や感情をあらわすコマ」のテキスト化とナレーションシステムの構築を一番の課題とし、システム開発担当と綿密な研究計画を立て進めていく。 令和4年度はプレシステムの精度や進み具合が遅れていたことから、視覚障害者のアドバイスや検証に時間を割けずにいた。現段階では健常者が視覚を遮断し音を聞くことで視覚障害の状況を作り検証している。最終年には直に協力してもらえる。視覚障害者からのフィードバックをもらう予定である。これらの成果については、海外発表と国内発表の学会発表を予定している。
|
Report
(1 results)
Research Products
(1 results)