• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Automated Manga Transcription System for the Visually Impaired that Utilizes Emotions and Scenes

Research Project

Project/Area Number 22K12939
Research InstitutionKinjo College

Principal Investigator

新井 浩  金城大学短期大学部, 美術学科, 教授 (30331557)

Co-Investigator(Kenkyū-buntansha) 川邊 弘之  金城大学, 社会福祉学部, 教授 (60249167)
瀬戸 就一  金城大学短期大学部, ビジネス実務学科, 教授 (90196973)
下村 有子  金沢大学, 設計製造技術研究所, 研究協力員 (70171006)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords視覚障害 / 音訳 / マンガ / ディープラーニング
Outline of Annual Research Achievements

本研究の目的は視覚障害者のたまのマンガ自動音訳システムの構築である。2019年、日本では「読書バリアフリー法」が成立した。この法律は、視覚障害者や読書が困難な人々が快適に読書をする環境を整えるものである。社会的マイノリティでも、学習機会を失ってはならない。日本では、出版物の1/3はマンガであると言われており、人々の話題になることが多いが、視覚障害者のためのマンガ音訳は非常に少ない。
これまで絵や写真といったビジュアル表現を音訳することは、自動化することが困難であった。どらくらいの情報を翻訳するかは、翻訳者の能力に依存していた。近年、ディープラーニングの精度が飛躍的に向上し、安定した精度で写真や絵の識別が可能になったマンガの自動音訳システムにより、これまで数が少なかった共通する体験を持つことは障害者の社会的孤立を防ぐことが期待できる。
令和4年度は①マンガ音訳における適切な情報量の検討と、②吹き出しとコマの順位付け基本的な読み上げ順のルール作りを行い、読み上げシステムの構築に取り組んだ。自動音訳するにあたり、図と文字の情報量からマンガを4分類し、本システムを構築するにあたり扱いやすい作品を検討した。文字数が少ない漫画は、絵の魅力で見せる漫画が多く、絵から読み取る情報が多くなる。このようなマンガ表現は、テキストを中心に自動翻訳システムを構築しようとする本研究の方針と異なるため除外し進めることを確認した。吹き出しとコマの順位づけについては、マンガの学術研究使用を目的に公開されているデータセットであるManga109のアノテーションデータを活用し座標軸から読みとるシステムを開発した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

令和令和4年度は音訳に適する情報量を探るために漫画の分類を行い、従来の音訳の問題点などを確認した。テキストの読み上げシステムに関しては、ルール作りの検討に時間がかかったものの、年度末に大まかなシステムを構築した。このシステムは画像認識による吹き出しやテキストの自動検知までは到達しておらず、Manga109の中にあるアノテーションデータを活用した限定的なシステムとなっており、先行研究から従来の物体検知を早急にすすめたい。
この半年ほど、チャットGPTなど自動生成AIの登場により,ディープラーニングのアプローチが大きく変化した。我々も新しい技術をどのように取り込み、活用できるかディスカッションを重ね研究を進めている。新しい開発環境へ移行したこともあり、ディープラーニングに関する理解と技術的な壁があるが、関連論文や書籍、インターネットから情報収集を行い、試行錯誤を繰り返し進めている。この点が前進することで、2年目に予定していた「セリフがない場所や感情をあらわすコマ」のテキスト化とナレーションを付加するシステムも形が見えてくると考えている。

Strategy for Future Research Activity

令和4年度に構築した読み上げシステムは、あらかじめ手動で入れていたテキストや位置情報を活用したものである。テキストや吹き出し、コマ位置なども画像認識から自動的にアノテーションデータを生成できることが理想であるが、まずは「セリフがない場所や感情をあらわすコマ」のテキスト化とナレーションシステムの構築を一番の課題とし、システム開発担当と綿密な研究計画を立て進めていく。
令和4年度はプレシステムの精度や進み具合が遅れていたことから、視覚障害者のアドバイスや検証に時間を割けずにいた。現段階では健常者が視覚を遮断し音を聞くことで視覚障害の状況を作り検証している。最終年には直に協力してもらえる。視覚障害者からのフィードバックをもらう予定である。これらの成果については、海外発表と国内発表の学会発表を予定している。

Causes of Carryover

令和4年度は研究成果が遅れていたこと、海外発表の渡航費が予想している以上に高額であったこともあり、当初予定していた国内の学会発表を一件キャンセルした。また購入予定であったグラフィックボードとメモリが当初予定していた金額を超えていた。研究の進捗の遅れからすぐに必要がなかったこともあり、次年度予算でまとめて購入することとした。令和5年度は国内発表ならびに情報収集のための学会発表を積極的に行う。

  • Research Products

    (1 results)

All 2022

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Automated Manga Transcription System for the Visually Impaired Focusing on Speech balloons and Scenes2022

    • Author(s)
      Hiroshi Arai, Yuko Shimomura, Shuichi Seto, Hiroyuki Kawabe
    • Organizer
      Asia Pacific Industrial Engineering and Management Society Programme and Abstract Proceedings The 2022 Asia Pacific Industrial Engineering & Management Systems Conference (APIEMS2022)
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi