深層学習による能楽謡本の翻刻および音楽情報の再現：新たなディジタル謡本への展開

Research Project

Project/Area Number	22K00334
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 02010:Japanese literature-related
Research Institution	National Institute of Technology, Toyota College
Principal Investigator	早坂太一豊田工業高等専門学校, 情報工学科, 教授 (50314092)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000) Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	深層学習 / 能楽 / 謡本 / くずし字 / メディアアーカイブ
Outline of Research at the Start	本研究では、能楽謡本の画像データから、くずし字および音楽情報を表す記号の画像データを抽出すると共に、歌唱データを分割して音素データとし、くずし字と音楽情報を表す記号の画像データとの紐付けを行うことで、深層学習により、謡における相対的な音高の変化を再現できる人工知能モデルを構築し、謡本から詞章および音楽情報を再現できるアプリケーション・ソフトウェアを開発する。
Outline of Annual Research Achievements	能の歌唱を謡という。謡を稽古するための教本は謡本と呼ばれ、詞章に節や拍子を表す記号を傍記したものである。歴史的な謡本の詞章はくずし字で書かれ、音楽情報を表す記号についても音楽体系が西洋音楽と全く異なり、西洋音楽における楽譜として表すことはほとんどできないため、初見で理解することは不可能である。本研究では、深層学習を利用して、謡本から詞章および音楽情報を再現するアプリケーション・ソフトウェアを開発することを目的とする。具体的には、謡本における詞章および音楽情報を表す記号をモデルに対する入力画像として読み込み、能楽師の実演から得られた音素に対する相対的音高データを出力とする人工知能モデルを学習させることで、記号だけでは正確に表現できない音楽情報をコンピュータにより再現する、ディジタル化された謡本を創造することに挑戦する。本研究のように、プロフェッショナルな方々が持つ暗黙知を形式化し、素人でも理解可能なように再現する技術を開発することは、徒弟制度を発展させ、古くから伝わる伝統芸能を未来へ繋ぐために必要であると考えられる。本研究では、シテ方五流の中でも豪快かつ優美な舞を誇る「金剛流」の能楽師である田中敏文氏にご協力を仰ぎ、その謡本を対象とする。深層学習に用いるくずし字および音楽情報を表す記号の画像データを用意する必要があるため、令和5年度は、昨年度アノテーション作業を行ったくずし字および音楽情報を表す記号の画像データと音楽データを組み合わせた、マルチモーダル型の深層学習モデルの構築に取り組んだ。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason MultiModal-InfoMaxをはじめとしたマルチモーダル型のモデルの構築を進めているが、学習がうまく進んでいない。
Strategy for Future Research Activity	音源メディアから得られた歌唱データを分割して音素データとし、くずし字と音楽情報を表す記号の画像データとの紐付け(ラベリング)を行う。そして、抽出された画像を入力データ、現代文字にテキスト化された詞章および音素データの相対的な音高を出力データとして深層学習を行う。謡本および音源データから抽出された大量の学習データに含まれる、能楽師が有する多種多様な暗黙知をネットワークに蓄積させ、伝統的な謡における音高の揺れや変化を再現する。音源のない謡(テストデータ)に対する詞章については正解率を90%以上まで、音高については知覚尺度による満足度を80%以上まで達成することを目標とする。さらに、ノートパソコンやタブレット端末に謡本の画像データを取り込むと、くずし字の翻刻および音楽情報の再現を行う基本仕様を設計し、人工知能モデルを組み込んだアプリケーション・ソフトウェアを開発する。試作したソフトウェアに対して、関係する方々に評価をいただき、その結果を受けて改良する工程を繰り返し実施する。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report