Project/Area Number |
22K17952
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tohoku University of Community Service and Science |
Principal Investigator |
ノヴァコフスキ カロル 東北公益文科大学, 公私立大学の部局等, 講師 (90897860)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2026: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2022: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 音声認識技術 / 樺太アイヌ語 / 自然言語処理 / 危機言語 / 言語記録保存 / マルチリンガル学習 / 半教師あり学習 / 機械学習 / 言語の記録保存 / 事前学習済みモデル |
Outline of Research at the Start |
事前学習済み音声解析モデルを応用し、音声データ解析の負担による研究の長期化という課題に取組み、言語研究に貢献することを目的とする。直接の目標として、樺太アイヌ語音声資料の自動解析を可能とするシステムを開発する。また、技術的な面では、膨大なデータによるモデルの事前学習に重点が置かれる先行研究と対照的に、比較的に低いコストで実施できるファインチューニング及び新規言語を対象とする継続事前学習の最適化を目標とする。大規模深層学習モデルの利用者の殆どが自ら新しいモデルの事前学習を行わず既存のモデルのファインチューニングにとどまるため、他の言語を対象とする取組みにとっても意義のある研究となる見込みがある。
|
Outline of Annual Research Achievements |
本研究では深層学習に基づく音声認識技術を応用することで、言語研究における音声資料解析の負担を軽減することが目的である。具体的には、村崎恭子氏が樺太アイヌ語の母語話者と協力し録音した音声資料の文字起こし作業の自動化を可能とするシステムの開発に取り組んでいる。これまでの実験では、対象言語のラベル付き教師データが非常に少量(1時間以下)である場合、同じ語群に属する言語、または言語系統上の親縁関係はないが音韻体系上の類似度が比較的に高い言語のデータを音声認識モデルのファインチューニングの際に追加することで音声認識の精度を改善できるということが明らかになった。令和5年度は更に、マルチリンガル・ファインチューニングを行う際に各音声サンプルに言語識別子を付加することで、言語の誤認識に起因するエラーを削減でき、対象言語の教師データがより多く(10時間程度)用いられた場合にも単言語ファインチューニングに匹敵する精度が得られた。また、システムの性能を更に向上させるために、文字起こしされていない音声データに対する疑似ラベリングを行った。その結果、マルチリンガル・ファインチューニングと疑似ラベリングを組み合わせることにより2つの手法のいずれかを単独で使用するよりも高い性能が得られることがわかった。また、言語識別子を付与した多言語データでファインチューニングされたモデルは、予測の際に言語に関する情報を提供されなくても、言語識別子を学習時に使わなかったモデルより高い精度を発揮するという結果が得られた。この結果は、入力される音声はどの言語の音声であるかが事前に明示されない多言語環境での使用を前提としたマルチリンガル音声認識システムの開発においても、上記のアプローチを活用することによってシステムの精度を改善できる可能性があることを意味しているが、複数の言語のデータを用いた検証実験が必要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
村崎恭子氏が収録した樺太アイヌ語音声資料の自動文字起こしを可能とするシステムの開発という目的に向けて、音声認識における文字誤り率が9.1%のシステムを構築することができた。今後対象言語の教師データの量を増し、システムの開発を進めることによってより高い精度が得られる見込みである。また、事前学習済み音声モデルを新しい言語の音声認識へ適用するためにマルチリンガル・ファインチューニングを行う際に各音声サンプルに言語識別子を付加することで、言語の誤認識に起因するエラーを削減でき、単言語ファインチューニングに匹敵する精度が得られることがわかった。更に、これまでの実験で使用してきた自己教師学習に加えて、文字起こしされていない音声データを活用するためのもう一つの方法である「疑似ラベリング」を検討し、その結果として音声認識の精度が改善した。また、マルチリンガル・ファインチューニングと疑似ラベリングを組み合わせることによって、2つの手法のいずれかを単独で使用するよりも高い性能が得られることが明らかになった。
|
Strategy for Future Research Activity |
今後の主な課題は下記の通りである: ①前年度で電子化した『カラフトアイヌ語』・『樺太アイヌ語例文集(1)』・『樺太アイヌ語例文集(2)』という書籍に掲載されたテキスト及び対応する音声データのアライメントを行うことによって、音声認識モデルのファインチューニングに利用できる対象言語のラベル付き教師データの量を増やす。 ②言語識別子を用いたマルチリンガル学習は、入力される音声はどの言語の音声であるかが事前に明示されない多言語環境での使用を前提としたマルチリンガル音声認識システムの開発においても効果的であるという仮説を検証するため、樺太アイヌ語以外の複数の言語のデータを用いた実験を行う。 ③先行研究と異なってこれまでの実験では、音声認識モデルの出力をテキストへ変換する際に「n-gram言語モデル」の効果が見られなかったが、今後は他の種類の言語モデル(具体的には「ニューラル言語モデル」および「文字ベース言語モデル」)を用いた実験を実施する。 ④文字起こしされていない音声データを活用するための二つの手法である「自己教師学習」及び「疑似ラベリング」を比較する実験を行い、両方の手法を組み合わせる場合の最適な割合を検討する。 ⑤教師データの量を人工的に増やすテクニックである「データ拡張」を検討する。
|