| Project/Area Number |
23K21681
|
| Project/Area Number (Other) |
21H03467 (2021-2023)
|
| Research Category |
Grant-in-Aid for Scientific Research (B)
|
| Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
| Section | 一般 |
| Review Section |
Basic Section 61010:Perceptual information processing-related
|
| Research Institution | Nara Institute of Science and Technology (2024) Japan Advanced Institute of Science and Technology (2021-2023) |
Principal Investigator |
SAKTI Sakriani 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (00395005)
|
| Co-Investigator(Kenkyū-buntansha) |
中村 哲 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (30263429)
|
| Project Period (FY) |
2024-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2025: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2024: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2022: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2021: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
|
| Keywords | 低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain |
| Outline of Research at the Start |
海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。一方、人間は機械学習のように大量のデータを使わなくとも、日常生活において自然に言語を習得できる。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。
|
| Outline of Annual Research Achievements |
危機管理のグローバル化や、大型国際イベントの開催などにより、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するためには、広範な音声と対応する書き起こしデータを使用する教師あり学習によるディープラーニングに基づいた音声翻訳の開発が必須である。 本研究では、人間の言語習得プロセス、特にSpeech Chainメカニズムに基づき、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。以下の課題を構成して取り組む。 課題1:人間の言語処理および認知に関する文献調査および検証、課題2:リソースの少ない言語の音声およびテキストデータの収集、課題3:多言語Machine Speech Chainフレームワークの開発、「話しながら聞いて多言語を学ぶ」を実行する(オフライン半教師あり学習、課題4:多言語Machine Speech Chainフレームワークの改善、リアルタイム学習(オフラインとオンライン学習)を実行する、課題5:多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習(オンライン学習)を実行する、課題6:多言語Machine Speech Chainフレームワーク内に機械翻訳を組み込む、課題7:音声翻訳のため、多言語Machine Speech Chainフレームワークを開発し、「話しながら聞いて翻訳する」を実行する(オフライン半教師あり学習とオンライン自己Lifelong学習) 令和6年度末までに、課題1-6を完了し、多言語Machine Speech Chainフレームワーク内への機械翻訳の統合を達成した。これまでに、招待(基調)講演6件、学術論文4編、査読付き国際会議論文13件、国内会議論文12件を発表した.
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和6年度末までに、計画どおり、課題1-6:多言語Machine Speech Chainフレームワークへの機械翻訳機能の統合を完了した。具体的には、Machine Speech Chainフレームワークに着想を得たSimultaneous Speech TranslationのためのContrastive Feedback Mechanismを提案し、トップ国際会議であるINTERSPEECHで発表した。 さらに、課題7:「話しながら聞いて翻訳する」を実現するためのフレームワークの高度化(オフライン半教師あり学習とオンライン自己Lifelong学習)に着手し、**Gradient Episodic Memoryを用いたMachine Speech Chainにおける継続学習(Continual Learning)**を提案し、O-COCOSDAで発表した。 しかし、異なる多言語にまたがる大量のデータをカバーするには、アノテーション付き音声データの不足により依然として困難が残る。そのため、未知の未翻訳言語に対応するためにビジュアルグラウンディングモデルを活用した手法をさらに強化し、IEEE Access誌に論文を発表した。 また、多言語システムの研究を支えるため、インドネシアの大学およびベトナムの研究機関との連携も継続しており、関連する研究成果を国際会議に投稿した。
|
| Strategy for Future Research Activity |
令和7年度では、以下の課題に取り組む。 課題4:多言語Machine Speech Chainフレームワークの改善とリアルタイム学習(オフラインおよびオンライン学習)の開発に関して、インクリメンタルMachine Speech Chainの実験を継続します。特に、Machine Speech Chainの性能を向上させ、対応可能な言語の範囲をさらに拡大することを目指する。 課題5:多言語Machine Speech Chainフレームワークの改善と自己Lifelong学習(オンライン学習)に関して、実験を継続する。 課題6:多言語Machine Speech Chainフレームワーク内に機械翻訳を統合する。 課題7:「話しながら聞いて翻訳する」を実現するために、音声翻訳に対応したMachine Speech Chainフレームワークを高度化します(オフライン半教師あり学習およびオンライン自己Lifelong学習)。 課題7に特に重点を置きつつ、課題4-6;7の強化も引き続き進めていく。
|