人工知能を活用した津軽弁から共通語への音声・文字情報変換システムの基盤技術開発
Project/Area Number |
23K25330
|
Project/Area Number (Other) |
23H00633 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
Basic Section 02090:Japanese language education-related
Sections That Are Subject to Joint Review: Basic Section02070:Japanese linguistics-related , Basic Section02090:Japanese language education-related
|
Research Institution | Hirosaki University |
Principal Investigator |
今井 雅 弘前大学, 理工学研究科, 教授 (70323665)
|
Co-Investigator(Kenkyū-buntansha) |
柏倉 幾郎 弘前大学, 保健学研究科, 特任教授 (00177370)
井瀧 千恵子 弘前大学, 保健学研究科, 教授 (00285008)
松崎 正敏 弘前大学, 農学生命科学部, 教授 (10355688)
新岡 丈典 弘前大学, 医学研究科, 教授 (20722276)
辻口 貴清 弘前大学, 災害・被ばく医療教育センター, 助教 (90737454)
杉山 祐子 弘前大学, 人文社会科学部, 教授 (30196779)
吉仲 怜 弘前大学, 農学生命科学部, 助教 (70548487)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,460,000 (Direct Cost: ¥14,200,000、Indirect Cost: ¥4,260,000)
Fiscal Year 2026: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2025: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
|
Keywords | 方言 / 津軽弁 / 人工知能 / 文字音声変換システム / 津軽弁アーカイブ |
Outline of Research at the Start |
本課題では、津軽地方固有の方言である津軽弁が、医療現場等において、青森県民と県外出身者とのコミュニケーションの妨げとなる問題に取り組む。津軽弁音声を文字情報に変換する音声認識システムと、津軽弁文字情報から共通語文字情報に変換するシステムを、人工知能を活用して精度よく実現する方式を明らかにし、津軽弁音声から共通語テキストを出力する実用的なシステムを構築する。 また、古くからある津軽弁が使われなくなっている文化的問題に対し、本課題を通して様々な津軽弁関連情報を収集して体系的に整理し、データベースシステムを構築することで、方言を含む津軽文化を未来に利活用する基盤技術を確立する。
|
Outline of Annual Research Achievements |
津軽地方固有の方言である津軽弁は、青森県民と県外出身者とのコミュニケーションの妨げとなることがある。本課題では、津軽弁を収集してアーカイブ化することや、翻訳人工知能の学習用音声・文字情報の生成・収集システムの開発を通して、津軽弁から共通語へ高い精度で変換する方法を確立し、実用的な翻訳システムを構築する。 2023年度は、津軽語辞書システムを拡張して、関連する単語と例文情報を相互に登録・更新することができるシステムを構築した。また、辞書内の単語をカテゴリー別に分類し、その単語と登録された例文を用いて、新たな例文を生成するテキストジェネレータを構築した。人工知能モデルのパラメータ調整と、学習用データのクリーニング、及び構築したシステムにより生成された例文の学習を行うことで、先行研究では翻訳精度の指標であるBLEUスコアが0.28だったのに対し、2023年度に構築したモデルでは0.35を達成した。このスコアは「理解できる、適度な品質の翻訳」に分類され、国際会議において本成果を発表した。 言語間の翻訳を行う人工知能の開発には20万例程度の文例が必要と言われており、本課題では分担者がそれぞれの分野において、可能な限りの数の文例と音声情報の収集を行っている。また、企業からの依頼により、津軽弁を題材としたライトノベル及びそのコミカライズに対して、津軽弁監修の協力を行い、研究プロジェクトの周知等に努めている。さらに、2023年度は、鯵ヶ沢町の協力のもと、イベント会場での音声情報集と津軽弁アーカイブのためのアンケートを実施した。 津軽弁から共通語に変換する実用的なシステムの開発に関して、透明ディスプレイを用いて一方からは津軽弁、もう一方からは対訳となる共通語を表示することができるシステムのプロトタイプを開発した。リアルタイムで対訳文章が表示できる様に拡張することが2024年度以降の課題である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は、津軽弁辞書システムに対して、テキストジェネレータ機能を追加するなどの拡張を行うとともに、登録されていたデータのクリーニングを行うことで、限定的な津軽弁の範囲内ではあるが、津軽弁から共通語への変換システムの翻訳精度を先行研究の0.28から、0.35まで高めることができた。本課題中に、日常会話の津軽弁から共通語に変換するシステムとしての精度を高めることが目標である。 研究分担者がそれぞれの分野及び周囲の協力者から、津軽弁音声と例文の収集を行った。また、鯵ヶ沢町の協力のもと、イベント会場において音声情報の収集と、津軽弁アーカイブのためのアンケートを実施することができた。この実施により、イベント会場での収集における課題が判明し、今後の収集活動に関しての指針を得ることができた。 透明ディスプレイを用いた対面で使用する津軽弁から共通語への変換表示システムに関して、プロトタイプを実装することができた。また、津軽弁の音声認識に関して、オープンソースの汎用大語彙連続音声認識エンジンJuliusや、Word2Vecを用いる方式の実装・評価を行うことができた。収集した音声情報から音素を抽出し、津軽弁音素ライブラリとして音声認識エンジンに組み込むことで津軽弁音声認識の精度を高めるための基盤を構築することができた。 これらの成果は当初計画していた内容通りに進展しており、全体として概ね順調に進展していると判断できる。
|
Strategy for Future Research Activity |
インターネット上に公開されている津軽弁に関する音声情報・文字情報や、国会図書館等に蓄積されている情報を確認し、必要な手続きを行って津軽弁アーカイブのための情報収集を行う。収集した未登録データに関しては、これまでに開発した津軽弁辞書・例文データベースシステムに登録し、翻訳人工知能の学習に利用できるデータを2倍以上にする。また、必要に応じてシステムの拡張を行う。さらに、津軽弁アーカイブを広く利用することができるように、津軽弁コーパスの整備を行うとともに、Webシステムにより誰でも利用することができる環境の整備を行う。 2023年度に続き、研究分担者がそれぞれの分野及び周囲の協力者から、津軽弁音声と例文の収集を行う。また、イベント会場における津軽弁文字情報の収集を行うとともに、津軽弁アーカイブのためのアンケート等を行う。イベント会場においてノイズの少ない音声情報収集が難しい場合は、個別訪問等により津軽弁アーカイブ及び津軽弁音声認識のための音声情報の収集を行う。 透明ディスプレイを用いた対面で使用する津軽弁から共通語への変換表示システムに関して、はじめに想定する遅延以内で翻訳できるオンラインのシステム開発を進める。その際、日常会話などのすべての分野において精度の高い音声認識・翻訳を行うシステムを構築することは難しいため、医療分野に対象を絞ってシステム開発を進める。
|
Report
(1 results)
Research Products
(3 results)