2023 Fiscal Year Research-status Report
Classification of regional dialects in Japanese
Project/Area Number |
20K20702
|
Research Institution | The University of Tokushima |
Principal Investigator |
服部 恒太 徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 講師 (10758387)
|
Co-Investigator(Kenkyū-buntansha) |
岸江 信介 奈良大学, 文学部, 教授 (90271460)
|
Project Period (FY) |
2020-07-30 – 2025-03-31
|
Keywords | Dialect classification |
Outline of Annual Research Achievements |
2023年には、さらにrandom forestがどのように日本語の方言を分類するかを調査した。このアルゴリズムを利用し、関西地方と中国地方の老年層の日本語話者の居住している県を予測するモデルを作成した。その結果、最適なモデルは被験者の居住県を高い精度で予測した。しかし、関西の中部(大阪府北部、奈良県北部、兵庫県東部)や中国地方の県境付近に居住する一部の被験者の居住県は、精度よく予測できなかった。この結果は、The 184th Meeting of the Acoustical Society of Americaで発表した。その後、中部地方に住む老年日本語話者をrandom forestで分類できるかどうかを検証した。そのモデルの結果は、予測確率が50%以上の話者(n = 415)は、概ね居住する県に分布しており、各県に方言があることを示唆した。予測確率が50%未満であった話者は、居住する県とその周辺地域、特に愛知県、岐阜県、静岡県、長野県、群馬県、新潟県に居住しており、これらの地域の話者は各県の方言の特徴を共有していることが示唆された。このことが、話者の出身地の予測の低い精度につながった可能性がある。また、これらの県方言の広がりは日本アルプスによって制限されているようで、山脈の東側で話される方言と西側で話される方言は、それぞれ一般にその地域にのみ広まっている。私たちは、これらの結果をThe 185th Meeting of the Acoustical Society of Americaで発表した。2023年度の結果から明らかになりつつあることは、従来の方言の分類は、必ずしも方言の実際の分布を捉えていないということである。今後、機械学習のどのようなアルゴリズムが方言の分布をよりよく捉えているのか、さらに検討する必要がある。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2023年には、年配の日本人話者が話す日本語の方言がどのように分類されるかをさらに調査した。今のところ私たちが明らかにしてきていることは、random forestは方言話者をある程度分類できるが、その精度は高くないということである。これは、方言を都道府県の境界で分類するのは良い方法ではないことを示唆しているようだ。つまり、教師ありモデルは、方言がどのように広がっているかを捉えるには必ずしも適していない。むしろ、教師なし学習、特にaffinity propagationが方言の分布をよく捉えていることがこれまでの研究の中でわかってきている。さらに、前回報告したように、私たちは西日本の若い日本語話者の音声サンプルを収集している。こちらもまだサンプルを収集している最中である。
|
Strategy for Future Research Activity |
Affinity propagationがうまく機能していることを踏まえて、私たちは、これまで使用したすべてのデータで、もう一度モデルを構築する。さらに、multivariate imputationを適用し、より良いモデルが構築できるかどうかを検証する。また、randaom forestとaffinity propagationを使って、老年層の関西方言がどのように分類されるかを検証して論文にまとめる予定である。さらに、私たちはオンラインでの記録システムの開発にも取り組む。2023年に学会に参加した際、そのようなシステムの構築に協力してくれるアメリカ人の学者に出会った。今年度中にこのシステムを立ち上げ、日本各地でさまざまな世代の音声サンプルを集めたい。そうすることで、2年間取り組んできた録音作業を完了させることができ、かつ新たなデータを得ることができる。
|
Causes of Carryover |
交付金をいただいた段階で、新型コロナウイルスの流行がすでにおこっていた。その結果、1年目はほとんど何もできない状況だった。その後、研究活動が徐々に行えるようになったが、初年度の影響が大きいために今年度も前年度からの繰り越しの予算が生じている。2024年度は、以下のことに行う予定である。まず、The 187th Meeting of the Acoustical Society of Americaに参加をする際の費用に使用する。次に、論文を出版する際の投稿費として、残りの予算の一部を使う。最後に、コンピュータの購入を見送り続けてきているので、高性能のコンピュータを購入する。このコンピュータを用いてモデルの再構築を行う。
|
Research Products
(2 results)