2022 Fiscal Year Research-status Report

Classification of regional dialects in Japanese

Research Project

Project/Area Number	20K20702
Research Institution	The University of Tokushima
Principal Investigator	服部恒太徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 講師 (10758387)
Co-Investigator(Kenkyū-buntansha)	岸江信介奈良大学, 文学部, 教授 (90271460)
Project Period (FY)	2020-07-30 – 2024-03-31
Keywords	Dialect classification / Random forest / DBSCAN / Machine learning
Outline of Annual Research Achievements	2021年、関西の方言を検証する際に、教師なしモデルを作成する方法として、DBSCANが有効であることを見つけた。いくつかのモデリング処理を経て、私たちは関西には3つの話者グループが存在することを明らかにした。この結果は、ドイツ・マインツで開催されたThe Seventeenth International Conference on Methods in Dialectologyで発表した。さらに、機械学習の他のアプローチでより良いモデルが作れるかどうかを検討した。具体的には、ブートストラップサンプルを用いたランダムフォレストを採用した。その結果、多くの老年の日本語話者が、居住する都道府県の話者として予測されることが明らかになった。特に、兵庫県、和歌山県、三重県、滋賀県に住んでいる人は、高い精度で予測された。一方、京都府、奈良県、大阪府に住む人は、あまり高い精度で予測されなかった。このことから、関西の中部地方に住む人々は、各都道府県に方言があると考えられているにもかかわらず、ある種の方言を共有していることが示唆された。この結果は、2022年12月に統計数理研究所共同利用研究集会「データ解析環境Rの整備と利用」で発表された。その後、関西のデータに加え、中国地方のデータも加えてモデルの構築をランダムフォレストを用いて行った。本研究の成果は、2023年5月に米国シカゴで開催されるThe 184th Meeting of the Acoustical Society of Americaで発表される予定である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason この研究プロジェクトが始まった当初は、COVID-19の影響で研究の方向性を変える必要があった。それ以来、このプロジェクトでは2つのサブプロジェクトが以下のように行われている。ひとつは、異なる世代の日本語話者が、老年層の日本語話者が話す方言をどのように分類しているかを検証することである。30名程度のデータを昨年集めて以来、さらに被験者を探すことに苦労をした。そこで、このサブプロジェクトの方向転換をした。現在は、機械学習のさまざまなアプローチで老年層の方言をモデル化することに焦点を当てている。2022年のドイツでの発表に続き、2023年にはアメリカで成果を発表することになっている。もう1つのサブプロジェクトは、異なる世代の日本語話者が、若年層の日本語話者が話す方言をどのように分類しているかを調べることである。2021年には、22人の話者と録音を行なった。2022年には、さらに10人の話者と録音をおこなった。しかし、まだいくつかの方言（鹿児島、熊本、三重の方言など）の録音を行う必要がある。
Strategy for Future Research Activity	両サブプロジェクトとも、モデリングと実験によって、さらに進展させる必要がある。老年層の日本語話者の方言を分類するサブプロジェクトでは、機械学習の他のアプローチを適用し、最適なモデルを特定する。具体的には、Naive Bayes、support vector machines、gradient boostingを利用する予定である。また、multiple imputationを利用し、モデルを作成する予定である。若年層の日本語話者の方言分類のサブプロジェクトでは、方言の録音を終え、オンライン実験を行い、データを収集する予定である。データを入手したら、上記のアプローチを適用し、モデルを作成する。
Causes of Carryover	交付金をいただいた段階で、新型コロナウイルスの流行がすでにおこっていた。その結果、1年目はほとんど何もできない状況だった。その後、研究活動が徐々に行えるようになったが、初年度の影響が大きいために今年度も前年度からの繰り越しの予算が生じている。2023年度は、以下のことに行う予定である。まず、アメリカで開かれるThe 184th Meeting of the Acoustical Society of Americaにて、研究の成果を発表する。また、10月にオーストラリアで行われる学会で、次の成果を発表する。次に、まだ方言のサンプルが取れていない地域に自分で出向いていき、録音を行う。そして、実験を行う。その際には謝金を支払う。最後に、コンピュータの購入を見送り続けてきているので、高性能のコンピュータを購入する。このコンピュータを用いて大規模なデータ分析を行う。

Research Products
(2 results)

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Presentation] Classification of Kansai dialects2022
- Author(s)
  Kota Hattori and Shinsuke Kishie
- Organizer
  The Seventeenth International Conference on Methods in Dialectology
- Int'l Joint Research
[Presentation] Classification of Kansai and Chugoku dialects2022
- Author(s)
  Kota Hattori
- Organizer
  統計数理研究所共同利用研究集会「データ解析環境Rの整備と利用」