Classification of regional dialects in Japanese
Project/Area Number |
20K20702
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 2:Literature, linguistics, and related fields
|
Research Institution | The University of Tokushima |
Principal Investigator |
服部 恒太 徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 講師 (10758387)
|
Co-Investigator(Kenkyū-buntansha) |
岸江 信介 奈良大学, 文学部, 教授 (90271460)
|
Project Period (FY) |
2020-07-30 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | Dialect classification / Random forest / DBSCAN / Machine learning / Pilot study / COVID-19 / Interruption / Japanese dialects / Classification / Data science / Speech science |
Outline of Research at the Start |
これまでに日本方言の区分は研究者が記述的な方法を用いて行ってきた。しかし、日本語母語話者が実際に方言を聞いてどのように区分をするのかという科学的な検証は未だに行われていない。また、彼らが世代間で方言の認識の仕方をどのように変化させているのかも科学的に検証されていない。本研究では幅広い年齢層(若年層と中年層)の日本語母語話者に各都道府県の老年層の話す方言を聞いてもらい、その区分を行ってもらう。本研究は彼らの区分を統計的に分析することで日本人自身が自分たちの方言をどのように区分しているのか、そしてどの程度若い世代のあいだで方言の消失が進んでいるのかを初めて科学的に明らかにすることを目的とする。
|
Outline of Annual Research Achievements |
2021年、関西の方言を検証する際に、教師なしモデルを作成する方法として、DBSCANが有効であることを見つけた。いくつかのモデリング処理を経て、私たちは関西には3つの話者グループが存在することを明らかにした。この結果は、ドイツ・マインツで開催されたThe Seventeenth International Conference on Methods in Dialectologyで発表した。さらに、機械学習の他のアプローチでより良いモデルが作れるかどうかを検討した。具体的には、ブートストラップサンプルを用いたランダムフォレストを採用した。その結果、多くの老年の日本語話者が、居住する都道府県の話者として予測されることが明らかになった。特に、兵庫県、和歌山県、三重県、滋賀県に住んでいる人は、高い精度で予測された。一方、京都府、奈良県、大阪府に住む人は、あまり高い精度で予測されなかった。このことから、関西の中部地方に住む人々は、各都道府県に方言があると考えられているにもかかわらず、ある種の方言を共有していることが示唆された。この結果は、2022年12月に統計数理研究所共同利用研究集会「データ解析環境Rの整備と利用」で発表された。その後、関西のデータに加え、中国地方のデータも加えてモデルの構築をランダムフォレストを用いて行った。本研究の成果は、2023年5月に米国シカゴで開催されるThe 184th Meeting of the Acoustical Society of Americaで発表される予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
この研究プロジェクトが始まった当初は、COVID-19の影響で研究の方向性を変える必要があった。それ以来、このプロジェクトでは2つのサブプロジェクトが以下のように行われている。ひとつは、異なる世代の日本語話者が、老年層の日本語話者が話す方言をどのように分類しているかを検証することである。30名程度のデータを昨年集めて以来、さらに被験者を探すことに苦労をした。そこで、このサブプロジェクトの方向転換をした。現在は、機械学習のさまざまなアプローチで老年層の方言をモデル化することに焦点を当てている。2022年のドイツでの発表に続き、2023年にはアメリカで成果を発表することになっている。もう1つのサブプロジェクトは、異なる世代の日本語話者が、若年層の日本語話者が話す方言をどのように分類しているかを調べることである。2021年には、22人の話者と録音を行なった。2022年には、さらに10人の話者と録音をおこなった。しかし、まだいくつかの方言(鹿児島、熊本、三重の方言など)の録音を行う必要がある。
|
Strategy for Future Research Activity |
両サブプロジェクトとも、モデリングと実験によって、さらに進展させる必要がある。老年層の日本語話者の方言を分類するサブプロジェクトでは、機械学習の他のアプローチを適用し、最適なモデルを特定する。具体的には、Naive Bayes、support vector machines、gradient boostingを利用する予定である。また、multiple imputationを利用し、モデルを作成する予定である。若年層の日本語話者の方言分類のサブプロジェクトでは、方言の録音を終え、オンライン実験を行い、データを収集する予定である。データを入手したら、上記のアプローチを適用し、モデルを作成する。
|
Report
(3 results)
Research Products
(3 results)