| Project/Area Number |
23H00007
|
| Research Category |
Grant-in-Aid for Scientific Research (A)
|
| Allocation Type | Single-year Grants |
| Section | 一般 |
| Review Section |
Medium-sized Section 2:Literature, linguistics, and related fields
|
| Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
| Co-Investigator(Kenkyū-buntansha) |
五十嵐 陽介 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (00549008)
坂井 美日 鹿児島大学, 総合科学域総合教育学系, 准教授 (00738916)
村上 謙 関西学院大学, 文学部, 教授 (20431728)
近藤 明日子 東京大学, 大学院人文社会系研究科(文学部), 助教 (30425722)
平子 達也 南山大学, 人文学部, 准教授 (30758149)
大槻 知世 静岡大学, 人文社会科学部, 講師 (30805205)
宮川 創 筑波大学, 人文社会系, 准教授 (40887345)
中川 奈津子 九州大学, 人文科学研究院, 准教授 (50757870)
小西 いずみ 東京大学, 大学院人文社会系研究科(文学部), 准教授 (60315736)
久保薗 愛 岡山大学, 社会文化科学学域, 准教授 (80706771)
中澤 光平 信州大学, 学術研究院人文科学系, 講師 (90824805)
|
| Project Period (FY) |
2023-04-01 – 2027-03-31
|
| Project Status |
Granted (Fiscal Year 2025)
|
| Budget Amount *help |
¥46,930,000 (Direct Cost: ¥36,100,000、Indirect Cost: ¥10,830,000)
Fiscal Year 2025: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
Fiscal Year 2024: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
Fiscal Year 2023: ¥15,080,000 (Direct Cost: ¥11,600,000、Indirect Cost: ¥3,480,000)
|
| Keywords | 方言 / 形態素解析 / コーパス / 辞書 / 言語資源 / 関西弁 / UniDic |
| Outline of Research at the Start |
国立国語研究所で開発を行ってきた電子化辞書UniDicをもとに、日本各地の方言の書き起こしテキストの高精度な解析を可能にする形態素解析用の辞書群を開発する。各辞書の構築にあたっては、標準語用・歴史用の辞書と解析単位・見出し基準を可能な限り統一し、各時代・各地方の言語のコーパスを相互に比較可能にする。構築した形態素解析用の辞書はオンラインで公開するほか、ツール「Web茶まめ」を通してだれもが簡単に利用できる形で提供する。
|
| Outline of Annual Research Achievements |
公開されている『関西弁コーパス』(kvjcorpus、ケビン・フェファナン 2012)および『広島大学日本語電話会話コーパス』(COTCO-H、五十嵐・廣川 2022)に対し、既存の「現代話し言葉用UniDic」を用いて形態素解析を実施し、UniDicの短単位に基づくデータを作成した。解析結果に含まれる誤りを修正し、形態論情報の精緻化を図った上で、この過程で判明した未知語をUniDicデータベースに追加し、関西を中心とした西日本方言の語彙を拡充した。 整備した辞書見出し語データおよび短単位版コーパスを活用し、形態素解析器「MeCab」用の辞書として、関西方言に対応した形態素解析用辞書「関西方言UniDic」を試作した。さらに、この辞書をWebアプリケーション「Web茶まめ」に実装し、オンラインでの利用が可能な形で公開した。これらの成果は、言語処理学会第30回年次大会(小木曽・尹・王・岡田 2024「関西方言を対象とした形態素解析用辞書の開発」、3月12日)において発表を行った。 また、その他の方言データ整備として、『日本語諸方言コーパス』(COJADS)の一部データに対し、カタカナ表記の書き起こしテキストを漢字かな交じり文に変換するためのリライト基準を策定し、それに基づいたデータ整備を、西日本方言を中心に進めた。あわせて、各地における既存の方言書き起こしテキストの探索も行った。 さらに、辞書見出し語の拡充の一環として、『日本国語大辞典 第2版』に掲載されている方言語彙の一部を、UniDicデータベースに登録するための整備作業を実施した。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定通り、『関西弁コーパス』の一部と『広島大学日本語電話会話コーパス』について形態論情報の整備を行い、見出し語の追加を行うとともにこれを用いた「関西方言UniDic」の試作版を作成して公開した。また、「関西方言UniDic」について研究発表を行った。 また、日本語諸方言コーパス』のカタカナ表記の書き起こしテキストを漢字かな混じり文にリライトするための基準を作成し、それに基づくデータの作成を一部行い、翌年度以降に本格化させる準備を行うことができた。 このようにデータ整備を着実に行うとともに、初年度から成果発表を行うことができたことから、計画通り順調に進んでいると判断した。
|
| Strategy for Future Research Activity |
UniDic短単位に『関西弁コーパス』の整備をさらに進め、インターネット上で「短単位版関西弁コーパス」としてオープンライセンスで公開する(CC BY-NC-SA 4.0ライセンス)。 また、関西方言を対象とした形態素解析用辞書「関西方言UniDic」の整備を進め、正式版として公開する。 あわせて、『日本語諸方言コーパス』所収の方言書き起こしテキストを形態素解析に適した漢字仮名交じり文に変換するとともに、各地の方言データの入手に努める。
|