| 研究課題/領域番号 |
23H00007
|
| 研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
| 研究分担者 |
五十嵐 陽介 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (00549008)
坂井 美日 鹿児島大学, 総合科学域総合教育学系, 准教授 (00738916)
村上 謙 関西学院大学, 文学部, 教授 (20431728)
近藤 明日子 東京大学, 大学院人文社会系研究科(文学部), 助教 (30425722)
平子 達也 南山大学, 人文学部, 准教授 (30758149)
大槻 知世 静岡英和学院大学, 人間社会学部, 准教授 (30805205)
宮川 創 筑波大学, 人文社会系, 准教授 (40887345)
中川 奈津子 九州大学, 人文科学研究院, 准教授 (50757870)
小西 いずみ 東京大学, 大学院人文社会系研究科(文学部), 准教授 (60315736)
久保薗 愛 岡山大学, 社会文化科学学域, 准教授 (80706771)
中澤 光平 信州大学, 学術研究院人文科学系, 講師 (90824805)
|
| 研究期間 (年度) |
2023-04-01 – 2027-03-31
|
| キーワード | 方言 / 形態素解析 / コーパス / 関西弁 / UniDic |
| 研究実績の概要 |
公開されている『関西弁コーパス』(kvjcorpus、ケビン・フェファナン 2012)および『広島大学日本語電話会話コーパス』(COTCO-H、五十嵐・廣川 2022)に対し、既存の「現代話し言葉用UniDic」を用いて形態素解析を実施し、UniDicの短単位に基づくデータを作成した。解析結果に含まれる誤りを修正し、形態論情報の精緻化を図った上で、この過程で判明した未知語をUniDicデータベースに追加し、関西を中心とした西日本方言の語彙を拡充した。 整備した辞書見出し語データおよび短単位版コーパスを活用し、形態素解析器「MeCab」用の辞書として、関西方言に対応した形態素解析用辞書「関西方言UniDic」を試作した。さらに、この辞書をWebアプリケーション「Web茶まめ」に実装し、オンラインでの利用が可能な形で公開した。これらの成果は、言語処理学会第30回年次大会(小木曽・尹・王・岡田 2024「関西方言を対象とした形態素解析用辞書の開発」、3月12日)において発表を行った。 また、その他の方言データ整備として、『日本語諸方言コーパス』(COJADS)の一部データに対し、カタカナ表記の書き起こしテキストを漢字かな交じり文に変換するためのリライト基準を策定し、それに基づいたデータ整備を、西日本方言を中心に進めた。あわせて、各地における既存の方言書き起こしテキストの探索も行った。 さらに、辞書見出し語の拡充の一環として、『日本国語大辞典 第2版』に掲載されている方言語彙の一部を、UniDicデータベースに登録するための整備作業を実施した。
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
予定通り、『関西弁コーパス』の一部と『広島大学日本語電話会話コーパス』について形態論情報の整備を行い、見出し語の追加を行うとともにこれを用いた「関西方言UniDic」の試作版を作成して公開した。また、「関西方言UniDic」について研究発表を行った。 また、日本語諸方言コーパス』のカタカナ表記の書き起こしテキストを漢字かな混じり文にリライトするための基準を作成し、それに基づくデータの作成を一部行い、翌年度以降に本格化させる準備を行うことができた。 このようにデータ整備を着実に行うとともに、初年度から成果発表を行うことができたことから、計画通り順調に進んでいると判断した。
|
| 今後の研究の推進方策 |
UniDic短単位に『関西弁コーパス』の整備をさらに進め、インターネット上で「短単位版関西弁コーパス」としてオープンライセンスで公開する(CC BY-NC-SA 4.0ライセンス)。 また、関西方言を対象とした形態素解析用辞書「関西方言UniDic」の整備を進め、正式版として公開する。 あわせて、『日本語諸方言コーパス』所収の方言書き起こしテキストを形態素解析に適した漢字仮名交じり文に変換するとともに、各地の方言データの入手に努める。
|