• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

日本語諸方言の形態素解析用辞書の構築と活用

研究課題

研究課題/領域番号 23H00007
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)

研究分担者 五十嵐 陽介  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (00549008)
坂井 美日  鹿児島大学, 総合科学域総合教育学系, 准教授 (00738916)
村上 謙  関西学院大学, 文学部, 教授 (20431728)
近藤 明日子  東京大学, 大学院人文社会系研究科(文学部), 助教 (30425722)
平子 達也  南山大学, 人文学部, 准教授 (30758149)
大槻 知世  静岡英和学院大学, 人間社会学部, 准教授 (30805205)
宮川 創  筑波大学, 人文社会系, 准教授 (40887345)
中川 奈津子  九州大学, 人文科学研究院, 准教授 (50757870)
小西 いずみ  東京大学, 大学院人文社会系研究科(文学部), 准教授 (60315736)
久保薗 愛  岡山大学, 社会文化科学学域, 准教授 (80706771)
中澤 光平  信州大学, 学術研究院人文科学系, 講師 (90824805)
研究期間 (年度) 2023-04-01 – 2027-03-31
キーワード方言 / 形態素解析 / コーパス / 関西弁 / UniDic
研究実績の概要

公開されている『関西弁コーパス』(kvjcorpus、ケビン・フェファナン 2012)および『広島大学日本語電話会話コーパス』(COTCO-H、五十嵐・廣川 2022)に対し、既存の「現代話し言葉用UniDic」を用いて形態素解析を実施し、UniDicの短単位に基づくデータを作成した。解析結果に含まれる誤りを修正し、形態論情報の精緻化を図った上で、この過程で判明した未知語をUniDicデータベースに追加し、関西を中心とした西日本方言の語彙を拡充した。
整備した辞書見出し語データおよび短単位版コーパスを活用し、形態素解析器「MeCab」用の辞書として、関西方言に対応した形態素解析用辞書「関西方言UniDic」を試作した。さらに、この辞書をWebアプリケーション「Web茶まめ」に実装し、オンラインでの利用が可能な形で公開した。これらの成果は、言語処理学会第30回年次大会(小木曽・尹・王・岡田 2024「関西方言を対象とした形態素解析用辞書の開発」、3月12日)において発表を行った。
また、その他の方言データ整備として、『日本語諸方言コーパス』(COJADS)の一部データに対し、カタカナ表記の書き起こしテキストを漢字かな交じり文に変換するためのリライト基準を策定し、それに基づいたデータ整備を、西日本方言を中心に進めた。あわせて、各地における既存の方言書き起こしテキストの探索も行った。
さらに、辞書見出し語の拡充の一環として、『日本国語大辞典 第2版』に掲載されている方言語彙の一部を、UniDicデータベースに登録するための整備作業を実施した。

現在までの達成度
現在までの達成度

2: おおむね順調に進展している

理由

予定通り、『関西弁コーパス』の一部と『広島大学日本語電話会話コーパス』について形態論情報の整備を行い、見出し語の追加を行うとともにこれを用いた「関西方言UniDic」の試作版を作成して公開した。また、「関西方言UniDic」について研究発表を行った。
また、日本語諸方言コーパス』のカタカナ表記の書き起こしテキストを漢字かな混じり文にリライトするための基準を作成し、それに基づくデータの作成を一部行い、翌年度以降に本格化させる準備を行うことができた。
このようにデータ整備を着実に行うとともに、初年度から成果発表を行うことができたことから、計画通り順調に進んでいると判断した。

今後の研究の推進方策

UniDic短単位に『関西弁コーパス』の整備をさらに進め、インターネット上で「短単位版関西弁コーパス」としてオープンライセンスで公開する(CC BY-NC-SA 4.0ライセンス)。
また、関西方言を対象とした形態素解析用辞書「関西方言UniDic」の整備を進め、正式版として公開する。
あわせて、『日本語諸方言コーパス』所収の方言書き起こしテキストを形態素解析に適した漢字仮名交じり文に変換するとともに、各地の方言データの入手に努める。

  • 研究成果

    (6件)

すべて 2023

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (3件)

  • [雑誌論文] 江戸~明治時代の日本語・沖縄語訳「ヨハネによる福音書」の パラレル・コーパス構築とスタイロメトリー2023

    • 著者名/発表者名
      宮川創
    • 雑誌名

      計量国語学

      巻: 34-4 ページ: 273-288

    • 査読あり
  • [雑誌論文] 江戸時代後期の聖書和訳・ギュツラフ訳『約翰福音之傳』は新約聖書ギリシア語本文から訳したか2023

    • 著者名/発表者名
      宮川 創
    • 雑誌名

      日本語の研究

      巻: 19 ページ: 37~52

    • DOI

      10.20666/nihongonokenkyu.19.2_37

    • 査読あり
  • [雑誌論文] 方言研究資料のためのデータベース構築2023

    • 著者名/発表者名
      中川奈津子, 宮川創, 小川潤
    • 雑誌名

      方言の研究

      巻: 9 ページ: 173-193

    • 査読あり
  • [学会発表] 関西方言を対象とした形態素解析用辞書の開発2023

    • 著者名/発表者名
      小木曽智信, 尹熙洙, 王竣磊, 岡田純子
    • 学会等名
      言語処理学会第33回年次大会 発表論文集
  • [学会発表] 日本語方言談話資料のTEIによる構造化の試み2023

    • 著者名/発表者名
      中川 奈津子, 岡田 一祐, 永崎 研宣, 北崎 勇帆, 王 一凡, 曹 芳慧, 藤原 静香, 塚越 柚季, 小川 潤, 片倉 峻平, 左藤 仁宏, 王 ブンロ, 石田 友梨, 宮川 創, 佐久間 祐惟, 塩井 祥子, 井上 慶淳, 村瀬 友洋, 関 慎太朗, 嵩井 里恵子, 渡邉 眞儀, 中町 信孝, 幾浦 裕之
    • 学会等名
      じんもんこん2023 人文科学とコンピュータシンポジウム「人文学のためのデータインフラストラクチャー構築に向けて」
  • [学会発表] 近世・近代の日本語及び沖縄語訳聖書のパラレル・ コーパスの構築2023

    • 著者名/発表者名
      宮川創
    • 学会等名
      言語資源ワークショップ2023(査読あり)

URL: 

公開日: 2025-12-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi