• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction and application of dictionaries for morphological analysis of Japanese dialects

Research Project

Project/Area Number 23H00007
Research Category

Grant-in-Aid for Scientific Research (A)

Allocation TypeSingle-year Grants
Section一般
Review Section Medium-sized Section 2:Literature, linguistics, and related fields
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)

Co-Investigator(Kenkyū-buntansha) 五十嵐 陽介  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (00549008)
坂井 美日  鹿児島大学, 総合科学域総合教育学系, 准教授 (00738916)
村上 謙  関西学院大学, 文学部, 教授 (20431728)
近藤 明日子  東京大学, 大学院人文社会系研究科(文学部), 助教 (30425722)
平子 達也  南山大学, 人文学部, 准教授 (30758149)
大槻 知世  静岡大学, 人文社会科学部, 講師 (30805205)
宮川 創  筑波大学, 人文社会系, 准教授 (40887345)
中川 奈津子  九州大学, 人文科学研究院, 准教授 (50757870)
小西 いずみ  東京大学, 大学院人文社会系研究科(文学部), 准教授 (60315736)
久保薗 愛  岡山大学, 社会文化科学学域, 准教授 (80706771)
中澤 光平  信州大学, 学術研究院人文科学系, 講師 (90824805)
Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2025)
Budget Amount *help
¥46,930,000 (Direct Cost: ¥36,100,000、Indirect Cost: ¥10,830,000)
Fiscal Year 2025: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
Fiscal Year 2024: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
Fiscal Year 2023: ¥15,080,000 (Direct Cost: ¥11,600,000、Indirect Cost: ¥3,480,000)
Keywords方言 / 形態素解析 / コーパス / 辞書 / 言語資源 / 関西弁 / UniDic
Outline of Research at the Start

国立国語研究所で開発を行ってきた電子化辞書UniDicをもとに、日本各地の方言の書き起こしテキストの高精度な解析を可能にする形態素解析用の辞書群を開発する。各辞書の構築にあたっては、標準語用・歴史用の辞書と解析単位・見出し基準を可能な限り統一し、各時代・各地方の言語のコーパスを相互に比較可能にする。構築した形態素解析用の辞書はオンラインで公開するほか、ツール「Web茶まめ」を通してだれもが簡単に利用できる形で提供する。

Outline of Annual Research Achievements

公開されている『関西弁コーパス』(kvjcorpus、ケビン・フェファナン 2012)および『広島大学日本語電話会話コーパス』(COTCO-H、五十嵐・廣川 2022)に対し、既存の「現代話し言葉用UniDic」を用いて形態素解析を実施し、UniDicの短単位に基づくデータを作成した。解析結果に含まれる誤りを修正し、形態論情報の精緻化を図った上で、この過程で判明した未知語をUniDicデータベースに追加し、関西を中心とした西日本方言の語彙を拡充した。
整備した辞書見出し語データおよび短単位版コーパスを活用し、形態素解析器「MeCab」用の辞書として、関西方言に対応した形態素解析用辞書「関西方言UniDic」を試作した。さらに、この辞書をWebアプリケーション「Web茶まめ」に実装し、オンラインでの利用が可能な形で公開した。これらの成果は、言語処理学会第30回年次大会(小木曽・尹・王・岡田 2024「関西方言を対象とした形態素解析用辞書の開発」、3月12日)において発表を行った。
また、その他の方言データ整備として、『日本語諸方言コーパス』(COJADS)の一部データに対し、カタカナ表記の書き起こしテキストを漢字かな交じり文に変換するためのリライト基準を策定し、それに基づいたデータ整備を、西日本方言を中心に進めた。あわせて、各地における既存の方言書き起こしテキストの探索も行った。
さらに、辞書見出し語の拡充の一環として、『日本国語大辞典 第2版』に掲載されている方言語彙の一部を、UniDicデータベースに登録するための整備作業を実施した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

予定通り、『関西弁コーパス』の一部と『広島大学日本語電話会話コーパス』について形態論情報の整備を行い、見出し語の追加を行うとともにこれを用いた「関西方言UniDic」の試作版を作成して公開した。また、「関西方言UniDic」について研究発表を行った。
また、日本語諸方言コーパス』のカタカナ表記の書き起こしテキストを漢字かな混じり文にリライトするための基準を作成し、それに基づくデータの作成を一部行い、翌年度以降に本格化させる準備を行うことができた。
このようにデータ整備を着実に行うとともに、初年度から成果発表を行うことができたことから、計画通り順調に進んでいると判断した。

Strategy for Future Research Activity

UniDic短単位に『関西弁コーパス』の整備をさらに進め、インターネット上で「短単位版関西弁コーパス」としてオープンライセンスで公開する(CC BY-NC-SA 4.0ライセンス)。
また、関西方言を対象とした形態素解析用辞書「関西方言UniDic」の整備を進め、正式版として公開する。
あわせて、『日本語諸方言コーパス』所収の方言書き起こしテキストを形態素解析に適した漢字仮名交じり文に変換するとともに、各地の方言データの入手に努める。

Report

(2 results)
  • 2023 Comments on the Screening Results   Annual Research Report
  • Research Products

    (6 results)

All 2023

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] Was Gützlaff's Japanese translation of the Gospel of John in the Late Edo Period translated from the Greek Text?2023

    • Author(s)
      宮川 創
    • Journal Title

      Studies in the Japanese Language

      Volume: 19 Issue: 2 Pages: 37-52

    • DOI

      10.20666/nihongonokenkyu.19.2_37

    • ISSN
      1349-5119, 2189-5732
    • Year and Date
      2023-08-01
    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] 江戸~明治時代の日本語・沖縄語訳「ヨハネによる福音書」の パラレル・コーパス構築とスタイロメトリー2023

    • Author(s)
      宮川創
    • Journal Title

      計量国語学

      Volume: 34-4 Pages: 273-288

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] 方言研究資料のためのデータベース構築2023

    • Author(s)
      中川奈津子, 宮川創, 小川潤
    • Journal Title

      方言の研究

      Volume: 9 Pages: 173-193

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Presentation] 関西方言を対象とした形態素解析用辞書の開発2023

    • Author(s)
      小木曽智信, 尹熙洙, 王竣磊, 岡田純子
    • Organizer
      言語処理学会第33回年次大会 発表論文集
    • Related Report
      2023 Annual Research Report
  • [Presentation] 日本語方言談話資料のTEIによる構造化の試み2023

    • Author(s)
      中川 奈津子, 岡田 一祐, 永崎 研宣, 北崎 勇帆, 王 一凡, 曹 芳慧, 藤原 静香, 塚越 柚季, 小川 潤, 片倉 峻平, 左藤 仁宏, 王 ブンロ, 石田 友梨, 宮川 創, 佐久間 祐惟, 塩井 祥子, 井上 慶淳, 村瀬 友洋, 関 慎太朗, 嵩井 里恵子, 渡邉 眞儀, 中町 信孝, 幾浦 裕之
    • Organizer
      じんもんこん2023 人文科学とコンピュータシンポジウム「人文学のためのデータインフラストラクチャー構築に向けて」
    • Related Report
      2023 Annual Research Report
  • [Presentation] 近世・近代の日本語及び沖縄語訳聖書のパラレル・ コーパスの構築2023

    • Author(s)
      宮川創
    • Organizer
      言語資源ワークショップ2023(査読あり)
    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-13   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi