• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

古典漢文依存文法コーパスから日本漢文コーパスへの展開

研究課題

研究課題/領域番号 23K28379
補助金の研究課題番号 23H03690 (2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2023)
応募区分一般
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関京都大学

研究代表者

安岡 孝一  京都大学, 人文科学研究所, 教授 (20230211)

研究分担者 山崎 直樹  関西大学, 外国語学部, 教授 (30230402)
二階堂 善弘  関西大学, 文学部, 教授 (70292258)
師 茂樹  花園大学, 文学部, 教授 (70351294)
鈴木 慎吾  大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (20513360)
守岡 知彦  国文学研究資料館, 研究部, 特任准教授 (40324701)
Wittern C.  京都大学, 人文科学研究所, 教授 (20333560)
池田 巧  京都大学, 人文科学研究所, 教授 (90259250)
李 媛  京都大学, 人文科学研究所, 助教 (90803388)
劉 冠偉  京都大学, 人文科学研究所, 助教 (70910917)
研究期間 (年度) 2023-04-01 – 2027-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
18,330千円 (直接経費: 14,100千円、間接経費: 4,230千円)
2026年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2025年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2024年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2023年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
キーワード言語処理 / 日本漢文
研究開始時の研究の概要

本研究は、白文の日本漢文テキストに対し、形態素解析と依存文法解析をおこなうための日本漢文コーパスを作成し、あわせて、日本漢文の自動解析をおこなうシステムの構築を目指す。この際に、われわれがこれまで研究してきた古典漢文の文法解析手法を、どこまで援用できるか(あるいはできないか)を見極める。

研究実績の概要

本研究は、白文の日本漢文テキストに対し、形態素解析と依存文法解析をおこなうための日本漢文コーパスを作成し、あわせて、日本漢文の自動解析をおこなうシステムの構築を目指す。この際に、われわれがこれまで研究してきた古典漢文の文法解析手法を、どこまで援用できるか(あるいはできないか)を見極めるのが本研究の目標である。
本年度(2023年度)は、日本漢文に対し、形態素解析が可能であるかを見極めることにした。しかしながら、日本漢文と言っても複数のパターンが存在し、これがわれわれを悩ませている。『日本書紀』を例にあげると、α群(古典中国語で直接書かれたと考えられるもの)・β群(上代日本語を漢文に「翻訳」したと考えられるもの)・歌謡(いわゆる万葉仮名で書かれており、上代日本語の音を漢字で表現したもの)の3種類が混在している。これらのうち、α群については、漢字の使用頻度にさえ注意すれば、われわれがこれまで研究してきた古典漢文の解析手法をかなり適用できる。しかしβ群は、単純な漢字頻度の置き換えだけではうまくいかない。ましてや歌謡となると、上代日本語をダイレクトに形態素解析する手法を開発する必要がありそうである。
また、『日本書紀』の検討と並行して、鎌倉・江戸時代の日本漢文についても、いくつか検討をおこなった。そうしたところ、『日本書紀』のβ群の変形がどんどん増大していく上に、北方史料ではアイヌ語が、南方史料では琉球語が紛れ込んでくる、という、かなり複雑な様相を呈することが明らかとなった。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

近代(特に江戸時代)の日本漢文においては、『日本書紀』でいうところのβ群の変形が増えていく上、北方史料ではアイヌ語が、南方史料では琉球語が紛れ込んでくる、という、かなり複雑な様相を呈する。しかし、この時代のアイヌ語と琉球語は、古典中国語とも日本語とも異なる言語であり、現時点のわれわれに、これらの混在が扱えるとは考えにくい。近代の日本漢文に対する形態素解析は、とりあえずは後回しとした上で、まずは『日本書紀』に注力したい。

今後の研究の推進方策

『日本書紀』の形態素解析に、まずは全力を注ぐことにする。特にβ群は、その後の時代にも影響を及ぼすことから、かなり注意しつつ品詞付与をおこなう。一方、『日本書紀』の歌謡については、漢字のみで書かれているものの、カナの一種で書かれた上代日本語とみなす方がスジが良さそうなので、その方向で形態素解析できないか検討を続ける。

報告書

(1件)
  • 2023 実績報告書
  • 研究成果

    (8件)

すべて 2023 その他

すべて 雑誌論文 (5件) (うち査読あり 2件、 オープンアクセス 5件) 学会発表 (2件) 備考 (1件)

  • [雑誌論文] Sequence-Labeling RoBERTa Model for Dependency-Parsing in Classical Chinese and Its Application to Vietnamese and Thai2023

    • 著者名/発表者名
      Yasuoka Koichi
    • 雑誌名

      8th International Conference on Business and Industrial Research

      巻: ICBIR 2023 ページ: 169-173

    • DOI

      10.1109/icbir57571.2023.10147628

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] 『日本書紀』Universal Dependenciesへの挑戦2023

    • 著者名/発表者名
      安岡孝一, ウィッテルン クリスティアン, 池田巧, 藤田一乘, 守岡知彦, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹
    • 雑誌名

      人文科学とコンピュータシンポジウム「じんもんこん2023」論文集

      巻: 2023 ページ: 169-176

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] アイヌ語訳『五倫名義解』Universal Dependencies並行コーパスへの挑戦2023

    • 著者名/発表者名
      安岡孝一, 安岡素子
    • 雑誌名

      東洋学へのコンピュータ利用

      巻: 36 ページ: 3-37

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] 大型漢籍テキスト・データベースにおける分類型検索のための一考察2023

    • 著者名/発表者名
      Christian Wittern
    • 雑誌名

      東洋学へのコンピュータ利用

      巻: 36 ページ: 39-69

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] 『蝦夷島奇觀』における漢訳アイヌ語について2023

    • 著者名/発表者名
      安岡孝一, 安岡素子
    • 雑誌名

      日本漢字学会研究大会予稿集

      巻: 6 ページ: 49-70

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [学会発表] 『日本書紀』Universal Dependenciesへの挑戦2023

    • 著者名/発表者名
      安岡孝一
    • 学会等名
      人文科学とコンピュータシンポジウム「じんもんこん2023」
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 『蝦夷島奇觀』における漢訳アイヌ語について2023

    • 著者名/発表者名
      安岡孝一
    • 学会等名
      日本漢字学会第6回研究大会
    • 関連する報告書
      2023 実績報告書
  • [備考] 「古典中国語コーパスの応用研究」共同研究班ログ

    • URL

      http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/

    • 関連する報告書
      2023 実績報告書

URL: 

公開日: 2023-04-18   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi