• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究課題

研究課題/領域番号 20H04481
研究機関京都大学

研究代表者

安岡 孝一  京都大学, 人文科学研究所, 教授 (20230211)

研究分担者 山崎 直樹  関西大学, 外国語学部, 教授 (30230402)
二階堂 善弘  関西大学, 文学部, 教授 (70292258)
師 茂樹  花園大学, 文学部, 教授 (70351294)
Wittern C.  京都大学, 人文科学研究所, 教授 (20333560)
池田 巧  京都大学, 人文科学研究所, 教授 (90259250)
守岡 知彦  京都大学, 人文科学研究所, 助教 (40324701)
白須 裕之  京都大学, 人文科学研究所, 助教 (30828570)
鈴木 慎吾  大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 准教授 (20513360)
研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード言語処理 / 古典漢文
研究実績の概要

本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。
本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル(単語・節・文)での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。
本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語(漢文)Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

古典中国語の言語モデルRoBERTa-Classical-Chineseは、言語モデルとして高性能で、単語レベルでの係り受け解析のみならず、節レベルでの係り受け解析にも転用可能であった。プログラミングに多少てこずったものの、全体としてはほぼ予想通りであり、おおむね順調に進展していると言える。

今後の研究の推進方策

単語レベル・節レベルでの解析はほぼ完成したが、文レベルの解析については、現時点では文切りまでしか完成していない。文レベルでの係り受け解析を、なんとか2022年度に完成させたいが、言語モデルであるRoBERTa-Classical-Chineseをファインチューニングする形では、多少無理があるようであり、もう一アイデアほしいところである。

  • 研究成果

    (10件)

すべて 2022 2021 その他

すべて 国際共同研究 (4件) 雑誌論文 (3件) (うち査読あり 2件、 オープンアクセス 3件) 学会発表 (2件) (うち招待講演 2件) 備考 (1件)

  • [国際共同研究] カレル大学(チェコ)

    • 国名
      チェコ
    • 外国機関名
      カレル大学
  • [国際共同研究] スタンフォード大学(米国)

    • 国名
      米国
    • 外国機関名
      スタンフォード大学
  • [国際共同研究] 北京理工大学/南京農業大学(中国)

    • 国名
      中国
    • 外国機関名
      北京理工大学/南京農業大学
  • [国際共同研究] 東呉大学(その他の国・地域(台湾))

    • 国名
      その他の国・地域
    • 外国機関名
      東呉大学
  • [雑誌論文] 古典中国語(漢文)Universal Dependenciesとその応用2022

    • 著者名/発表者名
      安岡孝一, ウィッテルン クリスティアン, 守岡知彦, 池田巧, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹, 藤田一乘
    • 雑誌名

      情報処理学会論文誌

      巻: 63 ページ: 355-363

    • 査読あり / オープンアクセス
  • [雑誌論文] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021

    • 著者名/発表者名
      安岡孝一
    • 雑誌名

      人文科学とコンピュータシンポジウム「じんもんこん2021」論文集

      巻: 2021 ページ: 104-109

    • 査読あり / オープンアクセス
  • [雑誌論文] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直?2021

    • 著者名/発表者名
      守岡知彦
    • 雑誌名

      東洋学へのコンピュータ利用

      巻: 33 ページ: 69-87

    • オープンアクセス
  • [学会発表] 漢字・漢語・漢文の言語情報処理2021

    • 著者名/発表者名
      安岡孝一
    • 学会等名
      日本ソフトウェア科学会第38回大会
    • 招待講演
  • [学会発表] 世界のUniversal Dependenciesと係り受け解析ツール群2021

    • 著者名/発表者名
      安岡孝一
    • 学会等名
      第3回Universal Dependencies公開研究会
    • 招待講演
  • [備考] 「古典中国語のコーパスの研究」共同研究班ログ

    • URL

      http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi