2021 年度実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究課題

研究課題/領域番号	20H04481
研究機関	京都大学
研究代表者	安岡孝一京都大学, 人文科学研究所, 教授 (20230211)
研究分担者	山崎直樹関西大学, 外国語学部, 教授 (30230402) 二階堂善弘関西大学, 文学部, 教授 (70292258) 師茂樹花園大学, 文学部, 教授 (70351294) Wittern C. 京都大学, 人文科学研究所, 教授 (20333560) 池田巧京都大学, 人文科学研究所, 教授 (90259250) 守岡知彦京都大学, 人文科学研究所, 助教 (40324701) 白須裕之京都大学, 人文科学研究所, 助教 (30828570) 鈴木慎吾大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 准教授 (20513360)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	言語処理 / 古典漢文
研究実績の概要	本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル（単語・節・文）での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語（漢文）Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由古典中国語の言語モデルRoBERTa-Classical-Chineseは、言語モデルとして高性能で、単語レベルでの係り受け解析のみならず、節レベルでの係り受け解析にも転用可能であった。プログラミングに多少てこずったものの、全体としてはほぼ予想通りであり、おおむね順調に進展していると言える。
今後の研究の推進方策	単語レベル・節レベルでの解析はほぼ完成したが、文レベルの解析については、現時点では文切りまでしか完成していない。文レベルでの係り受け解析を、なんとか2022年度に完成させたいが、言語モデルであるRoBERTa-Classical-Chineseをファインチューニングする形では、多少無理があるようであり、もう一アイデアほしいところである。

研究成果
(10件)

すべて 2022 2021 その他

すべて国際共同研究 (4件) 雑誌論文 (3件) (うち査読あり 2件、オープンアクセス 3件) 学会発表 (2件) (うち招待講演 2件) 備考 (1件)

[国際共同研究] カレル大学(チェコ)
- 国名
  チェコ
- 外国機関名
  カレル大学
[国際共同研究] スタンフォード大学(米国)
- 国名
  米国
- 外国機関名
  スタンフォード大学
[国際共同研究] 北京理工大学/南京農業大学(中国)
- 国名
  中国
- 外国機関名
  北京理工大学/南京農業大学
[国際共同研究] 東呉大学(その他の国・地域（台湾）)
- 国名
  その他の国・地域
- 外国機関名
  東呉大学
[雑誌論文] 古典中国語（漢文）Universal Dependenciesとその応用2022
- 著者名/発表者名
  安岡孝一, ウィッテルンクリスティアン, 守岡知彦, 池田巧, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹, 藤田一乘
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 355-363
- 査読あり / オープンアクセス
[雑誌論文] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  人文科学とコンピュータシンポジウム「じんもんこん2021」論文集
  
  巻: 2021 ページ: 104-109
- 査読あり / オープンアクセス
[雑誌論文] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021
- 著者名/発表者名
  守岡知彦
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 69-87
- オープンアクセス
[学会発表] 漢字・漢語・漢文の言語情報処理2021
- 著者名/発表者名
  安岡孝一
- 学会等名
  日本ソフトウェア科学会第38回大会
- 招待講演
[学会発表] 世界のUniversal Dependenciesと係り受け解析ツール群2021
- 著者名/発表者名
  安岡孝一
- 学会等名
  第3回Universal Dependencies公開研究会
- 招待講演
[備考] 「古典中国語のコーパスの研究」共同研究班ログ
- URL
  http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/

2021 年度 実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究代表者

安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] カレル大学(チェコ)

国名

外国機関名

[国際共同研究] スタンフォード大学(米国)

国名

外国機関名

[国際共同研究] 北京理工大学/南京農業大学(中国)

国名

外国機関名

[国際共同研究] 東呉大学(その他の国・地域（台湾）)

国名

外国機関名

[雑誌論文] 古典中国語（漢文）Universal Dependenciesとその応用2022

著者名/発表者名

雑誌名

[雑誌論文] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021

著者名/発表者名

雑誌名

[雑誌論文] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021

著者名/発表者名

雑誌名

[学会発表] 漢字・漢語・漢文の言語情報処理2021

著者名/発表者名

学会等名

[学会発表] 世界のUniversal Dependenciesと係り受け解析ツール群2021

著者名/発表者名

学会等名

[備考] 「古典中国語のコーパスの研究」共同研究班ログ

URL

2021 年度実績報告書

安岡孝一京都大学, 人文科学研究所, 教授 (20230211)