2020 年度実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究課題

研究課題/領域番号	20H04481
研究機関	京都大学
研究代表者	安岡孝一京都大学, 人文科学研究所, 教授 (20230211)
研究分担者	山崎直樹関西大学, 外国語学部, 教授 (30230402) 二階堂善弘関西大学, 文学部, 教授 (70292258) 師茂樹花園大学, 文学部, 教授 (70351294) Wittern C. 京都大学, 人文科学研究所, 教授 (20333560) 池田巧京都大学, 人文科学研究所, 教授 (90259250) 守岡知彦京都大学, 人文科学研究所, 助教 (40324701) 白須裕之京都大学, 人文科学研究所, 助教 (30828570) 鈴木慎吾大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 講師 (20513360)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	言語処理 / 古典漢文
研究実績の概要	本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル（単語・節・文）での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。本年度(2020年度)は、単語間の係り受け関係を高い精度で抽出する方法を検討し、古典中国語の言語モデルRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)と、それを用いた言語解析器SuPar-Kanbunを製作した。SuPar-Kanbunは、単語間の係り受けを解析するのみならず、白文における文切りにも高い性能を示している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由古典中国語の言語モデルRoBERTa-Classical-Chineseと、それを用いた言語解析器SuPar-Kanbunの製作に成功したことから、ほぼ予定通りに研究が進捗していると言ってよい。また、これに合わせ、古典中国語コーパスUD_Classical_Chinese-Kyotoは、『孟子』『論語』『禮記』『十八史略』の全文をコーパス化しており、こちらの進捗もほぼ予定通りである。
今後の研究の推進方策	今後は、節レベルでの係り受けから、文レベルへの係り受けへと、研究を推進させる予定である。ただ、打ち合わせや発表等を含め、共同研究のほぼ全てがオンラインでおこなわれており、どうしても情報機器を多く必要とする。旅費を削りつつ、物品費に充当していく予定である。

研究成果
(8件)

すべて 2021 2020 その他

すべて国際共同研究 (3件) 雑誌論文 (4件) (うち査読あり 2件、オープンアクセス 4件) 備考 (1件)

[国際共同研究] カレル大学(チェコ)
- 国名
  チェコ
- 外国機関名
  カレル大学
[国際共同研究] スタンフォード大学(米国)
- 国名
  米国
- 外国機関名
  スタンフォード大学
[国際共同研究] 東呉大学(その他の国・地域（台湾）)
- 国名
  その他の国・地域（台湾）
- 外国機関名
  東呉大学
[雑誌論文] TransformersのBERTは共通テスト『国語』を係り受け解析する夢を見るか2021
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 3-34
- オープンアクセス
[雑誌論文] Kanripo X: A tagset for connecting digital texts2021
- 著者名/発表者名
  Christian Wittern
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 35-67
- オープンアクセス
[雑誌論文] Universal Dependenciesにもとづく多言語係り受け可視化ツールdeplacy2020
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  人文科学とコンピュータシンポジウム「じんもんこん2020」論文集
  
  巻: 2020 ページ: 95-100
- 査読あり / オープンアクセス
[雑誌論文] Viewpoints on the Structural Description of Chinese Characters2020
- 著者名/発表者名
  Tomohiko Morioka
- 雑誌名
  
  Grapholinguistics in the 21st Century―2020
  
  巻: Part II ページ: 683-712
- DOI
  10.36824/2020-graf-mori
- 査読あり / オープンアクセス
[備考] 「古典中国語のコーパスの研究」共同研究班ログ
- URL
  http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/

2020 年度 実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究代表者

安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] カレル大学(チェコ)

国名

外国機関名

[国際共同研究] スタンフォード大学(米国)

国名

外国機関名

[国際共同研究] 東呉大学(その他の国・地域（台湾）)

国名

外国機関名

[雑誌論文] TransformersのBERTは共通テスト『国語』を係り受け解析する夢を見るか2021

著者名/発表者名

雑誌名

[雑誌論文] Kanripo X: A tagset for connecting digital texts2021

著者名/発表者名

雑誌名

[雑誌論文] Universal Dependenciesにもとづく多言語係り受け可視化ツールdeplacy2020

著者名/発表者名

雑誌名

[雑誌論文] Viewpoints on the Structural Description of Chinese Characters2020

著者名/発表者名

雑誌名

DOI

[備考] 「古典中国語のコーパスの研究」共同研究班ログ

URL

2020 年度実績報告書

安岡孝一京都大学, 人文科学研究所, 教授 (20230211)