2021 Fiscal Year Annual Research Report

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

Research Project

Project/Area Number	20H04481
Research Institution	Kyoto University
Principal Investigator	安岡孝一京都大学, 人文科学研究所, 教授 (20230211)
Co-Investigator(Kenkyū-buntansha)	山崎直樹関西大学, 外国語学部, 教授 (30230402) 二階堂善弘関西大学, 文学部, 教授 (70292258) 師茂樹花園大学, 文学部, 教授 (70351294) Wittern C. 京都大学, 人文科学研究所, 教授 (20333560) 池田巧京都大学, 人文科学研究所, 教授 (90259250) 守岡知彦京都大学, 人文科学研究所, 助教 (40324701) 白須裕之京都大学, 人文科学研究所, 助教 (30828570) 鈴木慎吾大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 准教授 (20513360)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	言語処理 / 古典漢文
Outline of Annual Research Achievements	本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル（単語・節・文）での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語（漢文）Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 古典中国語の言語モデルRoBERTa-Classical-Chineseは、言語モデルとして高性能で、単語レベルでの係り受け解析のみならず、節レベルでの係り受け解析にも転用可能であった。プログラミングに多少てこずったものの、全体としてはほぼ予想通りであり、おおむね順調に進展していると言える。
Strategy for Future Research Activity	単語レベル・節レベルでの解析はほぼ完成したが、文レベルの解析については、現時点では文切りまでしか完成していない。文レベルでの係り受け解析を、なんとか2022年度に完成させたいが、言語モデルであるRoBERTa-Classical-Chineseをファインチューニングする形では、多少無理があるようであり、もう一アイデアほしいところである。

Research Products
(10 results)

All 2022 2021 Other

All Int'l Joint Research (4 results) Journal Article (3 results) (of which Peer Reviewed: 2 results, Open Access: 3 results) Presentation (2 results) (of which Invited: 2 results) Remarks (1 results)

[Int'l Joint Research] カレル大学(チェコ)
- Country Name
  CZECH
- Counterpart Institution
  カレル大学
[Int'l Joint Research] スタンフォード大学(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  スタンフォード大学
[Int'l Joint Research] 北京理工大学/南京農業大学(中国)
- Country Name
  CHINA
- Counterpart Institution
  北京理工大学/南京農業大学
[Int'l Joint Research] 東呉大学(その他の国・地域（台湾）)
- Country Name
  その他の国・地域
- Counterpart Institution
  東呉大学
[Journal Article] 古典中国語（漢文）Universal Dependenciesとその応用2022
- Author(s)
  安岡孝一, ウィッテルンクリスティアン, 守岡知彦, 池田巧, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹, 藤田一乘
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 63 Pages: 355-363
- Peer Reviewed / Open Access
[Journal Article] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021
- Author(s)
  安岡孝一
- Journal Title
  
  人文科学とコンピュータシンポジウム「じんもんこん2021」論文集
  
  Volume: 2021 Pages: 104-109
- Peer Reviewed / Open Access
[Journal Article] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021
- Author(s)
  守岡知彦
- Journal Title
  
  東洋学へのコンピュータ利用
  
  Volume: 33 Pages: 69-87
- Open Access
[Presentation] 漢字・漢語・漢文の言語情報処理2021
- Author(s)
  安岡孝一
- Organizer
  日本ソフトウェア科学会第38回大会
- Invited
[Presentation] 世界のUniversal Dependenciesと係り受け解析ツール群2021
- Author(s)
  安岡孝一
- Organizer
  第3回Universal Dependencies公開研究会
- Invited
[Remarks] 「古典中国語のコーパスの研究」共同研究班ログ
- URL
  http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/

2021 Fiscal Year Annual Research Report

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

Principal Investigator

安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] カレル大学(チェコ)

Country Name

Counterpart Institution

[Int'l Joint Research] スタンフォード大学(米国)

Country Name

Counterpart Institution

[Int'l Joint Research] 北京理工大学/南京農業大学(中国)

Country Name

Counterpart Institution

[Int'l Joint Research] 東呉大学(その他の国・地域（台湾）)

Country Name

Counterpart Institution

[Journal Article] 古典中国語（漢文）Universal Dependenciesとその応用2022

Author(s)

Journal Title

[Journal Article] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021

Author(s)

Journal Title

[Journal Article] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021

Author(s)

Journal Title

[Presentation] 漢字・漢語・漢文の言語情報処理2021

Author(s)

Organizer

[Presentation] 世界のUniversal Dependenciesと係り受け解析ツール群2021

Author(s)

Organizer

[Remarks] 「古典中国語のコーパスの研究」共同研究班ログ

URL

安岡孝一京都大学, 人文科学研究所, 教授 (20230211)