古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出
Project/Area Number |
20H04481
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 直樹 関西大学, 外国語学部, 教授 (30230402)
二階堂 善弘 関西大学, 文学部, 教授 (70292258)
師 茂樹 花園大学, 文学部, 教授 (70351294)
Wittern C. 京都大学, 人文科学研究所, 教授 (20333560)
池田 巧 京都大学, 人文科学研究所, 教授 (90259250)
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
白須 裕之 京都大学, 人文科学研究所, 助教 (30828570)
鈴木 慎吾 大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 准教授 (20513360)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2022: ¥6,760,000 (Direct Cost: ¥5,200,000、Indirect Cost: ¥1,560,000)
Fiscal Year 2021: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2020: ¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
|
Keywords | 言語処理 / 古典漢文 |
Outline of Research at the Start |
本研究では、漢から清にかけて大量に蓄積された古典漢文テキストに対し、品詞情報を付加した形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け構造、節と節の間の係り受け構造、さらには文と文の間の係り受け構造を、自動抽出する手法を構築する。本研究は、古典漢文における構文解析の主要な部分となる研究であり、文法的な構造化がおこなわれず白文(単なる漢字の列)のままで放置されている大量の古典漢文テキストに対し、その構造化すなわち文法解析をおこなうための基礎的手法となるものである。
|
Outline of Annual Research Achievements |
本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。 本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル(単語・節・文)での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。 本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語(漢文)Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
古典中国語の言語モデルRoBERTa-Classical-Chineseは、言語モデルとして高性能で、単語レベルでの係り受け解析のみならず、節レベルでの係り受け解析にも転用可能であった。プログラミングに多少てこずったものの、全体としてはほぼ予想通りであり、おおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
単語レベル・節レベルでの解析はほぼ完成したが、文レベルの解析については、現時点では文切りまでしか完成していない。文レベルでの係り受け解析を、なんとか2022年度に完成させたいが、言語モデルであるRoBERTa-Classical-Chineseをファインチューニングする形では、多少無理があるようであり、もう一アイデアほしいところである。
|
Report
(2 results)
Research Products
(17 results)