研究課題/領域番号 |
20H04481
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 京都大学 |
研究代表者 |
安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)
|
研究分担者 |
山崎 直樹 関西大学, 外国語学部, 教授 (30230402)
二階堂 善弘 関西大学, 文学部, 教授 (70292258)
師 茂樹 花園大学, 文学部, 教授 (70351294)
Wittern C. 京都大学, 人文科学研究所, 教授 (20333560)
池田 巧 京都大学, 人文科学研究所, 教授 (90259250)
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
白須 裕之 京都大学, 人文科学研究所, 助教 (30828570)
鈴木 慎吾 大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (20513360)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2022年度: 6,760千円 (直接経費: 5,200千円、間接経費: 1,560千円)
2021年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2020年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
|
キーワード | 言語処理 / 古典漢文 / 孤立語 |
研究開始時の研究の概要 |
本研究では、漢から清にかけて大量に蓄積された古典漢文テキストに対し、品詞情報を付加した形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け構造、節と節の間の係り受け構造、さらには文と文の間の係り受け構造を、自動抽出する手法を構築する。本研究は、古典漢文における構文解析の主要な部分となる研究であり、文法的な構造化がおこなわれず白文(単なる漢字の列)のままで放置されている大量の古典漢文テキストに対し、その構造化すなわち文法解析をおこなうための基礎的手法となるものである。
|
研究実績の概要 |
本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。 本年度(2022年度)は、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係を、自動抽出する手法の構築をおこなった。さらにこの手法を、transformers上のRoBERTaモデルで再実装をおこない、文と文との関係記述をおこなう手法の開発をおこなった。具体的には、RoBERTaモデル上に単語間の有向グラフを構築し、この有向グラフの接続確率が最大となるようなUniversal Dependenciesの木構造を抽出する、という手法を実装した。 また、この手法を、古典漢文以外の孤立語へと援用することを試み、タイ語とベトナム語への手法拡張を試してみた。結果として、ベトナム語への拡張は思いのほかうまくいったものの、タイ語への拡張はあまりうまくいかなかった。
|
現在までの達成度 (段落) |
令和4年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和4年度が最終年度であるため、記入しない。
|