古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究課題

研究課題/領域番号	20H04481
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	京都大学
研究代表者	安岡孝一京都大学, 人文科学研究所, 教授 (20230211)
研究分担者	山崎直樹関西大学, 外国語学部, 教授 (30230402) 二階堂善弘関西大学, 文学部, 教授 (70292258) 師茂樹花園大学, 文学部, 教授 (70351294) Wittern C. 京都大学, 人文科学研究所, 教授 (20333560) 池田巧京都大学, 人文科学研究所, 教授 (90259250) 守岡知彦京都大学, 人文科学研究所, 助教 (40324701) 白須裕之京都大学, 人文科学研究所, 助教 (30828570) 鈴木慎吾大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (20513360)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円) 2022年度: 6,760千円 (直接経費: 5,200千円、間接経費: 1,560千円) 2021年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円) 2020年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
キーワード	言語処理 / 古典漢文 / 孤立語
研究開始時の研究の概要	本研究では、漢から清にかけて大量に蓄積された古典漢文テキストに対し、品詞情報を付加した形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け構造、節と節の間の係り受け構造、さらには文と文の間の係り受け構造を、自動抽出する手法を構築する。本研究は、古典漢文における構文解析の主要な部分となる研究であり、文法的な構造化がおこなわれず白文（単なる漢字の列）のままで放置されている大量の古典漢文テキストに対し、その構造化すなわち文法解析をおこなうための基礎的手法となるものである。
研究成果の概要	古典漢文の白文（単なる漢字の列）に対し、文切り、単語の組み上げ、品詞付与、単語間の係り受け解析、節の組み上げ、節間の係り受け解析、をおこなう手法を開発した。この手法を、言語モデルRoBERTa-Classical-Chineseをチューニングする形で、実装・公開をおこなった。また、この手法が、ベトナム語やタイ語にも適用可能であったことから、同様に実装・公開をおこなった。
研究成果の学術的意義や社会的意義	学術的意義としては、古典漢文の白文（単なる漢字の列）が、本研究の手法により、文・節・単語の単位に区切ることが出来るようになる上に、それらの関係（どの単語が動詞で、その主語や目的語はどれなのか、など）が、非常に高い精度で自動解析できるようになった。一方、社会的意義としては、本研究の手法が、ベトナム語やタイ語にも適用可能であるという点が挙げられる。ベトナム語もタイ語も、単語の切れ目すら見極めるのが難しい言語であり、それが自動解析できるようになる意義は大きい。

報告書

(4件)

研究成果
(24件)

すべて 2023 2022 2021 2020 その他

すべて国際共同研究 (8件) 雑誌論文 (11件) (うち査読あり 6件、オープンアクセス 11件) 学会発表 (3件) (うち国際学会 1件、招待講演 3件) 備考 (2件)

[国際共同研究] カレル大学(チェコ)
- 関連する報告書
  2022 実績報告書
[国際共同研究] カレル大学(チェコ)
- 関連する報告書
  2021 実績報告書
[国際共同研究] スタンフォード大学(米国)
- 関連する報告書
  2021 実績報告書
[国際共同研究] 北京理工大学/南京農業大学(中国)
- 関連する報告書
  2021 実績報告書
[国際共同研究] 東呉大学(その他の国・地域（台湾）)
- 関連する報告書
  2021 実績報告書
[国際共同研究] カレル大学(チェコ)
- 関連する報告書
  2020 実績報告書
[国際共同研究] スタンフォード大学(米国)
- 関連する報告書
  2020 実績報告書
[国際共同研究] 東呉大学(その他の国・地域（台湾）)
- 関連する報告書
  2020 実績報告書
[雑誌論文] Sequence-Labeling RoBERTa Model for Dependency-Parsing in Classical Chinese and Its Application to Vietnamese and Thai2023
- 著者名/発表者名
  Yasuoka Koichi
- 雑誌名
  
  8th International Conference on Business and Industrial Research
  
  巻: ICBIR 2023 ページ: 169-173
- DOI
  10.1109/icbir57571.2023.10147628
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Universal DependenciesとBERT/RoBERTaモデルによる古典中国語情報処理 (in Korean)2022
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  Journal of Applied Studies on Sinograph and Literary Sinitic
  
  巻: 1 ページ: 127-163
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 古典中国語の形態素解析と係り受け解析2022
- 著者名/発表者名
  安岡孝一, 安岡素子
- 雑誌名
  
  槿域漢文学会2022年秋季企画学術大会
  
  巻: 2022 ページ: 171-183
- 関連する報告書
  2022 実績報告書
- オープンアクセス
[雑誌論文] 画像とテキストの位置づけ2022
- 著者名/発表者名
  二階堂善弘
- 雑誌名
  
  KU-ORCASが開くデジタル化時代の東アジア文化研究
  
  巻: 2022 ページ: 123-130
- URL
  https://kansai-u.repo.nii.ac.jp/records/22571
- 関連する報告書
  2022 実績報告書
- オープンアクセス
[雑誌論文] 古典中国語（漢文）Universal Dependenciesとその応用2022
- 著者名/発表者名
  安岡孝一, ウィッテルンクリスティアン, 守岡知彦, 池田巧, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹, 藤田一乘
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 355-363
- NAID
  120007192875
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  人文科学とコンピュータシンポジウム「じんもんこん2021」論文集
  
  巻: 2021 ページ: 104-109
- NAID
  120007174942
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021
- 著者名/発表者名
  守岡知彦
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 69-87
- 関連する報告書
  2021 実績報告書
- オープンアクセス
[雑誌論文] TransformersのBERTは共通テスト『国語』を係り受け解析する夢を見るか2021
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 3-34
- NAID
  120006979744
- 関連する報告書
  2020 実績報告書
- オープンアクセス
[雑誌論文] Kanripo X: A tagset for connecting digital texts2021
- 著者名/発表者名
  Christian Wittern
- 雑誌名
  
  東洋学へのコンピュータ利用
  
  巻: 33 ページ: 35-67
- 関連する報告書
  2020 実績報告書
- オープンアクセス
[雑誌論文] Universal Dependenciesにもとづく多言語係り受け可視化ツールdeplacy2020
- 著者名/発表者名
  安岡孝一
- 雑誌名
  
  人文科学とコンピュータシンポジウム「じんもんこん2020」論文集
  
  巻: 2020 ページ: 95-100
- NAID
  170000183904
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Viewpoints on the Structural Description of Chinese Characters2020
- 著者名/発表者名
  Tomohiko Morioka
- 雑誌名
  
  Grapholinguistics in the 21st Century―2020
  
  巻: Part II ページ: 683-712
- DOI
  10.36824/2020-graf-mori
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[学会発表] 古典中国語の形態素解析と係り受け解析2022
- 著者名/発表者名
  安岡孝一
- 学会等名
  槿域漢文学会2022年秋季企画学術大会
- 関連する報告書
  2022 実績報告書
- 国際学会 / 招待講演
[学会発表] 漢字・漢語・漢文の言語情報処理2021
- 著者名/発表者名
  安岡孝一
- 学会等名
  日本ソフトウェア科学会第38回大会
- 関連する報告書
  2021 実績報告書
- 招待講演
[学会発表] 世界のUniversal Dependenciesと係り受け解析ツール群2021
- 著者名/発表者名
  安岡孝一
- 学会等名
  第3回Universal Dependencies公開研究会
- 関連する報告書
  2021 実績報告書
- 招待講演
[備考] 「古典中国語のコーパスの研究」共同研究班ログ
- URL
  http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/archive2023.html
- 関連する報告書
  2022 実績報告書
[備考] 「古典中国語のコーパスの研究」共同研究班ログ
- URL
  http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/
- 関連する報告書
  2021 実績報告書 2020 実績報告書

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

研究代表者

安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)

17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)

報告書

研究成果

[国際共同研究] カレル大学(チェコ)

関連する報告書

[国際共同研究] カレル大学(チェコ)

関連する報告書

[国際共同研究] スタンフォード大学(米国)

関連する報告書

[国際共同研究] 北京理工大学/南京農業大学(中国)

関連する報告書

[国際共同研究] 東呉大学(その他の国・地域（台湾）)

関連する報告書

[国際共同研究] カレル大学(チェコ)

関連する報告書

[国際共同研究] スタンフォード大学(米国)

関連する報告書

[国際共同研究] 東呉大学(その他の国・地域（台湾）)

関連する報告書

[雑誌論文] Sequence-Labeling RoBERTa Model for Dependency-Parsing in Classical Chinese and Its Application to Vietnamese and Thai2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Universal DependenciesとBERT/RoBERTaモデルによる古典中国語情報処理 (in Korean)2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 古典中国語の形態素解析と係り受け解析2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 画像とテキストの位置づけ2022

著者名/発表者名

雑誌名

URL

関連する報告書

[雑誌論文] 古典中国語（漢文）Universal Dependenciesとその応用2022

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Transformersを用いた古典中国語(漢文)文切りモデルの製作2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] CHISEのWeb API化の試み、ついでに、RDF化四度目の正直？2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] TransformersのBERTは共通テスト『国語』を係り受け解析する夢を見るか2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Kanripo X: A tagset for connecting digital texts2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Universal Dependenciesにもとづく多言語係り受け可視化ツールdeplacy2020

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Viewpoints on the Structural Description of Chinese Characters2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 古典中国語の形態素解析と係り受け解析2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漢字・漢語・漢文の言語情報処理2021

著者名/発表者名

学会等名

安岡孝一京都大学, 人文科学研究所, 教授 (20230211)