古典漢文依存文法コーパスから日本漢文コーパスへの展開
Project/Area Number |
23K28379
|
Project/Area Number (Other) |
23H03690 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
安岡 孝一 京都大学, 人文科学研究所, 教授 (20230211)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 直樹 関西大学, 外国語学部, 教授 (30230402)
二階堂 善弘 関西大学, 文学部, 教授 (70292258)
師 茂樹 花園大学, 文学部, 教授 (70351294)
鈴木 慎吾 大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (20513360)
守岡 知彦 国文学研究資料館, 研究部, 特任准教授 (40324701)
Wittern C. 京都大学, 人文科学研究所, 教授 (20333560)
池田 巧 京都大学, 人文科学研究所, 教授 (90259250)
李 媛 京都大学, 人文科学研究所, 助教 (90803388)
劉 冠偉 京都大学, 人文科学研究所, 助教 (70910917)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,330,000 (Direct Cost: ¥14,100,000、Indirect Cost: ¥4,230,000)
Fiscal Year 2026: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
Fiscal Year 2025: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
Fiscal Year 2024: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
Fiscal Year 2023: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
|
Keywords | 言語処理 / 日本漢文 |
Outline of Research at the Start |
本研究は、白文の日本漢文テキストに対し、形態素解析と依存文法解析をおこなうための日本漢文コーパスを作成し、あわせて、日本漢文の自動解析をおこなうシステムの構築を目指す。この際に、われわれがこれまで研究してきた古典漢文の文法解析手法を、どこまで援用できるか(あるいはできないか)を見極める。
|
Outline of Annual Research Achievements |
本研究は、白文の日本漢文テキストに対し、形態素解析と依存文法解析をおこなうための日本漢文コーパスを作成し、あわせて、日本漢文の自動解析をおこなうシステムの構築を目指す。この際に、われわれがこれまで研究してきた古典漢文の文法解析手法を、どこまで援用できるか(あるいはできないか)を見極めるのが本研究の目標である。 本年度(2023年度)は、日本漢文に対し、形態素解析が可能であるかを見極めることにした。しかしながら、日本漢文と言っても複数のパターンが存在し、これがわれわれを悩ませている。『日本書紀』を例にあげると、α群(古典中国語で直接書かれたと考えられるもの)・β群(上代日本語を漢文に「翻訳」したと考えられるもの)・歌謡(いわゆる万葉仮名で書かれており、上代日本語の音を漢字で表現したもの)の3種類が混在している。これらのうち、α群については、漢字の使用頻度にさえ注意すれば、われわれがこれまで研究してきた古典漢文の解析手法をかなり適用できる。しかしβ群は、単純な漢字頻度の置き換えだけではうまくいかない。ましてや歌謡となると、上代日本語をダイレクトに形態素解析する手法を開発する必要がありそうである。 また、『日本書紀』の検討と並行して、鎌倉・江戸時代の日本漢文についても、いくつか検討をおこなった。そうしたところ、『日本書紀』のβ群の変形がどんどん増大していく上に、北方史料ではアイヌ語が、南方史料では琉球語が紛れ込んでくる、という、かなり複雑な様相を呈することが明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
近代(特に江戸時代)の日本漢文においては、『日本書紀』でいうところのβ群の変形が増えていく上、北方史料ではアイヌ語が、南方史料では琉球語が紛れ込んでくる、という、かなり複雑な様相を呈する。しかし、この時代のアイヌ語と琉球語は、古典中国語とも日本語とも異なる言語であり、現時点のわれわれに、これらの混在が扱えるとは考えにくい。近代の日本漢文に対する形態素解析は、とりあえずは後回しとした上で、まずは『日本書紀』に注力したい。
|
Strategy for Future Research Activity |
『日本書紀』の形態素解析に、まずは全力を注ぐことにする。特にβ群は、その後の時代にも影響を及ぼすことから、かなり注意しつつ品詞付与をおこなう。一方、『日本書紀』の歌謡については、漢字のみで書かれているものの、カナの一種で書かれた上代日本語とみなす方がスジが良さそうなので、その方向で形態素解析できないか検討を続ける。
|
Report
(1 results)
Research Products
(8 results)