2017 Fiscal Year Annual Research Report
日本語歴史コーパスの多層的拡張による精密化とその活用
Project/Area Number |
15H01883
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
松本 裕治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (10211575)
市村 太郎 常葉大学, 教育学部, 講師 (10701352)
村上 謙 関西学院大学, 文学部, 教授 (20431728)
冨士池 優美 玉川大学, 文学部, 准教授 (20510572)
鴻野 知暁 東京大学, 大学院総合文化研究科, 助教 (30751515)
岡島 昭浩 大阪大学, 文学研究科, 教授 (50194345)
田中 牧郎 明治大学, 国際日本学部, 専任教授 (90217076)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 准教授 (90415612)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 日本語史 / コーパス / アノテーション / 自然言語処理 |
Outline of Annual Research Achievements |
万葉集を扱う「上代グループ」、八代集と散文中の和歌を扱う「和歌グループ」、近松世話物浄瑠璃を中心とする「近世グループ」、近代雑誌コーパスを補う新資料を対象とする「近代グループ」、およびコーパス整備のためのツールとデータベースを開発する「言語処理グループ」の5つのグループで研究活動を行った。 【上代グループ】は、昨年度に引き続き『万葉集』の形態論情報の整備を行い、原文(万葉仮名)テキストとの対応付けを完了してコーパス検索アプリケーション「中納言」上で公開した。【和歌グループ】は、八代集テキストのコーパス化を進めるとともに、歌人情報のデータベースとの関連づけを行った。【近世グループ】は、近松の世話物浄瑠璃のテキストに対して掛詞情報のアノテーションを行った。また、洒落本・人情本における多重の読みを持つテキストについてコーパス化の検討を行った。【近代グループ】は、選定した明治初期口語資料の形態論情報付与を継続するとともに、『東洋学芸雑誌』のXML化を完了し、形態論情報の付与に着手した。上記の各グループは、国立国語研究所の共同研究プロジェクト「通時コーパスの構築と日本語史研究の新展開」と連携して、コーパスを活用した各時代の言語研究を行った。【言語処理グループ】は、原文と校訂本文の対応付けを半自動で行うアライメントツールにより「キリシタン資料」の原文ローマ字本文と漢字かな交じり本文との対応付を行った。また、拡張した「形態論情報データベース」上で原文情報と多重の形態論情報を編集するためのツールの開発をおこない、必要なツールの整備を完了した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「万葉集」のコーパスを万葉仮名の原文と対応付けた上で、コーパス検索アプリケーション「中納言」上で公開を完了した。また、近代語の明治初期口語資料や「東洋学芸雑誌」のコーパス化も順調に進展している。さらに技術面においても、キリシタン資料のローマ字本文と漢字仮名交じり文の対応付けに応用するなど、十分な成果が得られている。
|
Strategy for Future Research Activity |
最終年度のみを残す今後の研究では、年度末までに近代語資料のコーパスを公開することを目指す。また、和歌集と近松世話物については、公開に向けた形態論情報の整備を進める。 また、国立国語研究所の共同研究プロジェクト「通時コーパスの構築と日本語史研究の新展開」と連携して、コーパスを活用した各時代の言語研究を行う。
|