2015 Fiscal Year Annual Research Report
日本語歴史コーパスの多層的拡張による精密化とその活用
Project/Area Number |
15H01883
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
村上 謙 関西学院大学, 文学部, 教授 (20431728)
冨士池 優美 中央大学, 文学部, 准教授 (20510572)
近藤 明日子 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (30425722)
鴻野 知暁 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (30751515)
岡島 昭浩 大阪大学, 文学研究科, 教授 (50194345)
田中 牧郎 明治大学, 国際日本学部, 専任教授 (90217076)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・構造研究系, 准教授 (90415612)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 日本語史 / コーパス / アノテーション / 形態素解析 / 万葉集 / 近代語 / 日本語歴史コーパス |
Outline of Annual Research Achievements |
上代・和歌・近世・近代の4つのグループに分かれて、『日本語歴史コーパス』の多層的な情報付与に関する研究を行った。 上代グループでは、『万葉集』の読み下し文と原文との対応付け(アラインメント)の研究を行い、高い精度で自動アラインメントを実現することに成功し、コーパス構築用のデータベースに格納した。今後、人手による修正作業を経て広く利用可能な形に整備を行う。 和歌グループでは、八代集のテキスト入手について出版社と交渉を行うとともに、国文学研究資料館によるオープンデータを利用する可能性を検討した。また、和泉書院『勅撰集付新葉集作者索引』をもとに歌人情報データベースの基礎となるデータの作成を行った。 近世グループでは、近松の世話物浄瑠璃のXMLファイル化と形態素解析の試行を行い、2作品について形態論情報の修正に着手した。また、作品に頻出する掛詞について、アノテーションの方法を検討した。 近代グループでは、コーパス化の対象とする明治初期口語資料を選定し、その電子化(テキスト入力)を行ってコーパス化する際の問題点を検証した。また『安愚楽鍋』のコーパス化にも着手した。 上記のコーパス拡張作業と並行して、コーパスを活用した各時代語の研究に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
万葉集のアノテーションについては、研究協力者が転出し交代要員を確保するために時間を要したことからやや遅れを生じたが、読み下し文と原文とのアラインメントについては予定した以上の精度での自動化が実現した。 和歌についてはテキストデータの入手の交渉に遅れを生じているものの、代替データを入手することができた。また、コーパスに付与するメタデータとしての歌人データベースの整備については予定を上回って進展している。 近世の近松浄瑠璃のデータ整備とアノテーションの研究は、予定通り進捗しており、特に大きな障害となる問題は発生していない。 近代の資料選定とデータ整備は予定通り進んでおり、選定資料のうち7作品のテキストデータ化までを終了したほか、『安愚楽鍋』についてはXML化にまで進んだ。 以上、研究計画の全体としてはおおむね順調に進展している。
|
Strategy for Future Research Activity |
上代については、『万葉集』の形態論情報アノテーションと原文アラインメント結果の人手による修正に着手しデータ整備を進める。データ整備完了後には形態論情報と原文のアノテーションを活用した研究に取り組む。 和歌については、八代集のテキストの形態素解析を行うほか、コーパスのメタ情報として付与する歌人情報のデータベースの整備を進める。また、和歌の修辞に対するアノテーションに着手する。 近世語資料については、近松の世話物浄瑠璃の形態素解析と解析結果の修正作業を継続するとともに、頻出する掛詞のアノテーションをコーパスのデータベース上で活用する方法について検討する。 近代語資料については、選定した明治初期口語資料のテキスト入力を進めるとともに、ルビ等で多重化したテキストをデータベース上で適切に扱う方法について検討する。
|
Research Products
(19 results)