研究課題/領域番号 |
15K12888
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 准教授 (80379528)
|
研究分担者 |
中田 節子 (有田節子) 立命館大学, 言語教育情報研究科, 教授 (70263994)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | コーパス / アノテーション / 係り受け / 述語項構造 / 分類語彙表 / 節境界 |
研究実績の概要 |
係り受け・述語項構造アノテーションについては、昨年度作成した明六雑誌データ6記事を統合し、コーパス管理システム『ChaKi.NET』で可視化する環境を構築した。同内容は日本語学会2016年度秋季大会で発表した。年度末に同データの Universal Dependency 対応を進めた。2017年度中に対外発表を行う予定である。 節境界アノテーションについては、『現代日本語書き言葉均衡コーパス』の新聞記事データ 54ファイルに対して、悉皆付与し、言語資源活用ワークショップ2016でアノテーション仕様について発表した。2017年度に開かれる国際会議に投稿予定である。近代語の節境界アノテーションについては、問題の分析にとどまったが、今後現代語のデータに基づき、アノテーションを進める。 また、試行的に通時的に意味情報アノテーションが可能かどうかを検証するために、『現代日本語書き言葉均衡コーパス』『日本語歴史コーパス』に対して『分類語彙表』番号付与の検討を行った。具体的には、現代の新聞記事・狂言データ・竹取物語について、作業を行った。この作業環境を進めるために、形態素解析用辞書 UniDic と分類語彙表番号対応表を用いた、自動ラベリング環境を整えた。 作業の全体について「通時コーパス」シンポジウム2017において、「『日本語歴史コーパス』に対する統語・意味情報アノテーション」というタイトルで発表を行った。今後、本挑戦的萌芽研究 15K12888 (H27-H28)の成果に基づき、基盤研究(A) 17H00917 (H29-H33)「日本語歴史コーパスに対する統語・意味情報アノテーション」を進めていきたい。
|