2017 Fiscal Year Annual Research Report
統語・意味解析情報タグ付きコーパス開発用アノテーション研究:複文を中心に
Project/Area Number |
15H03210
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
|
Co-Investigator(Kenkyū-buntansha) |
岸本 秀樹 神戸大学, 人文学研究科, 教授 (10234220)
野田 尚史 大学共同利用機関法人人間文化研究機構国立国語研究所, 日本語教育研究領域, 教授 (20144545)
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
バトラー アラステア 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 研究員 (90588873)
HORN S.W. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 研究員 (70801538)
窪田 悠介 筑波大学, 人文社会系, 助教 (60745149)
長崎 郁 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 研究員 (70401445)
|
Project Period (FY) |
2015-04-01 – 2020-03-31
|
Keywords | 関係節 / 従属節 / アノテーション / 統語・意味解析 |
Outline of Annual Research Achievements |
本研究は現代日本語の特徴の一つである関係節および従属節を中心とする複文について言語学的情報を検索、抽出するために必要なアノテーション方法を研究し、それに基づいて約5万文(約90万語)に対してタグ付け作業を行い、複文に関するより高度の環境整備を整えることを目標とする。この作業は国立国語研究所の「統語・意味解析コーパスの開発と言語研究」プロジェクトと連携をしながら進め、以下の成果があった。 ① コーパス構築:2万文規模のコーパスの公開(国立国語研究所のウェブサイトを通じて、http://npcmj.ninjal.ac.jp/) ②研究発表:本課題の共同研究者が以下の研究会で研究成果の一部を発表した:(a)言語資源活用ワークショップ(国立国語研究所、2017年9月6日)口頭発表1件、(b)日本語文法学会第18回大会(筑波大学、2017年12月2日) でパネルセッション「統語・意味解析情報をタグ付けした日本語コーパスの開発 ―アノテーションの方法と文法研究への応用―」、(c)国際シンポジウムNINJAL International Symposium "Exploiting Parsed Corpora: Application in Research, Pedagogy and Processing(2017年12月9日@国語研究所)で口頭発表を3件、(d)言語処理学会第24回年次大会(2018年3月12日@岡山大学)で発表を1件、(e)東海意味論研究会(名古屋学院大学、2018年7月23日)口頭発表2件
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
① 昨年度の引き続き、アノテーション方法を研究する研究班が関係節を含む従属分のアノテーション基準についてデータに基づいて研究を進め、基準を決定した。また、アノテーションを施す日本語のテキスト(新聞記事)を選定した。 ② アノテーションを実施する開発班では研究補助員を指導してアノテーションを実施した。 上記①と②の作業を国立国語研究所の「統語・意味解析コーパスの開発と言語研究」プロジェクトと連携をしながら進めた。 ③研究成果をネットで一般公開するためにインターフェースの試作版を内部公開し、共同研究者から修正・改良についてご意見をいただいた。これに基づき来年度はさらに改良を加えインターフェースを一般公開する。 ④研究成果の一部を国内外の研究会で発表した。
|
Strategy for Future Research Activity |
本研究が開始していてからちょうど3年たち、アノテーション方法もほぼ固まりつつあり、また、アノテーションを施す実施体制も確立している。しかし、今後も、アノテーション方法の研究を続けると同時にコーパス開発も継続する。各文について得られた意味解析を手掛かりとして、アノテーションの評価を行い、アノテーション方法を改良する。残りの2年間ではデータの量を増やし、また、検索のしやすさを実現するために内部公開中のインターフェースに文字列検索などの機能を追加し、ネットを通じて国内外に向けて発信する。加えて、アノテーション方法やインターフェース開発に関する成果を国内外の学会発表、論文執筆を通じて発信する。
|
Research Products
(8 results)