研究課題/領域番号 |
16K02654
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
言語学
|
研究機関 | 東北大学 |
研究代表者 |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
|
研究分担者 |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博 鳥取大学, 教育支援・国際交流推進機構, 准教授 (50361150)
|
研究協力者 |
バトラー アラステア J.
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2016年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | コーパス / 日本語 / 統語論 / 意味論 |
研究成果の概要 |
日本語テクストに対し統語・意味解析情報をアノテーションとして与えて開発中のコーパスに関して2つの課題がある。第一に、一般に利用可能なソフトウェアを利用した形態素解析は、正確さおよび情報量の点で問題がある。また論理意味表示において、意味役割はタグ付けされていない。さらに、コーパスの日本語研究への応用法も開拓する必要がある。形態素解析に関しては、幼児言語発達コーパスCHILDES Japanの方式を取り入れて全面的に改訂を行っており、これにより同コーパスデータのツリーバンク化にも道が開けた。意味役割に関しては述語項構造シソーラスとリンク付けを行い、自然言語処理やAIにも応用することが可能になった。
|
研究成果の学術的意義や社会的意義 |
日本語に関してこれまでに利用できなかった、句構造解析にもとづくコーパス NINJAL Parsed Corpus of Modern Japanese を開発することの意義は大きいが、本研究における形態素解析の改善により、それがさらに利用しやすくなった。また、幼児言語発達データのツリーバンク化は、これまでほぼ未開拓であった大量データにもとづく統語・意味能力発達の研究に道を開く。さらに、意味格情報のアノテーションは日本語の意味論的研究の強力なツールとなるだけでなく、言語処理や AI 研究へのインパクトも大きい。
|