2018 Fiscal Year Annual Research Report
Development and application of an advanced corpus with syntactic and semantic information
Project/Area Number |
16K02654
|
Research Institution | Tohoku University |
Principal Investigator |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
|
Co-Investigator(Kenkyū-buntansha) |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博 鳥取大学, 教育支援・国際交流推進機構, 准教授 (50361150)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | コーパス / 日本語 / 統語論 / 意味論 |
Outline of Annual Research Achievements |
科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成29年度の研究では、引き続きこれまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。 以上の作業を進めながら、形態素解析の方法を根本的に変えるための改定作業を進めた。新しい方式では、各単語の統語カテゴリーや機能情報がより詳しく示される。特に、活用、派生や複合語形成において、その内部構造と各構成素の持つ統語カテゴリー・機能情報が表示されるので、よりきめ細かい検索が可能になる。単語に対して英語のグロスをつけ、日本語に習熟しない人にも利用しやすくする。 また、竹内孔一講師 (岡山大学) との共同研究により、述語に対し概念フレームと意味役割を付与した述語項構造情報を与える作業を開始した。 新しい形態素解析は、宮田スザンネ教授 (愛知淑徳大学) が構築してきた CHILDES 方式の幼児言語発達コーパスに対して適用可能であり、同データを利用した、日本語幼児言語発達ツリーバンクの開発につながるものである。 また、コーパスに対し述語項構造情報を与えることにより、コーパスのデータについて、より意味的側面に立ち入った利用が可能になる。
|
Research Products
(4 results)