研究課題/領域番号 |
15H03210
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語対照研究系, 教授 (00374984)
|
研究分担者 |
岸本 秀樹 神戸大学, 人文学研究科, 教授 (10234220)
野田 尚史 大学共同利用機関法人人間文化研究機構国立国語研究所, 日本語教育研究・情報センター, 教授 (20144545)
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
影山 太郎 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・構造研究系, 所長 (80068288)
|
研究期間 (年度) |
2015-04-01 – 2020-03-31
|
キーワード | 関係節 / 従属節 / アノテーション / タグ付け作業 / 統語・意味解析 |
研究実績の概要 |
本研究は現代日本語の特徴の一つである関係節および従属節を中心とする複文について言語学的情報を検索、抽出するために必要なアノテーション方法を研究し、それに基づいて約5万文(約90万語)に対してタグ付け作業を行い、複文に関するより高度の環境整備を整えることを目標とする。 上記の目標を達成するために、本年度はアノテーション方法を研究する班およびアノテーションを実施する開発班 (東北大ユニット、神戸大ユニット) を組織し、アノテーション方法の研究を開始するとともにアノテーション作業も開始した。関係節および従属文のアノテーション基準についてデータにもとづいて決定した。アノテーション対象とする日本語テクストを新聞記事等から選び、研究補助員を指導してアノテーションを開始した。 統語情報タグ付けの規約として、Annotation Manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) のそれに従う。これはPenn Treebank の解析規約を修正して、ノード数の少ない平坦な統語構造を採用することを特色としている。 意味論的に良質かつ均質な論理意味表示を得ることに配慮した。かたわら、理論的考察およびプログラム開発も行った。今年度は計画通り、約1万文にアノテーションを付与することができた。アノテーションしたデータをネットを通じて公開するために準備作業としてインターフェースの試作版の開発も行った。来年度に一般公開できるように今後改良作業を進める予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
①アノテーション方法を研究する班およびアノテーションを実施する開発班 (東北大ユニット、神戸大ユニット) が予定通り組織することができた。 ②公開可能な日本語のテキスト(新聞記事など)を確保することができた。 ③アノテーション方法の研究やアノテーション作業を実施すための人材を確保することができた。 ④研究成果をネットで一般公開できるためにインターフェースの試作版が完成した。
上記の理由により、本研究は概ね順調に進めることができた。
|
今後の研究の推進方策 |
今後もアノテーション方法の研究を続けると同時にコーパスの開発も継続し、最終的にアノテーションを完了させる。各文について得られた意味解析を手掛かりとして、アノテーションの評価を行う。また、結果をまとめて国内外の学会発表、論文執筆を通じて研究成果を発信する。また、インターフェース開発を完成させ、研究成果をネットを通じて国内に発信する。
|