研究概要 |
本研究は、言語処理の技術を利用し、タグ付き学習者作文コーパスを構築することである。コーパスの構築においては、単なる作文の収集ではなく、言語テストを組み合わせることで言語能力別の作文データベースを構築する。また、構築したコーパスは、ウェブインターフェイスを介して段階的に公開し、ユーザの評価を受けながら、漸次的に共有資源化する。三つの基本方針のもとでコーパス構築を進めている。1)学習環境の多様性に対応すべく,複数のサブグループを作る。これにより,学習者の中間言語に影響する外的要因を特定することができる。具体的には,母語で「韓国語,中国語,英語」,日本語レベルで「初級,中級,上級」,学習環境で「国内,国外」で分けており,各サブグループ20名分を集める。2)収集したデータは言語処理のソフトウェアを使用し,形態素解析を行ったあと,誤用タグを付与した上,添削を行なっている。3)「コーパス構築=データ公開」を大原則とする。そのため,作文収集時においてデータ提供者(日本語学習者)に使用許可をとっており,データ公開における著作権問題をクリアにしている。 平成22年度は、方針2)および方針3)に対応するウェブインタフェースを開発した。平成23年度は、方針1)にそって学習者の作文収集を行った。本年の成果として、2012年1月の時点で149名分の作文収集およびデータベース化が完了した。現在、研究成果は、http://sakubunjpn.org/において公開しており、コーパスとして利用可能な形になっている。
|