2011 Fiscal Year Annual Research Report
自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発
Project/Area Number |
22520537
|
Research Institution | University of Tsukuba |
Principal Investigator |
李 在鎬 筑波大学, 人文社会系, 准教授 (20450695)
|
Co-Investigator(Kenkyū-buntansha) |
宮岡 弥生 広島経済大学, 経済学部, 教授 (10351975)
林 〓情 山口県立大学, 国際文化学部, 准教授 (30412290)
柴崎 秀子 長岡技術科学大学, 工学部, 教授 (00376815)
|
Keywords | 教育工学 / 教材 / 教育メディア / 学習者コーパス / 形態素解析 |
Research Abstract |
本研究は、言語処理の技術を利用し、タグ付き学習者作文コーパスを構築することである。コーパスの構築においては、単なる作文の収集ではなく、言語テストを組み合わせることで言語能力別の作文データベースを構築する。また、構築したコーパスは、ウェブインターフェイスを介して段階的に公開し、ユーザの評価を受けながら、漸次的に共有資源化する。三つの基本方針のもとでコーパス構築を進めている。1)学習環境の多様性に対応すべく,複数のサブグループを作る。これにより,学習者の中間言語に影響する外的要因を特定することができる。具体的には,母語で「韓国語,中国語,英語」,日本語レベルで「初級,中級,上級」,学習環境で「国内,国外」で分けており,各サブグループ20名分を集める。2)収集したデータは言語処理のソフトウェアを使用し,形態素解析を行ったあと,誤用タグを付与した上,添削を行なっている。3)「コーパス構築=データ公開」を大原則とする。そのため,作文収集時においてデータ提供者(日本語学習者)に使用許可をとっており,データ公開における著作権問題をクリアにしている。 平成22年度は、方針2)および方針3)に対応するウェブインタフェースを開発した。平成23年度は、方針1)にそって学習者の作文収集を行った。本年の成果として、2012年1月の時点で149名分の作文収集およびデータベース化が完了した。現在、研究成果は、http://sakubunjpn.org/において公開しており、コーパスとして利用可能な形になっている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成22年度にシステムの開発およびグランドデザインが完了したため、平成23年度は、作文データの収集のみに専念することができた。
|
Strategy for Future Research Activity |
1.データベースへの登録作業韓国語母語話者のデータは、収集が完了しており、デークベースへの登録作業のみ残っている。 2.英語母語話者のデータを収集する。
|