2012 Fiscal Year Annual Research Report
自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発
Project/Area Number |
22520537
|
Research Institution | University of Tsukuba |
Principal Investigator |
李 在鎬 筑波大学, 人文社会系, 准教授 (20450695)
|
Co-Investigator(Kenkyū-buntansha) |
柴崎 秀子 長岡技術科学大学, 工学部, 教授 (00376815)
宮岡 弥生 広島経済大学, 経済学部, 教授 (10351975)
林 ひょん情 山口県立大学, 国際文化学部, 准教授 (30412290)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 学習者コーパス / 自然言語処理 / 誤用分析 / 第二言語習得 / コーパス検索 |
Research Abstract |
本研究の目的は言語処理の技術を利用し、タグ付き日本語学習者作文コーパスを構築することである。コーパスの構築においては、単なる作文の収集ではなく、言語テストを組み合わせることで言語能力別の作文データベースを構築する。また、構築したコーパスは、ウェブインターフェイスを介して一般公開し、ユーザの評価を受けながら、漸次的に共有資源化する。具体的には1)学習環境の多様性に対応すべく,複数のサブグループを作る。これにより,学習者の中間言語に影響する外的要因を特定することができる。母語で「韓国語,中国語」,日本語レベルで「初級,中級,上級」,学習環境で「国内,国外」で分けている。2)収集したデータは言語処理のソフトウェアを使用し,形態素解析を行ったあと,誤用タグを付与した上,添削を行なっている。3)「コーパス構築=データ公開」を大原則とする。そのため,作文収集時においてデータ提供者(日本語学習者)に使用許可をとっており,データ公開における著作権問題をクリアにしている。 当初の申請通り,2013年3月に日本語学習者作文コーパスの開発を完了し,検索環境も含めてウェブで利用できるシステムを開発した。現在,「http://sakubun.jpn.org/」という独自のドメインでシステムとデータを一般公開している。3月末に公開したところ,4月15日現在で,125名(教職員45名,学生72名,その他8名)がユーザー登録をしており,研究資源として活用してもらっている。システム公開のほか,研究成果の公開として,著書1件,論文2件,発表2件を行った。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(6 results)