研究概要 |
本研究は, これまでにない新しい特徴を持った学習者コーパスを構築することを主目的としている。学習者による目標言語発話を大量に収集し, 学習者コーパス花する研究はこれまでにも世界中で行われてきたが, 本研究が試みているのは, (1) 目標言語(英語)による発話データ, (2) 学習者発話を訂正したデータ, (3) 一学習者が意図していたことを母語(日本語)で表したデータの3バージョンが並列されている, 「パラレル学習者コーパス」の編纂である. 平成20年度は若干量のデータ収集に加え, 英語の訂正, 日本語化を行い, パラレルコーパス化を進めた. 計50名の発話データに対する英語訂正は,まず本研究代表者および英語を専攻とる学生により行われ, その後英語母語話者による確認・再訂正が行われた. 訂正については,(1) データ提供者の本来用いた英語を可能な限り使用する. (2) 訂正するのは誤り(error)のみとし, 英語としての不自然さ(unnaturalness)は対象外とする, という2点に留意した. 日本語化については, 作業者間の不統一を避けるため本研究代表者のみが行った. 発話データ収集のためのインタビューテストでは, 複数のタスクを行うが(絵の描写,ロールプレイ, 物語作成), それらタスクに関わる同一トピックで頻繁に用いられる英単語・表現は一定の日本語に変換することなどに留意した. 2つの英語版コーパスデータに, The NICT JLE Corpusに付与されている発話情報タグと, 英国ランカスター大学開発のC7品詞タグを付与した. また, 一単語の使用頻度状況などを調査し, 英単語の個別特性に関わる研究に応用することができた(研究成果参照). コーパス作成については一定の成果を上げたることが出来たため. 今後は, (1) エラータグの付与による誤り分析, (2) パラレル構造を生かした研究の実施(例 : 母語の影響など)に務めていきたい.
|