2017 Fiscal Year Research-status Report
日本語母語学習者データに基づくロシア語学習者コーパス構築の基盤研究
Project/Area Number |
17K02926
|
Research Institution | Osaka University |
Principal Investigator |
林田 理惠 大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 教授 (70185651)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 学習者コーパス / 学習者言語 / ロシア語教育 / アノテーション・ガイドライン |
Outline of Annual Research Achievements |
2017年度は,まず,1) 他言語における既存学習者コーパスに関する情報収集と先行研究の整理 ― すでに構築されている英語,日本語をはじめとする学習者コーパスについて情報収集を行い,開発・分析に関わる先行研究の知見を整理,これまでの成果と問題点,不十分点等を明らかにした.その上で次の3点について研究調査を進めた. 2)HSEコーパス開発部門(ロシア連邦・モスクワ)における研究調査 ― 現存する唯一のロシア語学習者コーパスRLCを構築したHSEコーパス開発部門(ロシア連邦・モスクワ)に滞在し,研究協力者である部門長をはじめ,開発に関わった研究チームから開発の経緯,具体的な技術的問題,現行の稼働状況等,詳細についてヒアリングを行った.また,日本語母語学習者のデータ利用に基づくロシア語学習者コーパス・パイロット版構築に向けた協力体制,作業分担等の打ち合わせを行い,RLCシステム上に下位コーパスとしてJRFLL Corpusを開設することになった. 3)データの電子化作業の開始 ― 収集されているTORFL作文試験結果について,データの電子化作業をHSE側の助力を得て開始した.現在は一部がすでにRLC本体のデータとしてアップロードされている. 4)HSEコーパス開発部門でのアノテーション作業に関する研修に参加 ― HSEでの研修において,誤用タグ付けの手順についての説明を受け,また実際的作業プロセスに参加,JRFLL Corpusアノテーション作業の参考となる知見を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1)予定されていた既存の他言語学習者コーパスについて情報収集を行い,開発・分析に関わる先行研究の知見の整理を終えている. 2)さらに,ロシア語学習者コーパスRLCを構築したHSEコーパス開発部門(ロシア連邦・モスクワ)に滞在し,協同研究体制をとっているロシア・コーパス開発研究チームから,開発の経緯,具体的な技術的問題,現行の稼働状況等,詳細についてヒアリングを行い,また,日本語母語学習者のデータ利用に基づくロシア語学習者コーパス・パイロット版構築に向けた協力体制,作業分担等の打ち合わせについても実施した. 3)収集されているTORFL作文試験結果についてもデータの電子化作業を開始,今後の作業の進め方について,おおよその方向性をつけることができている.
|
Strategy for Future Research Activity |
1. 収集したデータのアノテーションに向け,データテキスト及び学習者の属性情報タグ,品詞情報タグ,誤用情報タグの分類・構成について,前年度の調査・ヒアリングで得た知見を基に検討し,アノテーション・ガイドライン試案の設計を行う.品詞情報の分類は,ロシア語関係のコーパスにおいて信頼度が高いものとして広く使用されているRussian National Corpus (http://www.ruscorpora.ru/index. html) における品詞タグ分類を採用する.誤用情報タグの分類については,ロシア側の研究チームとの意見交換を踏まえ,RLCでの基準を参考に,a) 日本語を母語とする学習者における特徴的な言語使用特性やb) 誤りの頻度が多く観察される言語領域 等を考慮した独自の分類・構成を検討し,試案を設計する. 2. 前年度に引き続き,TORFL作文試験結果についてデータ電子化作業を進める. 3. 前年度に作成したアノテーション・ガイドライン試案に基づき,すでに電子化が完了しているデータについて,テキスト及び学習者の属性情報タグ,品詞情報タグ,誤用情報タグのタグ付け作業を進め,コーパスのパイロット版を作成する. タグ付けについては,ロシアで開発・公開されている品詞タグ付けシステムMystemを利用する.誤用情報タグの追加付加作業は,ロシア側研究チームからの情報を基にRLCでの基準を参考とする. 4. 作成されたコーパス・パイロット版を使い,A2-B1レベルでとりわけ習得に負荷がかかるとされるアスペクト,ヴォイスの2領域において,学習者言語の傾向,特徴を試験的に分析し,パイロット版におけるタグ分類・構成上の問題点や技術面での問題点を抽出し,改善を図る.
|