研究概要 |
日本人のような英語非母語話者に対する,英語学習の補助的な教材の開発や英文書作成支援システムの開発を行う際,言語資源(データ)としてWeb上の英文書を利用することは,その量および内容の豊富さから見て非常に有望である.言語資源としては,母語話者が書いた程度に良質な英文書(母語話者文書)と非母語話者が書いた誤りや不自然さを含む英文書(非母語話者文書)双方が大量に必要となる 本研究では,英文の質情報が付与された科学技術論文コーパスの構築と公開,およびその利用に関して,以下を行う (1)Web上から英語で書かれた大量の科学技術論文を収集するシステムを作成する (2)品詞列の情報を基に英文書の英文の質を高精度で推定するシステム(母語話者性判別システム)を開発する (3)上記(1)のシステムを用いて,Web上から大量の英語科学技術論文を収集し,上記(2)のシステムを用いて,英文の質を推定し,英文の質情報付き英語科学技術論文コーパスを構築する (4)構築したコーパスの著作権などを侵害しない公開方法について検討する (5)得られたコーパスから非母語話者が犯しがちな不自然な表現の収集,非母語話者文書に固有の文法的・語彙的特徴の抽出等を行ない,これらを公開する
|