2008 Fiscal Year Annual Research Report
Web上からの母語話者/非母語話者英語論文コーパスの作成・公開とその利用
Project/Area Number |
20320082
|
Research Institution | Kyushu University |
Principal Investigator |
冨浦 洋一 Kyushu University, 大学院・システム情報科学研究院, 准教授 (10217523)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 雅博 九州大学, 大学院・システム情報科学研究院, テクニカルスタッフ (00452813)
田中 省作 立命館大学, 文学部, 准教授 (00325549)
後藤 一章 大阪大学, サイバーメディアセンター, 特任助教 (90397662)
木村 恵 獨協大学, 外国語学部, 講師 (60409555)
安東 奈穂子 九州大学, 大学院・法学研究院, 専門研究員 (50380655)
|
Keywords | コーパス / 教育工学 / 母語話者性判別 / 仮説検定 / Web文書 / 英語教育 / 日本人固有の不自然な表現 / 著作権法 |
Research Abstract |
1.母語話者性判別システムの評価と改良 現有の1281編の英語論文の母語話者性の判定を校正専門家に依頼し,信憑性の高いデータを作成した.これを用いて,すでに開発していた仮説検定に基づく母語話者性判別システムをunknownという判定も許すように改良し,判別精度を求めた.約40%をunknownとすることで,母語話者文書,非母語話者文書ともに99%の精度で判別できることが確認された. 2.Web上からの英語論文の大規模収集の準備 クローラーを用いて研究者個人のWebページから英語論文(pdfファイル)と著者名・論文題目などの論文情報を効率よく収集するシステムを作成した。また,pdfファイルをテキストに変換し,数式,図表,ヘッダー・フッターなどの情報と論文本文に分離するフィルターを開発した. 3.コーパスから得られる英語教育に有用な情報の検討 英語教育への応用可能性について検討し,今後の課題を以下のように整理した. (1)英語母語話者と非母語話者(本研究においけては日本人)の論文間に見られる差異の特定方法と,その差異の英文法体系に則った分類 (2)日本人による英語論文に見られる誤り又は不自然さに共通する原理の解明と,それに基づいた効果的なフィードパック方法の検討・検証. (1)に関しては,試行的に,非母語話者に特徴的な共起,コロケーション,コリゲーションの抽出を行った. 4.コーパス公開に向けた法的検討 本研究におけるWeb文書の利用目的・方法が,著作権法が定める権利制限規定に当てはまるか否か,当てはまるとすれば具体的にどの条文かを検討した.また,昨年から議論が本格化している日本版フェアユース導入に関して,議論の動向と導入された場合の本研究に与える影響について考察した.
|
Research Products
(5 results)