2018 Fiscal Year Annual Research Report
Development and Evaluation of Multilingual Resources Workbench for CEFR-based Foreign Language Teaching
Project/Area Number |
18H03658
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
投野 由紀夫 東京外国語大学, 大学院総合国際学研究院, 教授 (10211393)
|
Co-Investigator(Kenkyū-buntansha) |
根岸 雅史 東京外国語大学, 大学院総合国際学研究院, 教授 (50189362)
黒沢 直俊 東京外国語大学, 大学院総合国際学研究院, 教授 (80195586)
三宅 登之 東京外国語大学, 大学院総合国際学研究院, 教授 (40259213)
加藤 晴子 東京外国語大学, 大学院総合国際学研究院, 教授 (90275818)
藤縄 康弘 東京外国語大学, 大学院総合国際学研究院, 教授 (60253291)
長屋 尚典 東京外国語大学, 大学院総合国際学研究院, 准教授 (20625727)
秋廣 尚恵 東京外国語大学, 大学院総合国際学研究院, 准教授 (60724862)
ティプティエンポン コシット 東京外国語大学, 大学院総合国際学研究院, 講師 (70759208)
パルマヒル フロリンダ 東京外国語大学, 世界言語社会教育センター, 講師 (40813176)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 多言語教育資源 / CEFR / コーパス / 機械翻訳 / 語彙表 / e-ラーニング |
Outline of Annual Research Achievements |
本研究の目的は、CEFR-Jで構築してきた英語教育用資源(レベル&技能別CAN-DOリスト+語彙・フレーズ・構文)を別の外国語でも利用できるように教育用言語資源構築手法を検証し、それを多言語適用に汎用化した「ワークベンチ(作業環境)」の形で提案することである。これによって、英語からの半自動変換および個別の言語ごとの補完作業をカスタマイズすることで、対象言語のCEFR-J教育用言語材料資源を作成するための、効率的かつ汎用性の高い構築環境が作れることを示す。また機械翻訳などの精度が低く資源の乏しい言語に対する構築手法に関しても案を示し、その効果検証を行うことが目的である。 2018年度は、手始めにCEFR-J 準拠語彙表としてすでに公開されているCEFR-J Wordlist Version 1.3(東京外国語大学投野研究室作成)から27言語に機械翻訳された語彙表翻訳結果の評価を中心に、27の地域言語専攻担当教員と連携をとりながら、(i) 機械翻訳精度、(ii) 精度の高い部分と低い部分の特定、(iii) 英語と対象言語の比較による原因特定、(iv) 原因を補正する方法の考案、を行った。毎月1回の定例ミーティングで、科研メンバーの代表する言語を中心に、上記の観点の評価と通言語で得られる知見に関して意見交換を行った。 これらの研究会議の中で、予想される (a) 1対多対応の訳語、(b)多義語の扱い、(c) 語形などの形態素単位の問題、(d) 文化的差違などの影響、(e) 機能語など文法要素の変換、などに関しては、評価チームで議論を行い、2年目以降に機械翻訳と人間の知識による人手での作業をどのように組み合わせるのがよいか、言語学の専門的な見地を交えて方策を練った。またニューラル機会翻訳の専門家などから学会等で意見聴取を行い、2019年度に専門的知識の提供を受ける予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全学規模で行っている語彙表とフレーズ・リストの構築が若干予定よりも遅れているが、科研メンバーの定例会議は月に1回定期的に実施され、各言語の英語の言語教育資源からの転用の効果と課題が整理されてきた。これらの知見を踏まえて、2年目以降の進め方をさらに検討するという方向性はほぼ計画通りであり、e-ラーニング教材の利用も徐々に全学の学生対象に浸透しつつあるので、こちらもおおむね順調という判断ができる。
|
Strategy for Future Research Activity |
同時に③コーパス&ツール整備チームは、英語語彙表の単純な変換による学習語彙選定が言語によっては不適切な場合を想定して、可能な限り多言語コーパスを収集する。これに関しては90言語400以上のコーパスをすでに内蔵するwebコーパス検索システム Sketch Engine を用いるほか、ラオス語などの資源の乏しい言語に関しては独自にweb巡回してテキストを収集する。また当該言語の言語教材コーパスも同時に収集し、レベル別の語彙チェックなどに利用する。電子辞書の国際会議(eLex2019)での発表申し込みを予定。 2年目は評価によって洗い出された、CEFR RLD資源(語彙・フレーズ表)の翻訳不具合部分に関して原因を切り分け、理論言語学・応用言語学の知見を組み合わせて、人手または機械による修正がいかに可能かを検討し、その手法を一般化できるように機械翻訳の出力結果からどのような手順で修正作業を行うか、作業内容の分割・効率化を行う。同時に、コーパスからの語彙・フレーズの分析結果を照合し、コーパス分析との統合方法を検討する。27言語中、ヨーロッパ言語・中国語・韓国語などを中心に15言語程度の語彙表とフレーズ表の整備をほぼ完了する。多言語教育資源の活用に関する中間シンポジウムを開催予定。
3年目は英語からの翻訳では期待される精度を出せない一部の言語群を想定して、英語資源を用いず当該言語のコーパス分析から語彙・フレーズ表を作成する可能性を検討する。統計的機械翻訳の手法を用い、CEFRレベル別の英語・日本語訳付き教材・学習者コーパスから対訳辞書を生成。そこからレベル別語彙・表現リストを作成する手法を検討し、ワークベンチに実装する。同時に各言語単位で語彙・表現フレーズの評価を行う方法を工夫する。
|
Research Products
(54 results)