2018 Fiscal Year Research-status Report
Extracting the information of syntactic divergence from a Japanese-English parallel corpus and applying the data
Project/Area Number |
17K02740
|
Research Institution | Mejiro University |
Principal Investigator |
大矢 政徳 目白大学, 外国語学部, 准教授 (60318748)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 日英パラレルコーパス / 依存文法 / 統語的不一致 |
Outline of Annual Research Achievements |
Asia TEFL 2018 (University of Macau)にて、"Analysis of Learner-corpus Data Based on the Dependency-grammar Formalism"と題して研究発表を行った。これは、英語学習者による英語エッセイを出身国別・習熟度別に集約したThe International Corpus Network of Asian Learners of English (The ICNALE)中の英文を構文解析した結果得られた依存木内の各依存関係タイプの使用頻度の違いを、学習者の出身国または地域別・学習者の習熟度別に集計し、その差異を検証したものであった。集計結果の一部を検証したところ、出身国別にみると特定の依存関係タイプが比較的高頻度であった場合や、出身国の違いに関わらず高頻度であった依存関係タイプも見られた。さらに詳細な検証が求められることが明らかになったため、この発表と同一データ・同一手法を用いてデータ全体の集計結果をまとめた論文を国際的な論文誌に投稿し、現在査読中である。 さらに、PACLIC 2018にて、"Utilization of Dependency Type per Sentence to Identify Differences among Genres of English Texts"と題して研究発表を行った。これは、1センテンス当たりでの各依存関係タイプの使用頻度(Type per sentence, TPS)をひとつのメトリックとして、異なるジャンルの英文間でどのような依存タイプが異なるTPS値を見せるか、あるいはジャンル横断的に高い/低いTPS値を見せる依存タイプは何か、という観点でジャンル間の差異を明確化することを目的とした研究である。顕著な結果として、科学技術分野の英文では、複合名詞つまり名詞に別の名詞が依存している関係の頻度や、形容詞が名詞に依存している関係の頻度が、他のジャンルと比較して高いことなどが明らかとなり、これは先行研究での結果を跡付けるものであった。そして、当学会で研究成果を公表することで有益なフィードバックを得ることが出来た。当発表の予稿集はオンラインで公表予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コーパスデータを活用した依存文法の枠組みに基づく英語統語構造の特徴量抽出については研究が進んだが、日英語間の統語的不一致に関しては研究が進んでいないため今後の課題となる。
|
Strategy for Future Research Activity |
現在までの進捗状況を踏まえ、日英語間の統語的不一致に関する研究を進めていく必要がある。具体的には、この論点について日英語対訳ペア例文を通じて分析を加えた論文が校正の最終段階にあり、これを発表することが当面の目的である。しかしながらこの論文では日英語間の統語的不一致の同定を手作業に頼っているものであり、日英語対訳コーパスから統語的不一致情報を自動的に同定する方法については未着手である。従って、この方法を提案するべく研究することが必要とされる。
|
Causes of Carryover |
2018年度は物品費が0であった。 2019年度はPACLIC 33(北海道)、PACLING 2019(Hanoi, Vietnam)での研究発表を予定しており、その出張旅費にあてる予定である。
|
Research Products
(3 results)