本研究課題は,日本語と英語という二ヶ国語間のコロケーション(共起語)をコーパス言語学的手法によって分析し,コロケーション使用における両言語の対応性や非対応性などを浮き彫りにすることを目的とする。 前年度である平成23年度では,英日パラレルコーパス(翻訳コーパス)を活用し,意味が対応する英日コロケーションを機械的に抽出する手法に取り組んだ。具体的には,発生分布が類似する日英のコロケーションは対訳関係にある確率が高いと見なし,翻訳文上に各日英コロケーションが同時に発生する確率と,個別に発生する確率に基づいて,両者の類似度を算出した。類似度の高い英日コロケーションのペアを抽出することで,約80パーセントの精度で英日対訳コロケーションが抽出された。 ただし,23年度は英語から日本語への対訳関係に留まり,日本語から英語への対訳抽出は行われなかった。日本人英語学習者に有用なリソースを作成するには,典型的な英語コロケーションを示すだけでなく,典型的な日本語コロケーションが英語でどのように表現されるかを示す必要がある。そこで,平成24年度では,英日対訳コロケーションの抽出精度を高めると共に,日英対訳コロケーションの抽出にも取り組んだ。英日対訳コロケーションの抽出手法を応用することで,日英対訳コロケーションも高精度で抽出され,日英対応コロケーションリストが作成された。一方,対訳抽出に失敗した項目は,日英コロケーションにおいて構造的に大幅に異なるものが多く,学習者にとっても直感的に把握しづらい項目となる。これらの項目は,日本人学習者が特に注意を払うべき項目として位置付けられ,日英非対応コロケーションリストとして,有効に活用されることが期待される。
|