2011 Fiscal Year Annual Research Report
電子コーパス解析に基づく日英コロケーションの対応・非対応関係の分析
Project/Area Number |
22720225
|
Research Institution | Setsunan University |
Principal Investigator |
後藤 一章 摂南大学, 外国語学部, 講師 (90397662)
|
Keywords | コロケーション / 日英パラレルコーパス / 自然言語処理 |
Research Abstract |
本研究課題では,日本語と英語という二ヶ国語間のコロケーションをコーパス言語学的手法によって分析し,コロケーション使用における両言語の共通性や相異点などを浮き彫りにすることを目的とする。具体的には,日英の各コーパスからコロケーションを抽出し,日本語及び英語における頻出コロケーションを解明すると共に,語彙的・統語的基準によって日英コロケーションにおける対応・非対応関係を検証する。成果の一つとして,日本人英語学習者に有用となる,日英対応コロケーションリストを構築する。 前年度では,日英の各言語別にコロケーションを抽出していたため,日本語コーパスから抽出された日本語コロケーションと,英語コーパスから抽出された英語コロケーションが互いに独立しており,両者をどのような方法で紐付け,比較分析するべきかが課題となっていた。意味的に対応するコロケーションの比較が最終的な目的であったが,そもそも意味的に対応するコロケーションをコーパスから探し出すこと自体に大幅なコストがかかっていた。そこで,平成23年度では,パラレルコーパス(翻訳コーパス)を活用し,意味的に対応する日英コロケーションを機械的に抽出する手法に取り組んだ。これは,翻訳文上に各日英コロケーションが同時に発生する確率と,個別言語上に独立して発生する確率に基づいて両者の類似度を算出するという方法であり,80%以上の正解率で対訳コロケーションが抽出される結果となった。 これにより,意味的に対応する日英コロケーションが効率的に抽出され,それらの対応性や非対応性を検証することが容易となった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究計画時は主に手作業によって日英コロケーションを分析する予定であったが、今年度から統計学的な手法によって日英コロケーションを対応付ける手法に取り組んだ。そのため対応関係自体の分析は遅れることとなったが、意味的に対応するコロケーションの発見を効率的に行えるようになり,最終的には分析の客観性や網羅性が向上すると考えられる。
|
Strategy for Future Research Activity |
今年度は日英コロケーションの機械的な対応付けに取り組み、一定の成果が得られた。ただし、その精度には改善の余地も見られた。来年度は既存の自然言語処理技術のみに依存するのではなく、言語学的な知見も抽出プロセスに取り入れ、さらに精度向上を試みる。また、そうした成果をWeb上で幅広く活用できるよう、オンラインアプリケーションの開発も試みる。
|