日韓対訳コーパスの分析で日本語と韓国語の連語構造の類似点と差を明らかにし、その結果を取り入れた韓国語の語彙教育方法論の提案を目標として今年度は次の研究を行った。 1.対訳コーパスの整備 国際文書標示標準(TEI)のSGMLを利用し、韓国語の新聞記事テクスト(100万語)とその日本語訳テクスト(5万文)で構成された対訳コーパス(parallel corpus)に文書の特性及び両言語のテクスト間の対応関係に対する情報を入力した。文書の特性においては、ジャンルによって語彙の用法や頻度が異なっていることに着目しジャンル別に下位分類を行なった。また、書き言葉に偏向している新聞記事コーパスを補うため話し言葉の資料として韓国ドラマのシナリオテクスト(10万語)とその日本語字幕テクストで構成された対訳コーパスを収集した。 2.注釈コーパスの構築 日本語テクストに対し形態素分析の前処理(文節単位の分かち書き)を行った。この処理によって形態素分析の正確度が向上するとともに連語の対応関係の自動分析もより容易になる。 対訳コーパスを韓国語の形態素分析システム(知能形形態素分析機)および日本語の形態素分析システム(茶筌)を用いて注釈した。予想以上の誤分析が出たので、後処理を行い韓国語コーパスを基準にして20万語の注釈コーパスを確報した。 3.高頻度連語の抽出基準の模索 連語構成の中心語が語形変化する語彙である場合(体言+助詞、用言語幹+語尾など)、各変化形をそれぞれ別の中心語として数えるか、或いは変化形を基本形に復元し全体を1つの中心語の用例として数えるかによって頻度調査の結果は大きく変わる。注釈コーパスの分析結果や先行研究の成果によると語彙使用が特定変化形に集中する傾向にある。これを踏まえ、基本形ではなく各変化形を中心語として扱うことにした。
|