本研究は、コーパスを用いて、留学生が専門分野で論文を執筆する際に必要となる語彙、慣用的共起表現を明らかにすることを目的としている。平成17年度は、コーパス作成のためのデータ収集とデータの整備を中心に作業を行った。 研究手順として、まず日本人学生(服装社会学及び住環境学専攻)が書いた卒業論文の抄録をテキストデータ化する作業を行った。抄録を用いたのは、分野は限定されているものの、その分野内で使用される語彙をできるだけ幅広く抽出したかったからである。また、抄録の文字数は1人300字程度と限定されているため、抄録を用いることでデータの個人的な偏りが少なくなると考えた。現在までに平成15年度239名、平成16年度238名分の抄録をテキストデータにした。 集めたデータを解析するためのソフトについての検討も行った。形態素分析を行う際に「茶筅」が多く用いられているが、複合語や形態素が細かく分かれすぎており、見直し作業に時間がかかるという問題点があった。そこで、複合語を一語として認識する機能を持った「waters」という文構造解析ソフトを用いることにした。このソフトは、文節の係り受けを表示することができ、共起表現を抽出するという本研究の目的に適していると考えたからである。 また、実際に文構造の解析が正しく行われているかどうかを調べるため、ランダム分析プログラムの作成を専門家に依頼し、収集したデータの一部を用いて検証を試みた。さらに、どのような場合にwatersが誤って分析するかを探り、原文を損なわないよう最小限のデータ整形を行った。品詞抽出、共起表現抽出プログラムもほぼ完成したので、次年度は抽出作業に取りかかる予定である。
|