1997 Fiscal Year Annual Research Report
フィンランド語の統語論的研究とウラル語比較研究のための言語コーパスの構築
Project/Area Number |
09710373
|
Research Institution | Nagoya University |
Principal Investigator |
佐久間 淳一 名古屋大学, 文学部, 助教授 (60260585)
|
Keywords | 言語コーパス / フィンランド語 / エストニア語 / ウラル諸語 |
Research Abstract |
本研究は二年計画であり、今年度はその初年度に当たる。本研究の目標は、フィンランド語の統語論的研究およびウラル諸語の統語論的な比較研究に向けてウラル諸語の言語コーパスを構築することにあるが、今年度はその第一段階として、言語資料の入力作業を中心に研究を進めた。入力に当たっては、英語のアルファベットにない文字を英数字以外のアスキー文字で置き換えなければならないため、比較的文字種が少なく置き換えの容易なフィンランド語、エストニア語の入力から始め、他の諸言語については、既存のコーパスとの互換性も考慮に入れながら、適切な換字の方法を研究した上で順次入力作業を進めることとした。また、コーパスのフォーマットについては、ヘルシンキ大学一般言語学科で管理しているフィンランド語コーパスに準拠することとした。入力作業は補助金で購入した資料を主な対象とし、大学院生に謝金を支払って入力を依頼したほか、同じく補助金で購入したイメージスキャナーおよびOCRソフトによる入力も行って作業の効率化を図った。入力した資料を検索プログラムなどによって処理できるようにするためには、文番号を付したり、句読点を取り除いたりしなければならないが、こうした作業については、大学院生の協力を得てプログラムを作成し可能な限り自動化した。また、コーパスを使って検索を行う際に、必要なデータの絞り込みを容易にするには、入力した言語資料をさらに加工し、各単語を形態素境界で区切って、各形態素にその機能を表すタグと呼ばれる標識をつける必要がある。タグのつけ方はコーパスの使い勝手に大きく影響するので、適切なタグのつけ方についても、既存の各種コーパスを参考に研究を進めた。来年度は、今年度の研究成果を生かして、入力作業をさらに進めるとともに、既に入力した。言語資料を加工することによって、より有用なコーパスの構築を目指したい。
|