研究概要 |
フィンランド学術計算機センターのフィンランド語の電子アーカイブ「フィンランド語バンク」(総語数1億8千万語)を用いて動詞派生の名詞の用例収集とデータベース化をおこなった。パイロットケースとして,フィンランドの日刊紙AamulehtiおよびTurun Sanomatの各2年分の記事の電子コーパス(約4300万語)より動名詞(派生接尾辞の主格形が-minenのもの)を含む35万例の用例を得た。用例はデータ解析用のLinuxサーバ上に保存し,Conexor社の依存文法型統語パーサFunctional Dependency Grammarおよび形態解析器Machinese Phrase Taggerを用いて形態・統語構造のメタデータをともなうデータを作成した。 次に,用例を汎用データベースシステム(MySQL)に格納し,形態・統語構造に基づき用例を検索するツールのプロトタイプの開発をおこなった。予備調査として,ツールによる派生名詞の統語的な出現位置に基づいて用例を分類し,出現数を分析した結果,動名詞の統語構造および情報構造上の出現傾向に独自の語用論的な機能が想定されることが明らかになった(現在データの分析中であり,この成果は平成16年度に発表する予定である)。 用例はKielikone社の形態解析器Textmorfoを用いて自動解析されたデータに基づいて検索しており,Textmorfoが正しく解析していないデータから動名詞を含む用例を洗い出し,網羅的な用例データを作成するとともに,得られたデータの検証作業を進めていく必要がある.また,動名詞以外のより生産性の低い派生名詞の用例の収集を進め,動名詞の分布との比較,また名詞一般の出現傾向との比較をおこなう。また,パイロットケースの分析に基づき,今後は異なる使用域のコーパスとの比較対象も行っていく。 さらに,今後,解析されたデータを汎用性の高い構造記述形式であるXML形式にて記述し,より精度の高い分析が行えるよう,ツールの開発および記述の理論的な裏づけを進めていく。
|