2004 Fiscal Year Annual Research Report
フィンランド語の動詞派生の名詞の統語論と語用論:大規模コーパスによる基礎研究
Project/Area Number |
15720095
|
Research Institution | Reitaku University |
Principal Investigator |
千葉 庄寿 麗澤大学, 外国語学部, 助教授 (70337723)
|
Keywords | フィンランド語 / 動詞派生の名詞 / 統語論 / 語用論 / 情報構造 / コーパス / データベース / 動名詞 |
Research Abstract |
本年度は,フィンランド学術計算機センターのフィンランド語の電子アーカイブ「フィンランド語バンク」(総語数1億8千万語)からの動詞派生の名詞の用例収集とデータベース化をすすめた。まず,「フィンランド語バンク」の形態素情報を検証し,Kielikone社の形態解析器Textmorfoが正しく解析していない動名詞(-minen)の用例(約1万8000例)を新たに得た。そのうえで,平成15年度に収集したフィンランドの日刊紙の記事コーパス(約4300万語)の動名詞と合わせ,合計約37万例の動名詞の用例データの整理とメタデータの付加を行った。 さらに,動名詞以外の動詞派生の名詞のうち,頻度が比較的高い派生語(派生辞-nta/-nta, -nto/-nto, -nti, -o/o, -u/-y, -uu/-yy, -mus/-mys)について,上記の日刊紙コーパスから用例収集を行った。現在はこれらの用例の大まかな検証と分類が終わった段階であり,今後,検索結果をさらに検証し,洩れている用例の補完,ネイティブによるチェックを経たうえで全用例をデータベース化し,統語的位置による出現頻度,情報構造上の出現傾向の分析と,収集した動名詞とその他の派生語,一般名詞との出現傾向の比較を行っていく。 関係データベースを用いて平成15年度より開発中の用例検索ツールは,統語的な出現位置に基づく用例の分類が可能になっている。一方,語順など情報構造の解析機能の実装過程で,情報構造のメタデータの記述方法及び記述内容に全面的な見直しが必要であることが明らかになり,現在データベース構造とメタデータの修正,解析機能の再実装の作業を進めている。 本研究のデータベース化に関連し,関係データベースよりも汎用性に優れた構造化文書形式XMLにより用例データを記述する作業を進め,今年度はXMLを用いた言語データの記述と分析手法について2件の口頭発表を行った。
|