研究概要 |
本研究の目的は,電子化されたテキスト資料(コーパス)に基づいた言語特徴の記述のための基礎資料となる,大規模コーパスの「サンプル化」の方法論を整備することである。 前年度実施したデータベース構築および解析データの検証・校正作業を引き続き実施するとともに,今年度は以下を実施した。 1.サンプル化した全データについて解析ツールを用いた形態・統語解析を実施し,その結果をデータベースに格納した。 2.サンプルデータベースへの文構造・談話構造レベルの情報付与についての仕様を確定し,データベースへの追加を開始した。 3.選出した文法情報パラメータにもとづき構築したサンプルデータベースの分析をおこない,8月にハンガリーPazmany Peterカトリック大学において開催された第11回国際フィン・ウゴル学会において研究成果を発表した。 4.ハンガリーとフィンランドにおいてフィンランド語学,コーパス言語学の専門家との情報交換を行った。 5.サンプル化の手法を用いた分析手法を大規模日本語コーパスの分析に応用し,その成果について7月と3月に研究発表をおこなった。 6.前出1.2.の作業結果の整合性と解析情報の検証・修正をすすめるとともに,構築した全サンプルデータベースを使用した分析をおこなうためプログラムの整備と拡張をおこなった。 7.サンプルデータベースの公開方法について,本研究が依拠するフィンランド語コーパス「フィンランド語バンク」を運用しているフィンランド学術計算機センターの担当者と電子メールにて研究連絡をおこなった。今後も継続して協議をおこなっていく予定である。
|