研究概要 |
本研究の目的は,電子化されたテキスト資料(コーパス)に基づいた言語特徴の記述のための基礎資料となる,大規模コーパスの「サンプル化」の方法論を整備することである。 前年度実施したフィンランド語の大規模コーパスからのサンプルデータベースの構築作業,および形態・統語情報データベースのパラメータの検証作業をうけ,今年度は以下を実施した。 1.サンプル化したコーパスデータを格納する形態・統語情報データベースの仕様をほぼ確定した。 2.使用域別にコーパスデータのサンプル化作業を進め,サンプル抽出されたデータについて解析ツールを用いて形態・統語解析をおこない,データベースに格納した。 3.形態・統語解析結果の検証と校正作業を引き続きおこない,データの精度向上をはかった。作業は最終年度も継続しておこなう。 4.構築の済んだサンプルについて,抽出したパラメータの量的情報を構文分析に利用する試みを開始し,得られたいくつかの知見について研究発表をおこなった。今年度実施した分析はデータが限定的であるため使用域間の比較をおこなうまでには至らず,精度も本研究が目標とするよりも粗いレベルにとどまっている。 5.サンプル化されたデータベースの統計処理の手法に関する予備的な分析を開始した。その結果,特定の文法パラメータのサンプル数が非常に多い場合,そのパラメータを含む構文の分布特徴を評価し,記述するためのよい統計指標がないことが明らかになった。統計学およびコーパス言語学の専門家と情報交換をおこない,問題点の整理と解決にむけた意見の交換をおこなった。 6.サンプルデータベースへの文構造・談話構造レベルの情報付与について,実装にむけ予備的な検証をおこなった。
|