研究概要 |
前年度実施したフィンランド学術計算機センターのテキストコーパス「フィンランド語バンク」に収録されているコーパス群の基礎調査に基づき, サンプルデータベースの構築と分析手法の整備をおこなった。具体的な活動内容は以下のとおりである。 1. 平成19年度に引き続き, コーパスデータに形態・統語解析を施して格納するためのデータベースの設計と構築をおこなうとともに, プロトタイプのデータベースから形態・統語パラメータによる統計情報を抽出するプログラムのセットを開発した。 2. 平成19年度に実施した「フィンランド語バンク」の基礎的な分析に基づき, コーパスが属する使用域毎にサンプル化をおこなった。 3. サンプル化で抽出したコーパスのサブセットにfi-fdgを用いて形態・統語情報を付与した。各サンプルについて, 予備的に形態・統語解析情報の統計分析をおこなった。 4. 自動解析された形態・統語情報の検証と校正作業を開始した。この作業は引き続き次年度も実施する。 5. プロトタイプのデータベースの構造と文法情報のパラメータについて, フィンランド内国語研究所およびフィンランド学術計算機センターの専門家との研究打ち合わせをおこなった。 6. XMLおよびデータベースの処理に関する資料を収集し, またコーパス言語靴関する研究会'シンポジウムに参加し情報交換をおこなった。 形態・統語情報の分析と量的な評価の方法に関する研究発表をおこない, 論文を執筆した。今年度はデータベースの構築作業が計画どおり進まず, データベースの本格的な分析は次年度以降に回さざるをえなかった。大規模データの格納に導入したストレージ幾器がデータベース構築環境に適しておらず, 現段階ではデータベースはワークステーションのハードディスク上に直接構築している。また, 現段階で, 統語解析ツールとの連携に問題が発生しており, 次年度以降はデータベースと統語解析ツールを共通のLinuxサーバ上で運用する予定である.
|