文構造を考慮に入れた日本語のコロケーション情報を抽出する方法を考察した。データの検証として、新聞データおよび実際の新聞紙面はどんな違いがあるか確認した。次に、明らかになった新聞データの問題を修正し、2種類のデータ、1文単位に分割されたデータ、及び変更されていないデータを用意した。各々に対し形態素解析を行った後、データベースに変換し、高頻語語彙についてのコロケーション情報を抽出し、結果を考察した。 さらに、対象による結果への影響を考察するために、上記と同様の処理をBCCWJを対象に行う。まず1文単位に分割するために、BCCWJの文構造タグを検証し、サブコーパス単位で問題点を挙げた。
|