昨年度、新聞データに対し、文構造を考慮に入れた動詞のコロケーションの抽出を行った。その結果と比較するために、最終年度はBCCWJを対象に同様の処理を行う予定であった。まず必要となるのが文単位でのデータの抜き出しであるため、BCCWJ-DVD版を入手し、文構造タグを用い文単位での情報が得られるように、データを再構成していたところ、文の境界を示すタグに不備があり、文単位でのデータに変更できないことが判明した。 そこで、データを修正して研究対象とする場合、修正が必要な箇所はどれくらいあるか、修正箇所の多寡はサブコーパスにより違いはあるか、修正して使用するには、どのサブコーパスが適当かを判断するために、BCCWJの文境界に関する調査を行った。 その結果、タグの精度はサブコーパスにより大きな違いがあり、修正して使用するなら図書館サブコーパスや出版サブコーパスが適切であり、人手での修正も可能と考えられる。それに対し特定目的サブコーパスはタグに欠如が多く、文境界自体が不明瞭で対象として不適切であることを明らかにした。 研究期間全体を通しては、真正性を備えたコロケーション情報の抽出を行う際に必要となるデータの整備法について提案した。具体的には、コーパスから文単位でのデータを抽出する前に、コーパスデータの検証を行った。その結果、新聞記事データベースとBCCWJに含まれるデータそれぞれの問題点を指摘することができた。そして、新聞データに固有の問題を解決し、本研究が提案する文構造を考慮に入れたコロケーションの抽出を行った。その結果、より日本語使用の現状を反映した結果を抽出することに成功したが、果たして、この方法で得られた日本語のコロケーション情報が、(上級者)日本語学習者に教えるべき内容なのか、さらに中級や初級の学習者向け教材には、どのような方法を用いるべきなのか、今後の課題として残った。
|