研究概要 |
本年度は準備段階として以下の2項目を実施した。 1.係り受けの位置の調査 コロケーションがどのくらいの範囲で起きているか,動詞と名詞の関係を取り上げて調査した。利用したデータは,『現代日本語書き言葉均衡コーパス』の「コアデータ」(書籍,白書,新聞,Yahoo!知恵袋)約80万語を対象に,「を+動詞」に係る名詞(約14000例),「名詞+を」の係る動詞(約20000例),「に+動詞」に係る名詞(約15000例)について,係りの位置が上記中心語の前後どのくらいの範囲に出現しているかを形態素単位で調査した。その結果,「を+動詞」は,挿入句や括弧などの記号を除くと殆どの場合,直前に係り元の名詞が出現しているが,「名詞+を」では,直後に副詞や動詞の取る別の格(「に格」など)に関係する名詞等が現れる場合が約10%近くあること分かった。このことは名詞を中心としたコロケーションを測定する場合に一定の誤差として影響が出ることを意味している。また,「に+動詞」では,「について」「において」「における」などの複合辞が多数含まれること及び「すぐに」「実際に」などの副詞を構成する「に」が分離されていることなど,形態素解析に起因する問題を除けば,係り元の名詞はほぼ直前に出現していることが確認された。 2.推移確率測定のためのデータ整備 文の中での単語と単語との連接関係を調べるために,品詞列の出現状況を文単位で調査するためのデータを整えた。上記「コアデータ」を文ごとに分け,品詞連続の出現状況をテキストの種類ごとに特徴があるかどうかを調べるためのデータを作成した。
|