平成18年度は、まず昨年までに個人的に収集したコーパスの拡充を目的に、小説ジャンルについてネット上の既存コーパス(青空文庫)を用いて文章資料の更なる収集を進め、整備を行った。その結果、論文(物理学、工学、文学、経済学)、小説(近代小説、現代小説)、新聞社説の約350編の文章資料となった。昨年収集した工学系の講演論文コーパスからの300編の収集と整備は終わったが、文体が学術誌論文と若干異なることがわかり、現在、検索対象資料として利用するかどうか検討中である。また、昨年に引き続き、検索ソフトプログラムの修正を行った。 今年度は上記のコーパス中約350編の文章資料を対象とし、複合動詞の使用頻度の調査を進めた。これまでの作業で抽出された複合動詞の種類は多様なため、検索項目としての複合動詞の見直しを行い、その結果、指標として41の後項動詞(「かける」「かかる」「はじめる」「だす」「でる」「まくる」「つづける」「おえる」「おわる」「つくす」「きる」「とおす」「ぬく」「はてる」「そこなう」「そんじる」「そびれる」「かねる」「おくれる」「わすれる」「のこす」「あやまる」「あぐねる」「そこねる」「すぎる」「なおす」「なおる」「つける」「つく」「なれる」「あきる」「あう」「あわせる」「あがる」「あげる」「こむ」「こめる」「いる」「いれる」「たつ」「たてる」)を選定した。現在はこれらの項目の使用頻度の調査の途中である。また並行して平成19年度に行う予定の多変量解析の方法論の再確認と新たな手法について検討を行った。
|