今年度は、小規模コーパスの整備、検索プログラムの修正と改善、複合動詞の選定という3つを柱に計画を進め、現在下記のような過程にある。 現状では、多様なジャンルにわたる文章コーパスがまだ存在しないため、無料のものを中心に活用できる電子版文章コーパスを探し、そこから文章を選んで1編ずつテキスト形式に直す作業を行い、現在も継続中である。また、従来の研究成果として蓄積してきた論文コーパスの中で、テキスト数を揃える必要がある工学分野でテキスト数を増やすための打ち込み作業を行っている。さらに、ジャンル間で1編あたりのテキスト分量が大きく違うという問題があるため、文章量を揃えての比較が可能となるように、論文分野でより文章量の少ない工学系の講演論文300編を選び、テキスト形式に修正して、検索プログラムがかけられるように準備をしている。 検索プログラムについては、大きなバグが出て解決できない状態でいるため、引き続き修正を行っているところである。 複合動詞の抽出については、奈良先端科学技術大学松本研究室で開発中のプログラムの公開を待って使用する予定であったが、まだ公開されていない。そこで、より単純な現在の検索プログラムを用いて、活用変化ごとに検索を行うという方法を仮にとっているが、人手による作業のため、時間が非常にかかり、他の方法を検討する必要に迫られている。そのため、検索プログラム自体にも修正を加える必要が出てきている。また、どの程度の複合動詞が扱えるかについても、プログラムの性能によって作業状況に影響が出てくるため、検討中である。
|