研究概要 |
本年度の研究では、全文検索のための基礎となる日本語文解析の精度、特に文節解析の精度を向上させることを中心に研究した。また、オートマトンを用いた複合語の解析法についても検討を進めた。文節解析法に関しては、単語間の接続規則ないし接続確率に基づく従来の方法に換えて、基本的に(ほとんど)全ての機能語列を辞書に登録してしまう長単位機能語辞書による全く新しい考え方による方法の可能性について研究した。これが可能であれば、接続の良否を計算によって判断する必要は基本的に無くなり、辞書データ上で個々の機能語列毎に個別に調整すればよいことになって、精度向上を期待できる。新聞記事5年分を解析して調査した結果、実際に現れた機能語列は異なり数で約52,000個、うち頻度上位2,600個で総述べ数の99.0%を、また頻度上位27,000個で総述べ数の99.9%をカバーしているという結果が得られた。この結果から、前述の方法に関する見通しが得られ、長単位機能語列の登録と、従来の短単位の機能語の登録とのハイブリッド方式による方法を現在開発中である。今後、辞書に登録する長単位の機能語列を個別に調整確認する作業が必要となる。
|