2000 Fiscal Year Annual Research Report
Project/Area Number |
12780285
|
Research Institution | Kyushu University |
Principal Investigator |
中藤 哲也 九州大学, 情報基盤センター, 助手 (20253502)
|
Keywords | 自然言語処理 / 意味処理 / 概念辞書 |
Research Abstract |
これまでの研究で、用言に対する格文法規則を用いる方法を使って、コーパスなどの自然言語の情報から体言のクラスタリングを行なう方法を提唱して来たが、このクラスタ集合の内容(単語)が人間にとって無意味に見えると言う点、また自然言語の多義性解消や情報検索にその単語の集合を用いた場合、ベースとなる自然言語のジャンルによっては有効に作用するものの、充分に有効な結果を得ない場合もあると言う問題点があった。この為、このクラスタリングの内容を再度詳細に調査する事から始めた。その結果、(1)格要素の自由度の高い用言によって作られたクラスタのサイズが大き過ぎる為、多義性解消に必要なサイズのクラスタが形成されていない、(2)逆に頻度の低い用言によるクラスタに必要な情報(要素)が集まっていない、事が分かった。またそれらクラスタを単独で使用する為、あるクラスタの情報を他の用言に関する文の多義性解消に生かせてないと言う問題が新たに分かった。 この点を解消する為に、単語のクラスタリング方法として、複数の用言の共通項を使って体言をクラスタリングする、逆に複数の体言を使用して用言をクラスタリングする、つまり体言と用言が相互に相手の概念的位置を規定する方法を提唱した。またこの際に助詞情報の活用する事でクラスタリングの精度をあげる為の方法も提唱した。これらの方法は、用言と体言が相互に相手をクラスタリングするので、初期の構造の設定が難しく、手作業で注意深く雛型を作成している。また、このクラスタリングの過程において、1単語を複数の概念(クラスタ)に分割する必要性と手法も提案し、その実験準備を行なっている。
|