本研究では、特に1.文内要約の研究、2.複数文書要約、の2つの課題について、重点的に研究を行なった。その結果、以下の成果を得た。 文内要約に関しては、文内の不要箇所削除技法として、文内の要素の削除可能性をコーパスから得られる統計的情報で決定する手法に関して成果を得た。具体的には、動詞連体修飾節の削除可能性に関するコーパスからの知識獲得に関して、削除できる可能性のある動詞を含む連体修飾節が修飾している名詞に対して、修飾されやすさ、修飾多様性をコーパスからエントロピーとして計り、修飾される頻度が低い、修飾する動詞の種類が限定されている動詞連体を削除可能と認定するなどを行なう手法を考案し、その有効性を実験的に検証した。また、多重連体修飾節の削除可能性に関するコーパスからの知識獲得に関して、多重連体修飾句の削除可能性を、連体修飾句と被修飾名詞との相互情報量等を計ることにより求める手法を提案し、その有効性を実験的に検証した。 要約研究の中で実用上特に重要な、複数文書要約に関して、様々なヒューリスティックスを組み合わせた複数文書要約システムとして、構文解析に基づき、複文における冗長性の認定による削除、直接引用表現の削除可能性の認定等、きめの細かいヒューリスティックスを用いた文内削除を行なう手法を提案した。国立情報学研究所主催の評価ワークショップNTCIR3に参加し、良好な成績を収めた。複数文書要約においては、対象となる文書集合が複数の話題を含む。しかしながら、ユーザはそれらの話題すべてに興味を持つとはかぎらず、ユーザ毎、また、同じユーザでもそれぞれの場合の目的毎に異なった要約が必要となる。そこで、対象となる文書集合からキーワードを抽出してユーザに提示し、選択させることで、ユーザ適合した要約を生成するインタラクティブな手法を提案した。国立情報学研究所主催の評価ワークショップNTCIR4に参加し、極めて良好な成績を収めた。 関連して、略語と原語の対応関係に関する知識のコーパスからの獲得に関する成果等を得た。
|