研究概要 |
1.文簡約アルゴリズムの開発 文簡約を、与えられた文から、文節重要度と係り受け整合度の総和が最大になるような部分文節列を選択する問題として定式化し、係り受け解析の技術を応用して効率よく解を求めるアルゴリズムを開発した。 2.係り受け整合度と文節重要度の推定 (1)京都大学コーパス中の約34,000文を用いて2文節間の係り受け整合度の推定を行なった。整合度は係り受け距離の頻度分布に基づいて定めており、それを係り文節と受け文節のクラス毎に計算した。 (2)同コーパス中の200文を人手で簡約し、文節の残存率から文節クラス毎に文節重要度の推定を行なった。 3.簡約文の主観評価 上記のアルゴリズム、係り受け整合度、および文節重要度を用いて自動簡約した文の質に対して主観評価を行なった。評価用の文は、文節重要度の推定に用いたのとは別の200文である。また、簡約文の質を評価するための被験者数は5名である。評価は、(1)総合評価、(2)情報の保持に関する評価、(3)簡約文の文法的自然性に関する評価、の3つについて行なった。また、提案法による簡約を、人手による簡約およびランダム簡約と比較した。その結果、提案法による簡約文の質は、どの簡約率においても、人手による簡約とランダム簡約の中間に位置することが分かった。文法的自然性に関しては、提案法による簡約と人手による簡約の間に差は見られなかった。 4.短文分割 日本語文章には、しばしば長文が現れる。そのような長文は、そのまま係り受け解析することは大変困難であるので、解析がより容易な短文に分割することが望ましい。ここでは、サポートベクターマシンを用いて短文分割点を自動推定するための研究を行なった。短文分割点を定めるのに重要な役割をする文節の属性値をデータとして短文分割実験を行った結果、適合率77%、再現率84%、文正解率72%が得られた。
|