研究課題/領域番号 |
09780389
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 九州大学 |
研究代表者 |
菅沼 明 九州大学, 大学院システム情報科学研究科, 助教授 (70235852)
|
研究期間 (年度) |
1997 – 1998
|
研究課題ステータス |
完了 (1998年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
1998年度: 700千円 (直接経費: 700千円)
1997年度: 1,400千円 (直接経費: 1,400千円)
|
キーワード | 字面解析 / 文章推敲支援 / 日本語文書処理 / テキスト処理 / 並列構造の推定 |
研究概要 |
本研究では日本語文中にある並列構造を抽出し、並列要素を推定する方法を構築することを目的としている。計算機が推定した並列構造を書き手に提示することで、違った角度から文章を眺める機会を与える。それによって、書き手が見落としがちである誤りを発見しやすくする。本年度の研究では、以下のことを明らかにした。 (1) 述語並列の抽出法の評価に関して 述語並列の存在を示す並列のキーを抽出する手法の評価を行った。九州大学大学院で行なわれている情報工学演習の抄録を対象にして、並列構造の見落とし(再現率)と余分なキーの指摘(適合率)の2点で評価した。再現率は98%であり、適合率は97%であった。これらの値はともに高く、十分な精度で並列のキーを抽出していると言える。さらに、抽出した並列のキーによって述語並列、名詞並列、部分的並列の並列構造をある程度区別する方法を構築した。名詞並列と部分的並列に関しては、並列のキーだけでは区別できないが、述語並列に関してはほぼ区別して抽出できる。 述語並列の並列要素の推定に関しても評価を行った。このシステムによって推定した並列要素を目視で「うまく推定できた」「推定した要素でもよい」「推定に失敗している」の3つに分類した。対象の文章は上と同じものを使用した。推敲支援という立場から、「推定した要素でもよい」までは使用できる情報を取り出せるといえる。この評価で得た精度は83%であった。 (2) 書き手への指摘法に関して 書き手は読みにくい表現だけを指摘してもらいたい。本研究では、名詞並列を対象にして推敲候補を絞り込む手法を検討した。絞り込み手法の概要は、名詞並列の並列要素を推定する規則の適用順序を変えて推定し、推定された並列要素が正規の順序で推定したものと同じてあれば指摘しないというものである。この手法でも指摘して欲しい並列構造を落とさずにある程度絞り込めることが判明した。
|