研究概要 |
機構翻訳システムの多義語の判別, 仮名漢字変換システムの同音異義語の判別を行うためには語と語の関係の知識データを大量に作成しなければならない. しかし, この知識データ収集についての工学的方法が十分確立されていない. このため人手に頼らざるをえない状況である. この研究では語と語の関係による知識データの収集方法の確立と基礎的研究を目的とした. 本年度の研究としては朝日新聞のデータ84日分から'を'を中心とした知識データを収集した. 'を'についてのデータは延16万件, 種類10万件のデータを得た. この内容は特定研究「言語情報処理の高度化」で3冊の本として出版した. 'が'については延べ7万件, 種類5万4千件のデータを集めることができた. この内容については昭和63年度特定研究言語情報処理の高度化で出版したい予定である. 'が'についての知識データは少ないので昭和61年1年分の朝日新聞から知識データを抽出する作業を続けており良い結果が得られつつある. 日本科学技術情報センターのKWICから'が'についての知識データを得る作業は続けているが34万行のKWICを処理するため, 今後に結果がもちこされている. 朝日新聞のデータを利用して'の'に関する知識データの抽出方法の基礎的研究を行った. 約60万行のKWICから2種類のリストを作成した. また'の'の研究より名詞の概念記述についての方法とデータが得られることが判明した.
|