研究概要 |
自然言語の解析,機械翻訳システムの多義語の解消,仮名漢字変換システムの同音異義語の解消のために必要な知識データの獲得のための基礎的な研究を行った。自然言語データとしては日本科学技術情報センターの抄録テープを利用した。この抄録テープより"を"を中心としたKWICを作成し、別に作成したテーブルと照合し知識データを獲得した。"を"を中心としたKWICデータは約79万件のデータである。'を'の後の語を後接語,'を'の前の語を前接語とする。'を'の前の語は漢字とカタカナ,記号(-)により抽出した。'を'の後の語は特別なテーブルを約2万件作り、機械に入力し作成した。この2つのデータによりKWICを加工して知識データを得た。 知識データは約28万件得られた。一部未整理の部分もあるが今後整理する方針である。 さらに知識データの獲得を行った。東大と朝日新聞社の協力で整備しつつある新聞データを利用することを考えた。新聞データより'を'を中心としたKWICを作成した。約15万件 この中より知識データの抽出を手作業で行っている。新聞データは和語が多いため、又、大量でないため、1件1件を丁寧に分析し、カードを作成し、知識データの抽出を行っている。学生達の協力で約12万件の知識データを得た。このデータは昭和62年度磁気テープ化する予定である。 日本科学技術情報センターの抄録テープにより抽出した知識データは磁気テプ化されている。又この内容は特定研究(言語)の総括班の費用で3用の本に印刷し、関係者に配布する予定である。(昭和62年3月20日完成予定)。 本年度の研究費は有効に利用し、当初の計画実績を達成できた。
|