• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1986 年度 実績報告書

語と語の関係による知識データの収集についての基礎的研究

研究課題

研究課題/領域番号 61580033
研究機関姫路短期大学

研究代表者

田中 康仁  姫路短, その他, 助教授 (00163585)

研究分担者 西川 仙之  神戸商科大学, 商経学部, 教授 (90047457)
キーワード自然言語 / 機械翻訳 / 知識データ / 人工知能 / 仮名漢字変換システム / 多義語 / 辞書システム / 機械辞書
研究概要

自然言語の解析,機械翻訳システムの多義語の解消,仮名漢字変換システムの同音異義語の解消のために必要な知識データの獲得のための基礎的な研究を行った。自然言語データとしては日本科学技術情報センターの抄録テープを利用した。この抄録テープより"を"を中心としたKWICを作成し、別に作成したテーブルと照合し知識データを獲得した。"を"を中心としたKWICデータは約79万件のデータである。'を'の後の語を後接語,'を'の前の語を前接語とする。'を'の前の語は漢字とカタカナ,記号(-)により抽出した。'を'の後の語は特別なテーブルを約2万件作り、機械に入力し作成した。この2つのデータによりKWICを加工して知識データを得た。
知識データは約28万件得られた。一部未整理の部分もあるが今後整理する方針である。
さらに知識データの獲得を行った。東大と朝日新聞社の協力で整備しつつある新聞データを利用することを考えた。新聞データより'を'を中心としたKWICを作成した。約15万件 この中より知識データの抽出を手作業で行っている。新聞データは和語が多いため、又、大量でないため、1件1件を丁寧に分析し、カードを作成し、知識データの抽出を行っている。学生達の協力で約12万件の知識データを得た。このデータは昭和62年度磁気テープ化する予定である。
日本科学技術情報センターの抄録テープにより抽出した知識データは磁気テプ化されている。又この内容は特定研究(言語)の総括班の費用で3用の本に印刷し、関係者に配布する予定である。(昭和62年3月20日完成予定)。
本年度の研究費は有効に利用し、当初の計画実績を達成できた。

  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] 田中康仁,吉田将: 11 th International conference on computer Linguistics. (1981)

  • [文献書誌] 田中康仁,吉田将: 情報処理学会自然言語研究会研究報告 60-3. 1-10 (1982)

  • [文献書誌] 田中康仁 他: "計量国語学論集" 秋山書店, (1982)

URL: 

公開日: 1988-11-10   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi