研究分担者 |
亀田 弘之 東京工科大学, 工学部, 講師 (00194994)
宮崎 幸一 (株)朝日新聞社, 東京本社, 制作局局長
倉島 節尚 (株)三省堂, 国語辞書編集所所長
田中 康仁 姫路短期大学, 経営情報工学, 助教授 (00163585)
荻野 綱男 筑波大学, 文芸・言語学系, 助教授 (00111443)
MIYAZAKI Koichi Production Department, Tokyo Main Office, Asahi Shinbun Publish Company
広瀬 啓吉 東京大学, 工学部, 助教授 (50111472)
|
研究概要 |
本研究は, 現代の日本語に関する大量の言語データをもとに, 種々の視点から豊富な言語用例を検索することのできる, 大規模・高機能な言語データべ-スを作成することを目的として, 以下のような成果を達成した. 1.言語処理用単語辞書の作成:本研究での高機能検索は, 形態素解析と品詞自動付与の言語処理に基づいており, これらの処理を行うための単語辞書を作成した. 辞書は, 計算機可読な新明解国語辞典(三省堂)・日本語単語機械辞書(九州大学)及び人名辞典等の言語資料を基に作成し, 品詞・活用情報も見出しとともに記載・利用した. 用語の活用形も見出しとして記述したので, 全体で約20万項目となった. 2.形態素解析・自動品詞情報付与アルゴリズムとそれらのプログラムの作成:日本語の品詞間の接続関係を国語学の資料を基に網羅的に調べ上げ, これを86×59接続表の形式にまとめるとともに, 文節内構造を遷移ネットワーク形式に記述し, これらの知識を利用する形態素解析・品詞情報自動付与アルゴリズムを作成し, 東京大学大型計算機上にプログラムとしてFORTRAN77で記述・実装した. 3.新聞記事データの整備:申請者らにより既に収集され, 機械可読な形態に加工されている新聞記事データ(1982年, 朝日新聞朝夕刊合計84日分)を, 高機能検索データベース用のテキストデータ(合計約30MB)として整備した. 4.高機能データベースの作成:上記の1〜3の成果に基づき, 新聞記事を対象とし, 文字・文字列・単語・単語列・品詞・品詞列及びこれらの任意の組合せをキーとする大規模・高機能な言語データベースを作成した. データベース管理システムは, 大型計算機上に, FORTRAN77を用いて記述した. この結果, 種々の観点から言語データを検索することのできるデータベースが実現された.
|