1986 Fiscal Year Annual Research Report
高機能検索方式による大規模日本語データベースの作成
Project/Area Number |
61880005
|
Research Institution | The University of Tokyo |
Principal Investigator |
藤崎 博也 東大, 工学部, 教授 (80010776)
|
Co-Investigator(Kenkyū-buntansha) |
宮崎 幸一 (株)朝日新聞社, 東京本社, 制作局局長
倉島 節尚 (株)三省堂, 国語辞書編集所所長
田中 康仁 姫路短期大学, 経営情報工学, 助教授 (00163585)
広瀬 啓吉 東京大学, 工学部, 助教授 (50111472)
荻野 綱男 埼玉大学, 教養学部, 助教授 (00111443)
|
Keywords | 高機能検索 / 大規模日本語データベース / 言語用例検索 / 形態素解析 / 品詞情報自動付与 / 読み情報自動付与 |
Research Abstract |
本研究は、現代の日本語に関する大量の言語データをもとに、種々の観点から豊富な言語用例を検索することのできる、大規模・高機能な言語データベースを作成することを目的として、今年度は以下のような成果を達成した。 形態素解析アルゴリズム作成に関しては、申請者が既に作成した形態素解析アルゴリズムをもとに、(1)字種情報,(2)語の接続情報,(3)語の照応情報,(4)文体情報等を利用することにより、より正確かつ迅速に形態素解析することのできる新たなアルゴリズムを明らかにした。さらに上記(1)〜(4)の情報を検討・整理し、形態素解析プログラムを計算機上にインプリメントした。今後は、語境界同定の際に、品詞情報・読み(発音・アクセント)をも同時に同定することができるようにアルゴリズムを拡張する予定である。 品詞情報自動付与アルゴリズム関発に関しては、既に形態素処理されている新聞記事データに対して、主として語の接続関係に基づいて品詞候補を抽出するシステムを計算機上に作成した。現在は、上記の形態素解析アルゴリズム作成の際に得られた知見をもとに、処理精度と速度の向上を図っている。 日本語データベースシステムの作成に関しては、検索項目として、文字・文字種・単語・単語列・単語列共起・品詞・品詞列・品詞列共起・読みを採用することとした。また、将来的にシステムを公開することができるように、大型計算機(日立製計算機M682)と中型計算機(DEC製Micro-VAX)との上で可動するよう設計することとした。。 日本語データベースの作成・検討に関しては、データベースの各種機能モジュールを大型計算機上にインプリメントし、モジュール単位での検討を行っている。なお、大量データの高速かつ多角的な検索機能の枠組みは、交代インデックスの検索方式の利用により解決した。今後は検索用データのデータ形式等を検討する予定である。
|
Research Products
(6 results)
-
[Publications] 亀田弘之: 情報処理学会第33回全国大会講演論文集. 1831-1832 (1986)
-
[Publications] 亀田弘之: 情報処理学会第33回全国大会講演論文集. 1833-1834 (1986)
-
[Publications] 荻野綱男: マイ・ワープロ. (1987)
-
[Publications] 荻野綱男: 日本言語学会第93回研究発表会資料. 54 (1986)
-
[Publications] 田中康仁: 情報処理学会第34回全国大会講演論文集. (1987)
-
[Publications] 田中康仁: 情報処理学会自然言語研究会資料. (1987)