1999 Fiscal Year Annual Research Report

俳句の類似度判定を支援するデータベースシステムの開発

Research Project

Project/Area Number	11878028
Research Institution	National Institute for Educational Policy Research
Principal Investigator	吉岡亮衛国立教育研究所, 教育情報・資料センター, 室長 (40200951)
Keywords	俳句 / データベース / 類似度 / システム開発 / 真贋判定 / エキスパート / 季語 / 自動判定
Research Abstract	本研究は、俳句データベースに蓄積されたデータと、エキスパート(選者)の評価基準を駆使して、新たな俳句が既存の俳句に類似している度合いを自動判定するシステムを開発することが最終目的である。そのため、(1)既存の俳句をデータベース化するためのデータベース構造を究明し、入手可能なできるだけ多くの俳句をデータベース化すること、(2)個々の俳句の特徴(たとえば季語)に照らしての分類や真贋判定する選者(エキスパート)の知識をルール化すること、及び(3)それらを一体化したシステムを開発することを目指している。本年度は次のように研究を進めた。 1.季語データベースの構築俳句は必ず季語あるいは季題と言われる語を1語含んでいる。その言葉があることにより、その文章(五七五文)が俳句であるかどうか、何の季節を読んだ俳句であるかを判定できる。つまり、その句が季語を含んでいるかどうかは重要なポイントであり、研究の前段階として、季語のデータベースを構築しておくことは必要不可欠である。ここでは、角川書店の『季寄せ』を材料として季語データベースを構築した。 2.俳句データベースの構築本研究では、毎年三重県上野市で開催される芭蕉祭に献句される児童・生徒及び一般の入選句のうち過去12ヶ年分のデータの提供を受け、データベース化を行った。データベース化に際しては上の句、中の句、下の句に分割し、かつ、漢字には読み仮名を振った。