2000 Fiscal Year Annual Research Report

俳句の類似度判定を支援するデータベースシステムの開発

Research Project

Project/Area Number	11878028
Research Institution	National Institute for Educational Policy Research
Principal Investigator	吉岡亮衛国立教育政策研究所, 教育研究情報センター, 総括研究官 (40200951)
Keywords	俳句 / データベース / 類似度 / システム開発 / 季語 / 季語の特定 / 季寄せ / 歳時記
Research Abstract	本研究は、俳句データベースに蓄積されたデータと、エキスパート(選者)の評価基準を駆使して、新たな俳句が既存の俳句に類似している度合いを自動判定するシステムを開発することが最終目的である。そのため、(1)既存の俳句をデータベース化するためのデータベース構造を究明し、入手可能なできるだけ多くの俳句をデータベース化すること、(2)個々の俳句の特徴(たとえば季語)に照らしての分類や真贋判定する選者(エキスパート)の知識をルール化すること、及び(3)それらを一体化したシステムを開発することを目指している。本年度は次のように研究を進めた。 1.季語データベースによる俳句の季語の特定季語データベースに登録された季語により適当に選んだ俳句の季語をどれくらいの割合で特定できるか、実際にマッチングテストを行った。マッチング方法の検討からはじめ、2つの歳時記に共通の季語1,542語で448句のサンプル俳句の訳65%の季語を特定できるという結果を得た。同時に、季語が特定できた時にどのような研究が可能となるか、一例として、俳句選者による季節及び事項の嗜好に関する分析結果を示した。 2.季語データベースの増補次に、季語データベースを用いて俳句の季語を特定する場合の、特定率の向上について、季語を追加することによる特定率の変化を調べた。その結果、季語を増やせば、俳句の季語の特定率が上昇することを明らかにできた。ただし、約10,000語で90%の俳句を特定できた後、季語数の増加は特定率の向上にそれほど寄与しないであろうことを見いだした。つまり、特定率を90%で十分とするならば、1万語以上の季語データベースは必要ないという結論を得た。以上の一連の研究については、情報処理学会の人文科学とコンピュータ研究会において発表した。

Research Products
(2 results)

All Publications (2 results)

[Publications] 吉岡亮衛: "季語データベースの構築と俳句の季語の自動判定の試み"情報処理学会研究報告. 2000-CH-48. 57-64 (2000)
[Publications] 吉岡亮衛: "季語データベースの構築と俳句の季語の自動判定の試み(2)-季語の増補と判定率の向上-"情報処理学会研究報告. 2001-CH-49. 17-24 (2001)