俳句の類似度判定を支援するデータベースシステムの開発

研究課題

研究課題/領域番号	11878028
研究種目	萌芽的研究
配分区分	補助金
研究分野	科学教育
研究機関	国立教育政策研究所
研究代表者	吉岡亮衛国立教育政策研究所, 教育研究情報センター, 総括研究官 (40200951)
研究期間 (年度)	1999 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	2,000千円 (直接経費: 2,000千円) 2000年度: 500千円 (直接経費: 500千円) 1999年度: 1,500千円 (直接経費: 1,500千円)
キーワード	俳句 / データベース / 類似度 / システム開発 / 季語 / 季語の特定 / 季寄せ / 歳時記 / 真贋判定 / エキスパート / 自動判定
研究概要	本研究は、俳句データベースに蓄積されたデータと、エキスパート(選者)の評価基準を駆使して、新たな俳句が既存の俳句に類似している度合いを自動判定するシステムを開発することが最終目的である。そのため、(1)既存の俳句をデータベース化するためのデータベース構造を究明し、入手可能なできるだけ多くの俳句をデータベース化すること、(2)個々の俳句の特徴(たとえば季語)に照らしての分類や真贋判定する選者(エキスパート)の知識をルール化すること、及び(3)それらを一体化したシステムを開発することを目指している。本年度は次のように研究を進めた。 1.季語データベースによる俳句の季語の特定季語データベースに登録された季語により適当に選んだ俳句の季語をどれくらいの割合で特定できるか、実際にマッチングテストを行った。マッチング方法の検討からはじめ、2つの歳時記に共通の季語1,542語で448句のサンプル俳句の訳65%の季語を特定できるという結果を得た。同時に、季語が特定できた時にどのような研究が可能となるか、一例として、俳句選者による季節及び事項の嗜好に関する分析結果を示した。 2.季語データベースの増補次に、季語データベースを用いて俳句の季語を特定する場合の、特定率の向上について、季語を追加することによる特定率の変化を調べた。その結果、季語を増やせば、俳句の季語の特定率が上昇することを明らかにできた。ただし、約10,000語で90%の俳句を特定できた後、季語数の増加は特定率の向上にそれほど寄与しないであろうことを見いだした。つまり、特定率を90%で十分とするならば、1万語以上の季語データベースは必要ないという結論を得た。以上の一連の研究については、情報処理学会の人文科学とコンピュータ研究会において発表した。

報告書

(2件)

2000 実績報告書
1999 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 吉岡亮衛: "季語データベースの構築と俳句の季語の自動判定の試み"情報処理学会研究報告. 2000-CH-48. 57-64 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 吉岡亮衛: "季語データベースの構築と俳句の季語の自動判定の試み(2)-季語の増補と判定率の向上-"情報処理学会研究報告. 2001-CH-49. 17-24 (2001)
- 関連する報告書
  2000 実績報告書