平成22年度は引き続き、著者の真贋が注目されている福澤諭吉による『時事新報』の新聞論説記事を対象として、以下の手順で著者推定実験を行っている。 (a)新聞論説記事の選定 福澤論吉に関して時事新報社で福澤諭吉の在籍中の主筆あるいは論説記者を著者候補者(中上川彦次郎、高橋義雄など)として、現存する原稿や書簡などの外的証拠から真筆が明らかなものを中心として、候補者一人あたり5件以上の記事を選定した。 (b)テキストデータの作成 選定した文書のテキストデータがすでに存在し、公開されていれば、それを用いるが、入手できない場合には、データを作成する必要がある。福澤諭吉の真筆記事はデータが公開されていることもあるが、それ以外の著者候補者の真筆文書でテキスト化されているものは少ない。また、それらの多くが明治・大正期に刊行され、劣化が激しい資料であり、さらに旧字体であるため、OCR(光学的文字認識)は多くの場合精度が十分に得られなかったため、アルバイトによるデータの入力を行っている。 (C)著者推定実験 著者推定実験はある一文書に対する一試行として行う。それをテスト集合中の全文書に対して試行した結果を用いて、平均著者推定精度を算出する。 また、新聞論説記事を対象とした実験だけでなく、並行して、電子メールやコミックの著者推定実験も行なっている。電子メールの著者推定のためにエンロンコーパスを取得した。コミック資料の著者推定のために、吹出し認識、テキスト抽出等の処理を行い、データの整理を行なった。
|