2009 Fiscal Year Annual Research Report
様々な種類の文章に対応した汎用性の高い著者推定手法
Project/Area Number |
20700224
|
Research Institution | Asia University |
Principal Investigator |
安形 輝 Asia University, 国際関係学部, 准教授 (80306505)
|
Keywords | 著者推定 / 圧縮プログラム / 福沢諭吉 / 情報図書館学 |
Research Abstract |
平成21年度は引き続き、著者の真贋が注目されている福澤諭吉による『時事新報』の新聞論説記事を対象として、以下の手順で著者推定実験を行った。 (a)新聞論説記事の選定 ある著者に関する著者推定実験を行うためには、正解文書としてその著者の真筆であることが明らかな文書を複数選定する必要がある。また、その選定対象著者には、同時期にその文書を書いた可能性のある候補者すべてを含める必要がある。福澤諭吉の場合には、時事新報社で福澤諭吉の在籍中の主筆あるいは論説記者を著者候補者(中上川彦次郎、高橋義雄など)として、現存する原稿や書簡などの外的証拠から真筆が明らかなものを中心と『して、候補者一人あたり5件以上の記事を選定した。十分な数を選定できなかった場合、選定範囲を広げ、論説記事でない新聞記事も含め選定した。それでも不十分な場合には、新聞記事に限らずその著者が書いた著作を選定対象として件数を確保した。 (b)テキストデータの作成 選定した文書のテキストデータがすでに存在し、公開されていれば、それを用いるが、入手できない場合には、データを作成する必要があった。福澤諭吉の真筆記事はデータが公開されていることもあるが、それ以外の著者候補者の真筆文書でテキストデータ化されているものはない。また、それらの多くが明治・大正期に刊行され、劣化が激しい資料であり、さらに旧字体であるため、OCR(光学的文字認識)は多くの場合精度が十分に得られなかった。結果として、アルバイトによるデータの入力を行っている。 (c)著者推定実験 著者推定実験はある一文書に対する一試行として行う。それをテスト集合中の全文書に対して試行した結果を用いて、平均著者推定精度を算出した。
|