• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

様々な種類の文書に対応した汎用性の高い著者推定手法

研究課題

研究課題/領域番号 20700224
研究機関亜細亜大学

研究代表者

安形 輝  亜細亜大学, 国際関係学部, 准教授 (80306505)

キーワード著者推定 / 圧縮プログラム / 福沢諭吉 / 情報図書館学
研究概要

平成22年度は引き続き、著者の真贋が注目されている福澤諭吉による『時事新報』の新聞論説記事を対象として、以下の手順で著者推定実験を行っている。
(a)新聞論説記事の選定
福澤論吉に関して時事新報社で福澤諭吉の在籍中の主筆あるいは論説記者を著者候補者(中上川彦次郎、高橋義雄など)として、現存する原稿や書簡などの外的証拠から真筆が明らかなものを中心として、候補者一人あたり5件以上の記事を選定した。
(b)テキストデータの作成
選定した文書のテキストデータがすでに存在し、公開されていれば、それを用いるが、入手できない場合には、データを作成する必要がある。福澤諭吉の真筆記事はデータが公開されていることもあるが、それ以外の著者候補者の真筆文書でテキスト化されているものは少ない。また、それらの多くが明治・大正期に刊行され、劣化が激しい資料であり、さらに旧字体であるため、OCR(光学的文字認識)は多くの場合精度が十分に得られなかったため、アルバイトによるデータの入力を行っている。
(C)著者推定実験
著者推定実験はある一文書に対する一試行として行う。それをテスト集合中の全文書に対して試行した結果を用いて、平均著者推定精度を算出する。
また、新聞論説記事を対象とした実験だけでなく、並行して、電子メールやコミックの著者推定実験も行なっている。電子メールの著者推定のためにエンロンコーパスを取得した。コミック資料の著者推定のために、吹出し認識、テキスト抽出等の処理を行い、データの整理を行なった。

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi