2011 Fiscal Year Annual Research Report
様々な種類の文書に対応した汎用性の高い著者推定手法
Project/Area Number |
20700224
|
Research Institution | Asia University |
Principal Investigator |
安形 輝 亜細亜大学, 国際関係学部, 准教授 (80306505)
|
Keywords | 圧縮プログラム / 著者推定 / 圧縮アルゴリズム |
Research Abstract |
本研究で提案した圧縮改善率による著者推定手法は、圧縮プログラムを応用したもので、近代日本文学作品を対象とした著者推定実験では高い精度を示した。本研究の目的は、さまざまな圧縮プログラムを組み合わせた時に圧縮性能と著者推定精度の関係を分析することである。さらに、異なるタイプの文書、長さの異なる文書(特に長さの短い文書)、異なる言語の文書を対象として著者推定実験を行い、実験結果に基づく改善をこの手法に加えることで、より汎用性が高い著者推定手法を開発することである。 本年度は、8人の著者の近代日本文学データに対して様々なアルゴリズムの16種類の圧縮プログラムを圧縮改善係数からの著者推定手法に組み合わせた著者推定実験を行った。実験結果からは以下の3点が明らかとなった。(1)圧縮性能が高い圧縮プログラムはどのようなアルゴリズムであってもほぼ100%に近い高い著者推定の平均成功率を示す。(2)データの長さを20,000バイトまで短くした場合にも圧縮性能の高いプログラムでは9割以上の成功率であり、さらにその半分の10,000バイトにしたときの性能劣化も少ない。(3)平均圧縮率と著者推定の平均成功率には高い相関がみられた。 研究期間中に、さまざまなタイプの文書、例えば、旧字体文書、未解読文書、学術論文、その他のタイプの文書に対する著者推定実験も試行し、本手法が一定の精度で著者推定を行うことが可能なことを示した。また、各文書に対して圧縮プログラム全体ではなく圧縮アルゴリズムの一部を適用することで著者推定を行うことが可能なことが確認できた。
|
Research Products
(2 results)
-
-
[Presentation] Detecting academic papers on the web2011
Author(s)
Emi Ishita, Teru Agata, Atsushi Ikeuchi, Miyata Yosuke, Shuichi Ueda
Organizer
the 11th annual international ACM/IEEE joint conference on Digital libraries (JCDL '11)
Place of Presentation
Ottawa, Canada
Year and Date
2011-07-15