研究概要 |
申請者は,日本語文章を文字列として捉え,文字遷移の情報量として順方向と逆方向を考えた場合に,それぞれについて情報量を遷移確率上位の有限個だけ加算した情報量(これを加算限定m位までの累加情報量と呼ぶ)に順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つ可能性を見出した.上位有限個までの累加情報量を考える理由は,現実の文字認識後処理などへの文字遷移確率の利用において,ほとんどの場合に文字認識の有限個の上位候補に対してしか文字遷移確率を考えないことによる. これまで,日本経済新聞5年分のCD-ROM,および,中国人民日報新聞15年分のCD-ROMを購入し,それらのCD-ROMから記事をテキストに変換して,順方向と逆方向の累加情報量を調査した. その結果,中国と英語には日本語のような順方向と逆方向の差異はないことを確認した.中国語を解析して比較することで,日本語における平仮名の存在が順方向と逆方向の差異の理由になっていることが判明した. 別の観点から,加算する有限個の遷移確率の総和が1になるように正規化した場合の正規化累加情報量についても検討した.これは,確率の総和が1になるようにしないと,情報量としての意味を持たない可能性があるためである.調査の結果,正規化した累加情報量でも同様のことを確認した.今後は,さらに上記の理由を深く研究したい.これらについては,近々に学会発表を予定している.
|