2005 Fiscal Year Annual Research Report
自然言語インタフェースのための文字遷移情報量に対する新しい視点と応用
Project/Area Number |
16650015
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
中川 正樹 東京農工大学, 大学院・共生科学技術研究部, 教授 (10126295)
|
Co-Investigator(Kenkyū-buntansha) |
金子 敬一 東京農工大学, 大学院・共生科学技術研究部, 助教授 (20194904)
|
Keywords | ヒューマンインタフェース / 自然言語 / 情報量 |
Research Abstract |
申請者は,日本語文章を文字列として捉え,文字遷移の情報量として順方向と逆方向を考えた場合に,それぞれについて情報量を遷移確率上位の有限個だけ加算した情報量(これを加算限定m位までの累加情報量と呼ぶ)に順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つ可能性を見出した.上位有限個までの累加情報量を考える理由は,現実の文字認識後処理などへの文字遷移確率の利用において,ほとんどの場合に文字認識の有限個の上位候補に対してしか文字遷移確率を考えないことによる. 昨年度は,日本経済新聞5年分のCD-ROM,および,中国人民日報新聞15年分のCD-ROMを購入した.そして,それらのCD-ROMから記事をテキストに変換して,順方向と逆方向の累加情報量を調査できるようにした. 本年度は,上記の理由をさらに深く研究した.中国語を解析して比較することで,日本語における平仮名の存在が順方向と逆方向の差異の理由になっていることが判明した. 別の観点から,加算する有限個の遷移確率の総和が1になるように正規化した場合の正規化累加情報量についても検討した.これは,確率の総和が1になるようにしないと,情報量としての意味を持たない可能性があるためである.調査の結果,正規化した累加情報量でも同様に,順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つことを確認した. これらについては,近々に学会発表を予定している.
|