• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

自然言語インタフェースのための文字遷移情報量に対する新しい視点と応用

研究課題

研究課題/領域番号 16650015
研究機関東京農工大学

研究代表者

中川 正樹  東京農工大学, 大学院・共生科学技術研究部, 教授 (10126295)

研究分担者 金子 敬一  東京農工大学, 大学院・共生科学技術研究部, 助教授 (20194904)
キーワードヒューマンインタフェース / 自然言語 / 情報量
研究概要

申請者は,日本語文章を文字列として捉え,文字遷移の情報量として順方向と逆方向を考えた場合に,それぞれについて情報量を遷移確率上位の有限個だけ加算した情報量(これを加算限定m位までの累加情報量と呼ぶ)に順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つ可能性を見出した.上位有限個までの累加情報量を考える理由は,現実の文字認識後処理などへの文字遷移確率の利用において,ほとんどの場合に文字認識の有限個の上位候補に対してしか文字遷移確率を考えないことによる.
昨年度は,日本経済新聞5年分のCD-ROM,および,中国人民日報新聞15年分のCD-ROMを購入した.そして,それらのCD-ROMから記事をテキストに変換して,順方向と逆方向の累加情報量を調査できるようにした.
本年度は,上記の理由をさらに深く研究した.中国語を解析して比較することで,日本語における平仮名の存在が順方向と逆方向の差異の理由になっていることが判明した.
別の観点から,加算する有限個の遷移確率の総和が1になるように正規化した場合の正規化累加情報量についても検討した.これは,確率の総和が1になるようにしないと,情報量としての意味を持たない可能性があるためである.調査の結果,正規化した累加情報量でも同様に,順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つことを確認した.
これらについては,近々に学会発表を予定している.

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi