自然言語インタフェースのための文字遷移情報量に対する新しい視点と応用

研究課題

研究課題/領域番号	16650015
研究種目	萌芽研究
配分区分	補助金
研究分野	メディア情報学・データベース
研究機関	東京農工大学
研究代表者	中川正樹東京農工大学, 大学院共生科学技術研究院, 教授 (10126295)
研究分担者	金子敬一東京農工大学, 大学院共生科学技術研究院, 助教授 (20194904)
研究期間 (年度)	2004 – 2006
研究課題ステータス	完了 (2006年度)
配分額 *注記	2,900千円 (直接経費: 2,900千円) 2006年度: 900千円 (直接経費: 900千円) 2005年度: 800千円 (直接経費: 800千円) 2004年度: 1,200千円 (直接経費: 1,200千円)
キーワード	ヒューマンインタフェース / 自然言語 / 情報量
研究概要	申請者は,日本語文章を文字列として捉え,文字遷移の情報量として順方向と逆方向を考えた場合に,それぞれについて情報量を遷移確率上位の有限個だけ加算した情報量(これを加算限定m位までの累加情報量と呼ぶ)に順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つ可能性を見出した.上位有限個までの累加情報量を考える理由は,現実の文字認識後処理などへの文字遷移確率の利用において,ほとんどの場合に文字認識の有限個の上位候補に対してしか文字遷移確率を考えないことによる. これまで,日本経済新聞5年分のCD-ROM,および,中国人民日報新聞15年分のCD-ROMを購入し,それらのCD-ROMから記事をテキストに変換して,順方向と逆方向の累加情報量を調査した. その結果,中国と英語には日本語のような順方向と逆方向の差異はないことを確認した.中国語を解析して比較することで,日本語における平仮名の存在が順方向と逆方向の差異の理由になっていることが判明した. 別の観点から,加算する有限個の遷移確率の総和が1になるように正規化した場合の正規化累加情報量についても検討した.これは,確率の総和が1になるようにしないと,情報量としての意味を持たない可能性があるためである.調査の結果,正規化した累加情報量でも同様のことを確認した.今後は,さらに上記の理由を深く研究したい.これらについては,近々に学会発表を予定している.

報告書

(3件)

研究成果
(2件)

すべて 2007 2006

すべて雑誌論文 (2件)

[雑誌論文] 日本語文字遷移における順方向・逆方向の情報量差異2007
- 著者名/発表者名
  朱碧蘭, 中川正樹
- 雑誌名
  
  電子情報通信学会2007年総合大会講演論文集 2
- 関連する報告書
  2006 実績報告書
[雑誌論文] 線形時間学習及び定数時間識別の一パターン識別手法2006
- 著者名/発表者名
  小林卓夫, 中川正樹
- 雑誌名
  
  電子通信学会技術報告 106, 97
  
  ページ: 13-18
- NAID
  110007386147
- 関連する報告書
  2006 実績報告書