2004 Fiscal Year Annual Research Report
自然言語インタフェースのための文字遷移情報量に対する新しい視点と応用
Project/Area Number |
16650015
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
中川 正樹 国立大学法人東京農工大学, 大学院・共生科学技術研究部, 教授 (10126295)
|
Co-Investigator(Kenkyū-buntansha) |
金子 敬一 国立大学法人東京農工大学, 大学院・共生科学技術研究部, 助教授 (20194904)
|
Keywords | ヒューマンインタフェース / 自然言語 / 情報量 |
Research Abstract |
申請者は,日本語文章を文字列として捉え,文字遷移の情報量として順方向と逆方向を考えた場合に,それぞれについて情報量を遷移確率上位の有限個だけ加算した情報量(これを加算限定m位までの累加情報量と呼ぶ)に順方向と逆方向で顕著な差異があり,逆方向のほうが順方向より大きい情報量を持つ可能性を見出した.これを踏まえて次のことを行った. (1)文字列としてみた場合の加算限定累加情報量の検証 朝日新聞1年分のCD-ROMから読み取ったテキストに対して統計処理を行い,順方向と逆方向の加算限定累加情報量を調べた.この結果,逆方向のほうが順方向より大きい情報量を持つことを確認した.次に,日本経済新聞5年分のCD-ROMを購入した.それは直接解析できるテキストデータではなく,CD-ROMから1件づつ記事をテキストに変換する必要がある.そのために自動変換ツールを作成し,自動的にテキストを蓄積しつつある.現在までに7ヵ月の記事の変換を終えている. (2)中国語テキストデータの解析 中国人民日報新聞15年分のCD-ROMを購入した.そのCD-ROMから1年分の記事をテキストに変換し,順方向と逆方向の累加情報量を調べた.結果として,中国語においては加算限定累加情報量に順方向と逆方向で顕著な差異がないことが分かった.日本語と中国語において,一番大きい差異は,語順の違いと日本語における仮名である.そこで,朝日新聞1年分のテキストから仮名を削除し,これに対して順方向と逆方向の加算限定累加情報量を調べたところ,顕著な差異がなかった.このことから,日本語における累加情報量の特異性は,仮名に使用にあることが推察される.この検証とより深い考察を今後の課題とする.
|