研究課題/領域番号 |
24650073
|
研究種目 |
挑戦的萌芽研究
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
村山 立人 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 研究主任 (80360650)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 不可逆データ圧縮 / データマイニング / センシング |
研究概要 |
現代の社会では、より少ない記憶領域で経済的に情報を保存するために可逆圧縮過程が広く利用されている。しかし、データ系列を完全に再現しなければならないこの可逆過程では、エントロピー限界を超える水準で情報を集約することはできない。情報理論では、完全なデータ系列の再現が困難な圧縮水準でも、距離公理を満足する自然な歪み測度を忠実度規範とした圧縮過程が議論できる。例えばJPEG、MPEG、MP3などは、人間の視覚や聴覚の感覚性、あるいは感覚情報を統合する脳の認識特性を経験的に考慮した忠実度規範を持っていると解釈できる。 一方、深宇宙探査やゲノム情報処理などのデータマイニング諸分野では、データスケールが人間の扱える範囲を超えており、すでにコンピュータでの処理が常識になっている。このように、データの入力先が人間の感覚器からコンピュータに置き換わった分野では、人間の感覚・認識特性との親和性は相対的に重要ではなくなり、コンピュータでの統計的処理に適した情報集約の方法を再検討する必要がある。 本研究は、古典的な情報縮約と統計的推定を現代的なデータマイニングという視点で融合させようとするのが特色である。本年度は、このようなアプローチの有効性を数学的に検証する目的で、単純なベルヌイ試行を用いた思考実験をコンピュータで実装し、十分統計量の挙動に関するマップを作成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的は、深宇宙探査やゲノム情報処理などのデータマイニング諸分野で、特定の事象の検出を主目的に日々大量に蓄積されている計測データの効率的な情報集約のための方法論の確立である。特に、計測データが離散時間の確率過程、あるいは確率変数の列として解釈できるときには、そこで定義される基本的な統計量を保存させる不可逆圧縮過程による情報集約の形式を提唱できると考えている。この方法によって、もとの計測データを特徴づける統計的性質を最大限に継承させながら、同時に圧縮過程で時系列が受ける情報理論的意味での損失を最小限に抑える理想的な不可逆データ圧縮技術を開発し、広範な自然科学の諸分野に経済的なデータ管理のツールを提供できると期待している。 本研究におけるデータ系列のモデルとしては、特定の確率分布に従って繰り返し生成される確率変数の集合を採用した。すると、このデータ系列の背後にある確率分布を特徴づけるパラメータを確率変数の実現値から推定する逆問題を、一般的なデータマイニングのモデルケースとして考えることができる。本年度は、データ圧縮率を固定した不可逆圧縮過程のさまざまなバリエーションを考え、パラメータの十分統計量に対する応答を数値的に検証した。これは、来年度以降に行うことになる理論的解析のための有用な基礎資料となる。
|
今後の研究の推進方策 |
次年度以降では、離散時間で定義された確率変数列の値を集約したときにレート・歪み関数が達成できる理想的なケースを想定し、本年度の数値的検証を踏まえて、理論的な解析を実施することになる。さらに、データ系列を独立同分布な確率変数の集合でモデル化する際、観測にかかわるノイズの効果をどのように定式化するのが最も効果的なのかについて、再度、検討をしていく必要があると考えている。
|
次年度の研究費の使用計画 |
当該研究費が生じた主な要因は、(1)情報収集などを目的にした国内出張の回数が少なかったこと、(2)外国出張をしなかったこと、(3)高価なソフトウェア製品の購入のタイミングを次年度に変更したことである。翌年度以降に請求する研究費と合わせた使用計画としては、主に物品費・旅費での利用を想定している。ただし、購入設備の具体的な製品仕様(ソフトウェア及びハードウェア)に関しては、研究遂行上の効果等を十分に考慮しながら、慎重に見直しを行うつもりである。
|