研究課題/領域番号 |
22K18006
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
菊地 真人 名古屋工業大学, 工学(系)研究科(研究院), 助教 (60909878)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 相互情報量 / 保守的な推定法 / 観測頻度 / しきい値 / 特徴選択法 |
研究開始時の研究の概要 |
相互情報量を推定する際は,事象の観測頻度に基づき,不偏推定量がよく用いられる.しかし不偏推定量による推定法は,頻度が低いときに真値の推定が困難で,推定値を過大に見積もる問題があり,これが相互情報量の利用範囲を狭めている.本研究では,確率分布を推定せずに最適化プロセスで相互情報量を直に求める直接推定法という枠組みを応用し,頻度の低さに応じて相互情報量をあえて低めに偏らせる“保守的な推定法”を実現する.また,保守的な推定法を特徴選択・特徴重み付けアルゴリズムへと導入し,有効性を検証する.本研究を通して,扱いが容易ではない低頻度データを相互情報量で有効活用する一方法を明らかにする.
|
研究実績の概要 |
前年度での定式化の知見を活用して,しきい値ありの保守的な推定法も実現できた.実現した二つの保守的な推定法は次に示すとおりである. ①しきい値なしの保守的な推定法:低頻度から推定される相互情報量をあえて低め(保守的)に見積もる.低頻度事象に対する相互情報量を過大推定することなく,無視されがちな少ない情報も効果的に扱うことが期待できる. ②しきい値ありの保守的な推定法:あるしきい値以上の頻度のみから相互情報量を推定する.その際,しきい値をわずかに上回る低頻度事象に対し,相互情報量を保守的に推定する.組み合わせ爆発を起こすような,しきい値が必須の実用事例への導入が期待できる. また,定式化した①の推定法を用いて特徴選択の実験を行った.具体的には,文書分類の訓練データセットから文書カテゴリを代表する重要語を,相互情報量ベースの単純な特徴選択法で抽出した.このとき,保守的な推定法の有無が結果へ及ぼす影響を分析した.しかしながら,保守的な推定の有無によらず,選択される単語がほぼ変わらないという結果になった.なお,選択した単語が各カテゴリを代表する単語であることを目視にて確認している. 本計画と直接関係はないが,条件付き確率について実現した保守的な推定法を,関係マイニングに実応用した研究で良好な結果を得た.本成果では,しきい値ありの保守的な推定法を用いることで,組み合わせ爆発を防ぎながら低頻度事象を適切に扱えることを示した.よって,相互情報量の推定法も同様のケースで有効な可能性が示された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初計画では,前年度に定式化した保守的な推定法(①)の有効性を確認し,その成果を論文化することを目指していた.文書分類問題における単語の選択など,低頻度事象を取り扱う特徴選択にて,提案法の有効性が確認できる予定であった.しかし計画とは異なり,有効性の確認が取れておらず,直接的な成果の論文化にも至っていないため,進度がやや遅れていると判断した.一方,頻度にしきい値を設けて保守的に推定すること自体は,類似の研究において有効性が確認できている.相互情報量では,筆者の知る限りしきい値を考慮した推定法がないため,相互情報量の新たな使用法を開拓できる可能性がある.
|
今後の研究の推進方策 |
提案手法(①)の効果が得られない原因の特定を早急に行う.特定した原因に応じて,推定対象を相互情報量の特殊ケースである自己相互情報量に変更する,提案手法の適用範囲を広範に拡大する等の対策を試す.提案の定式化は自己相互情報量にも適用可能でき,自己相互情報量の推定ではしばしば低頻度事象の扱いが問題となるためである.加えて本年度に定式化した,しきい値ありの推定法(②)についても有効性の検証を進める.
|