研究課題/領域番号 |
21K12096
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61060:感性情報学関連
|
研究機関 | 金沢工業大学 |
研究代表者 |
松下 裕 金沢工業大学, 情報フロンティア学部, 教授 (60393568)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 強化学習 / 眼球運動 / Webサイト / 文字識別 / 予測 / 情報検索 |
研究開始時の研究の概要 |
本研究では,強化学習を用いて,視線データからユーザの文字識別困難の発生を予測するシステムを構築する.主要な研究課題は学習時間の短縮と文字識別困難判定のための効果的な学習方法の考案である.これらの課題を二段階解析法によって解決する.第一段階では,眼球運動特性によって被験者を二つの群に分け,各群でTD法により文字識別困難の予測手順を構築する.これにより効果的な学習方法を考案する.第二段階では,現実のWebサイトで閲覧実験を行い,第一段階で得られた学習条件をDeep Q-Networkで使用することによりユーザに応じた文字識別困難発生の予測を実施する.このとき,学習時間の短縮と精度の向上を検証する.
|
研究実績の概要 |
本研究の目的は,Webサイト閲覧時の視線データから,ユーザの文字識別困難の発生を強化学習に基づいて予測することである.強化学習を用いる理由は文字識別困難時の眼球運動の特徴が解明されておらず,教師データが存在しないからである.ただし,本研究では,行動の決定に対して予測精度を犠牲にしても「視線が一定時間(閾値)以上停留すると文字識別困難と判定する」という制約を設ける.ユーザが見難い文字に出会ったとき視線を停留させることでコンピュータ(エージェント)にその状況を知らせるようにするためである. 従って,視線停留時間を主要説明変数とし,その閾値の設定が研究の主題である.ここで閾値を短くすると,文字識別困難の場合には迅速に文字が拡大されて便利であるが,文字識別困難でない場合には不要に文字が拡大されて(第1種の誤り)不快である.逆に,閾値を長くすると,文字識別困難なのにエージェントからの対応が無い状態(第2種の誤り)が続く.これら2種類の誤りの発生を低減させられるように閾値を設定することが肝要である.このため,今年度の研究では以下の方針で予測システムを構築した.まず,方策決定の制約を順守させるために,学習方法には方策依存型アルゴリズムのSARSA法を採用した. 500msから3000msまでの視線停留時間を時間間隔の短い停留状態に分割し,各状態で文字拡大の実施の有無(方策)を判定させ,方策が適切であれば報酬を,不適切であれば罰則を与えた.次に,第1種の誤りの発生を小さくするために,文字識別困難でないときに,迅速に文字拡大を行うと罰則を与え,文字拡大をしなかったとしても殆ど報酬を与えなかった.後者は文字拡大の慎重な実施を促す措置である.第2種の誤りを低減するために,視線停留時間が2500msを超えても文字拡大をしなければ多大な罰則を与えた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度の予測方法は一般的な強化学習アルゴリズムの前提であるマルコフ決定過程から逸脱しており,期待報酬の収束が保証されない恐れがあった.今年度はマルコフ決定過程に基づくSARSA法のアルゴリズムを開発した.具体的には,視線停留時間500 ~3000 msを100 msごとに分割して25個の状態を設定し,視線停留原因として2事象(E1:文字識別困難,E2:その他)を用意し,各事象に2つの行動(Do:文字拡大あり,notDo:文字拡大なし)を設けた.これより,第1種と第2種の誤りはそれぞれE2_Do,E1_notDoと表される.両者の発生を低減させるために,25の状態を4つのカテゴリー(C1-C4)に統合した上で,1200ms以上(C2以上)でのE2_notDoにはあまり報酬を与えず,2500ms以上(C4)でのE1_notDo には大きな罰則を与えた.前者は文字拡大を慎重に行うことを促す(第1種の誤りの間接的低減)措置であり,後者は第2種の誤りの(直接的)低減措置である.さらに,1200 ~1500 msでユーザの文字識別困難発生のピークがあることを踏まえて1200 ms以上(C2以上)でのDoの報酬を大きくした. 実験刺激はスクロール9回で全てのページを閲覧できるパソコン周辺機器のWebサイトであり,ページ内に文字識別が困難になる記号や数値を意図的に配置した.これにより学習データは昨年度の6倍になった.このデータを用いて,提案した予測アルゴリズムの精度を検証した結果,各被験者で,再現率と正解率は良好であり第2種の誤りを低減できたが,適合率(第1種の誤り)はあまり良好ではなかった.そこで,方策決定の際に,視線停留時間に視線移動速度(速い,遅い)を組み合わせた結果,再現率に向上が見られたため,他の眼球運動特性との組み合わせが第1種の誤りの低減に対して有効になる可能性が示された.
|
今後の研究の推進方策 |
今年度は,視線停留時間を細かく分割して多くの視線停留の状態を設定し,各状態で行動(文字拡大の有無)を判定するアルゴリズムをSARSA法によって構築した.これにより,昨年度の懸案事項(期待報酬の収束が保証されず,得られた予測結果の信頼性を損なう恐れがあること)を解消できた.また,予測アルゴリズムの説明力を2種類の誤りと照合して検証することもできた.しかし,第2種の誤りは依然として発生しており,この低減を図ることが喫緊の課題である.これに対する解決方法として2つのことを考えている.まず,眼球運動特性として,視線停留時間に視線移動速度と視線移動距離を組み合わせ,視線移動速度と移動距離の状態を3水準以上にして今年度の予測手法を精緻化することである.これにより,学習によって得られる方策決定の表がきめ細かなものになり,第2種の誤りの低減を実現できる可能性が大きいと思われる.しかし,この方法は方策決定表の爆発的な増大を引き起こす恐れがあるため,これらの眼球運動特性を離散化せずに連続量として扱うことが妥当である.従って,第2の方法として,SARSA法の基本アルゴリズムを保持した上で,関数近似法によって方策決定の学習を行うシステムを構築することを考える.さらに,オンライン学習に対応するために,関数近似に基づいたDeep Q-Networkの構築についても検討する予定でいる.
|