2013 Fiscal Year Research-status Report
変形正規分布の線形結合歪度モデルによる異字体混合の低品質手書き文章認識の研究
Project/Area Number |
25330217
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Tokyo National College of Technology |
Principal Investigator |
鈴木 雅人 東京工業高等専門学校, その他部局等, 教授 (50290721)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 線形結合歪度モデル / パタン認識 / データマイニング / 自然言語処理 |
Research Abstract |
申請者らは,これまでの研究成果により,幾つかの変形正規分布の線形結合により,低品質文字の母集団分布をより正確に推定できると考えている.今年度は,その妥当性を検証するために低品質手書き文字データを収集した.これらのデータを用いた実験により,変形正規分布は,3次の統計量である歪度を考慮したものであるが,他の高次統計量による推定精度向上の効果も検証し,提案すべき母集団分布推定法の枠組みを固めることができた. 次に,提案する線形結合モデルのパラメータの決定法を検討した.本研究では,学習パタンから得られる標本分布について,高次キュムラントなどの様々な統計量を算出し,独立成分分析による線形結合モデルの構築法をまとめた.また,文字認識後の誤認識訂正につても検討を行った.ここでは,個別文字認識アルゴリズムとして,従来の多変量正規分布を仮定した既存アルゴリズムを用い,あらかじめ大量の文章を用意して,文章中の文字と文字,または単語と単語の繋がり具合を,ベイジアンネットワークを用いて表現する.そして,既存認識アルゴリズムによる手書き文章の認識結果に対して形態素解析・構文解析を行い,作成したベイジアンネットワークを用いて誤認識の可能性が高い文字を検出し,誤り訂正を行う.構文解析を適用して,単に文法誤りから誤認識箇所を検出・訂正する場合と比較することによって,ベイジアンネットワークを用いた誤認識訂正が若干有効であることが検証できた.尚,ここで用いたデータは,個別文字認識後の後処理(誤認識訂正)方式に関する検証なので,ある程度高精度に認識可能な手書き文字データであるETL9を試用した. 最後に,考案したアルゴリズムを実装し,実際の手書き文章を用いて実験を行った.その結果得られた提案アルゴリズムの有効性および問題点を考察し,研究成果をまとめて学会発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画の第一段階として,これまでの研究成果から,幾つかの変形正規分布の線形結合により低品質文字の母集団分布をより正確に推定できることを検証することになっていたが,その検証に使う適切な文字データベースが見つからず,研究計画の2年目に予定していた低品質手書き文字収集の作業を前倒しで行っているが,当初の研究自体は予定通りに終了している.また,第一般アルゴリズムも策定が完了しており,文字認識後の後処理についても検証が予定通り終了している.ただし,当初考えていたよりも文字データベースの品質が良かったため,引き続き他の文字データを用いての問題の洗い出しができれば,尚良い成果へと結び付けられると考えている. 以上の状況から総じて,現在までの達成度はほぼ予定通りと判断することができる.
|
Strategy for Future Research Activity |
前年度の研究調査で線形結合モデルのパラメータ推定のために,どのような統計量が有効であるか,実際のデータを検証しながら検討する.また,線形結合の方法については,ブラインド情報源分離の技術が有効であることは確認済であるが計算量の観点で問題がある.そのため,他にも応用可能な手法いついて幅広く検討する.その上で,前年度に策定する第1版の線形結合モデル構築法について,大量のデータを用いて検証実験を行い,問題点の洗い出しを行う.データは既存のもので公開されているものがあれば望ましいが,実際にはそのようなデータがないため,昨年度に引き続き追加でデータを独自に収集して活用する.これらの検証実験により明らかになる問題点については,26年度中に解決策を検討し,その結果を踏まえて提案アルゴリズムをほぼ確定させる.次に,線形結合モデルが自動生成できるという仮定のもとで,個々の文字が,どの字種のどの字形で記載されているかという確率的情報を加味し,ベイジアンネットワークを再構築する方法について検討する.その際,ネットワークのノード数は爆発的に増える場合には,ネットワーク自体を有限時間で構築することが難しい.そのため,申請者らが現在研究成果をまとめている段階的構造学習法を適用し,ネットワークの構築を試みる.また構築したネットワークを用いて,誤認識文字の推定および訂正を行うためのアルゴリズムをまとめる. この段階で得られる,字形をも考慮した線形結合モデルは,検証実験を行って問題の洗い出しと改良が必要な段階にあるが,26年度中に得られたこれらの成果をまとめ,学会で公表する.
|
Expenditure Plans for the Next FY Research Funding |
当初購入を予定していたパソコン関連品の価格は,性能・価格ともに激しく変動するものが多い.そのため,申請時期と実際の購入時期において,性能・価格に差異が生じてしまったため,多少の剰余金が発生した. 繰り越し金額は4万円程度であり,平成26年度に計画している学会発表の開催地や購入物品の金額の変動により容易に吸収されてしまう金額であると考える.そのため,繰越金を用いて新たな使途を考えるのではなく,予定の物品購入・学会発表旅費等で吸収したいと考えている.
|