2014 Fiscal Year Research-status Report
変形正規分布の線形結合歪度モデルによる異字体混合の低品質手書き文章認識の研究
Project/Area Number |
25330217
|
Research Institution | Tokyo National College of Technology |
Principal Investigator |
鈴木 雅人 東京工業高等専門学校, その他部局等, 教授 (50290721)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 線形結合歪度モデル / パタン認識 / データマイニング / 自然言語処理 |
Outline of Annual Research Achievements |
前年度の研究成果では,幾つかの変形正規分布の線形結合により,低品質文字の母集団分布をより正確に推定し,低品質文字の認識精度を改善する方法を確立した.しかし用いる変形正規分布は歪度のみを考慮した分布であり,表現できる歪度の範囲にも制限がある.そこで他の高次統計量による推定精度向上の効果も検証したが,認識精度の改善はわずかであり,逆にパラメータ推定に必要な計算量だけが膨大になってしまった. そこで本年度の研究では,実際のデータを検証しながら,どのような線形結合モデルが認識精度改善に有効であるか調査した.その結果,正準化された特徴量成分のうち,歪度の大きな成分を検出し,分布の多峰性の有無を,独立成分分析を用いて検出し,得られた独立成分の重ね合わせによってより複雑な分布を推定できるアルゴリズムを実現した.しかし,実現したアルゴリズムの計算時間は非常に膨大であり,線形結合モデルの自動生成という観点からすると,計算時間の改善は必須の課題である.当初の研究計画では,そのような改善について平成27年度に着手する予定であったが,今年度の成果として,特徴空間に簡単な変数変換を施すことによって,認識精度を劣化させることなく,ある程度の計算時間削減を実現するところまでは検討できた. 次に,線形結合モデルが自動生成できるという仮定のもとで,個々の文字が,どの字種のどの字形で記載されているかという確率的情報を加味し,ベイジアンネットワーク(BN)を用いた誤り訂正の仕組みについても検討した.当初の計画では,BNのノード数が非常に多いことを想定していたが,上記手法では独立成分の分離が非常に精度よく実現できているため,得られるBNは小規模な独立したネットワークの集合になることが多く,計算時間の削減について検討するまでもなく,目的とするネットワーク構築ができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度は,幾つかの変形正規分布の線形結合により低品質文字の母集団分布をより正確に推定できることを検証し,第一版のアルゴリズムを策定した.今年度はその研究成果を受けて,実際にどのような高次に統計量を考慮して,どのような分布の重ね合わせによって母集団分布を推定するのが妥当であるかを,検証データを用いて調査し,具体的に重ね合わせに用いる分布を独立成分分析によって求める方法を固めることができた.本年度は,提案アルゴリズムの最終的な形をまとめるところまでが目標である.まとめた提案アルゴリズムの問題点の検証および改善は27年度に行う計画であるが,そのうち計算時間に関する問題点については,一つの解決策を検討するところまで研究が進んでいる.また,ベイジアンネットワーク構築に関しても予想されていた問題点をうまく回避することができた. 以上の状況から総じて,現在までの達成度はほぼ予定通りと判断することができる.
|
Strategy for Future Research Activity |
前年度までに計画している研究課題については研究が完了しており,認識アルゴリズムもほぼ固まっている.研究計画によると,平成27年度は提案アルゴリズムの問題点を,認識実験により洗い出し,それらを解決して改善を図ることが目標となっている.そのために翌年度は,今年度に検討した線形結合モデルに対して,認識実験を引き続き行い,そこで得られる問題点に対する解決策の検討を行う必要がある.実際には,今年度中に完成した認識アルゴリズムにおいて,計算時間の問題が一番大きな問題として認められており,それに対する改善策も講じているが,まだ十分な効果は得られていないため,更なる検討が必要であると考えている. また,この作業と並行して,手書き文章認識システム全体を構築し,実用化という観点から提案アルゴリズムおよびシステム全体の性能評価を行う.システムの構築に際して,新たに不具合がでることも想定されるため,今年度1年いっぱいかけ,新たに明らかになると予想される不具合への対処も含めて,システム構築を完了する.尚,現段階で大きな問題点は想定されていないが,システム全体の問題としても,線形結合モデルの構築に必要な計算時間は,依然として大きな問題点となっている.そのため,最終年度はその点に重点を置いて解決策を模索することを予定している.最後に,それぞれの提案アルゴリズムおよびシステム全体の評価結果をまとめ,学会発表および投稿論文の形で成果を公表する予定である.
|
Causes of Carryover |
当初購入を予定していたパソコン関連品の価格は,性能・価格ともに激しく変動するものが多い.そのため,申請時期と実際の購入時期において,性能・価格に差異が生じてしまっている.また出張旅費についても若干の誤差が生じている.3万円程度の剰余金が発生したのはそのためである.
|
Expenditure Plan for Carryover Budget |
繰越金額は3万円程度であり,平成27年に計画している学会発表の開催地や購入物品の金額の変動により容易に吸収されてしまう金額であると考える.そのため,繰越金を用いて新たな使途を考えるのではなく,予定の物品購入・学会発表旅費等で吸収したいと考えている.
|