研究課題/領域番号 |
17H06100
|
研究機関 | 九州大学 |
研究代表者 |
内田 誠一 九州大学, システム情報科学研究院, 教授 (70315125)
|
研究分担者 |
柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
牛久 祥孝 東京大学, 大学院情報理工学系研究科, 講師 (10784142)
|
研究期間 (年度) |
2017-05-31 – 2022-03-31
|
キーワード | 文字科学 / 文字工学 / 文字認識 / 機械学習 / フォント |
研究実績の概要 |
H30年度も文字の4機能の原理解明のための基礎研究を多角的に実施した. 周囲の明確化機能:物体認識における文字情報の有効性を評価するために,170万枚の情景画像を用いて,文字情報と,その文字が書かれている物体間の,共起性解析を行った.その結果,特定の物体クラスにのみ現れる文字情報があるなどの知見を得た.また,画像中の注目すべき領域について言語記述する方法も提案した. 知識・意味伝達機能:情景内に存在する文字の意味分布を調査した.さらに基盤技術として,文字超解像や文字拡大技術を開発し,またフォントの色や形状を含めた単語の意味ベクトル化についても検討を開始した. 雰囲気伝達機能:書籍ジャンルとタイトル文字のフォント形状および文字色の相関関係についてこれまでの結果を取りまとめるとともに,インターネット広告についても同様の分析を行い,広告内容とそこに使われている文字情報の相関関係を調査し,まとめた.また検討を進めていたロゴの自動デザインについてもさらに改良を図り,結果の高精度化を実現するとともに,既存デザインの「差分」を利用した新しいデザイン法も提案した.さらに特定質感を持ったフォント合成技術についても提案した. 可読性維持機能:CNNによる文字認識の挙動解析についてさらに調査を進めた.特にCNNが文字の構造をどのように捉えているかについて多角的な観察を行った.特に,プーリング方向のクラス依存性,重要がその可視化については論文としてまとめた.さらに,可読性・変形耐性を兼ね備えたアルファベット生成過程の解明のために,従来は困難であった「活字集合-手書き集合間の相互変換」ならびに「時系列文字表現と画像文字表現間の相互変換」を実現した.さらに難読文字である花押に関する距離学習,サイン(シグネチャ)の解析,難読文字の最適リジェクトについても検討した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
今年度は,文字の4 機能(周囲の明確化,知識・意味伝達,雰囲気伝達,可読性維持)の解明について,予定以上に進捗した課題が複数見られるので,上記の評価とした. 研究の推進に当たっては,深層学習をはじめとする最先端の機械学習の技術を積極的に活用している.その結果,例えば従来は困難とされた「活字集合-手書き集合間の相互変換」ならびに「時系列文字表現と画像文字表現間の相互変換」が実現できており,これらは期待以上の成果と考えている.また深層学習以外にも,従来はパターン認識の分野であまり取り入れられることが無かったランキング学習(TopRank学習,TopPush学習)や,Learning with rejection (識別関数と棄却関数の同時最適化)についても,文字機能解明のために積極的に導入し,すでに効果を確認している. 国際会議での論文発表も順調である.牛久ら(研究分担者)のCVPR(計算機科学分野でのトップ会議)や,柳井ら(研究分担者)のNIPS workshop論文,そして内田ら(研究代表者)も最も歴史あるパターン認識関連国際会議であるICPR2018でBest Student Paperを受賞し,また信号処理のトップ会議であるICASSPでの発表が確定している.文字文書解析の世界最大の国際会議であるICDAR2019に対しては,3月に数多くの論文を投稿済みである.
|
今後の研究の推進方策 |
引き続き,文字の4機能について,網羅的並列的に複数の研究を進捗させる予定である.以下はそれら研究課題の例である. 周囲の明確化機能:2018年度に実施した「文字情報と物体情報の共起性」に関する結果を利用し,物体認識における文字情報の有効性を引き続き評価する. 知識・意味伝達機能:我々の身の回りの文字情報が与える意味情報を詳細に数値化するための手法について引き続き開発を行う.さらに画像情報の言語化についても, 雰囲気伝達機能:フォントやロゴの合成手法について,深層学習やGenerative adversarial networksを利用しつつも,よりデザインの方法論を意識した手法を開発する. 可読性維持機能:文字がなぜ認識できるのかについて,引き続き多角的な検証を行う.特に,Learning with rejectionにより,どのような文字が不可読と判定されるかを検証したり,TopPush学習により,文字らしさの序列を客観的かつ自動的に与える手法を構築する.
|