研究課題/領域番号 |
17H06100
|
研究機関 | 九州大学 |
研究代表者 |
内田 誠一 九州大学, システム情報科学研究院, 教授 (70315125)
|
研究分担者 |
牛久 祥孝 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, プリンシパルインベスティゲーター (10784142)
|
研究期間 (年度) |
2017-05-31 – 2022-03-31
|
キーワード | 文字科学 / 文字工学 / 文字認識 / 機械学習 / フォント |
研究実績の概要 |
R2年度についても、H29-R1年度と同様、文字機能の原理解明のための基礎研究を4 機能全てについて並行して実施した。 周囲の明確化機能:①物体とその表面に印字された単語の共起関係を膨大なデータを用いて定量化し、ある物体の上に特異的に存在する単語(物体の詳細を表すラベルとして機能)や様々な単語が表示される物体(本や看板などのメッセージキャリア)の特定に成功した(ICPR2020にオーラル採択)。また深層学習のアテンション機能を利用することで、情景内単語が指示する物体領域を推定する試みにも着手した。 知識・意味伝達機能:②書体(フォント)が単語の意味をより強化している可能性を検証すべく、書籍画像20万冊分を用いて、各書籍のタイトルを構成する文字列の書体と単語の意味の相関関係を調べた(論文準備中)。 雰囲気伝達機能:R2年度からの新規課題として、③GANによる特定印象を持ったフォントの自動生成、④フォントスタイルとその印象語を同時表現する共潜在変数空間の学習、⑤特定画像の雰囲気にマッチしたフォントスタイルの自動生成、⑥書籍表紙の構成部品のレイアウトから表紙全体の画像を自動生成するシステム、⑦ロゴ画像とそこに含まれるテキスト情報の関係解析、⑧Lyric Videoにおけるフォントと音楽印象の関係解析、⑨フォントのスタイルからの利用年代推定を実施し、すべて国際会議論文として投稿済した。さらに、⑩フォントのどの部分がどのような印象を生んでいるかといった「形状と印象」の相関に関する根源的な研究も実施し、論文の投稿に至っている。なお、文字デザインについ ては関連して企業との共同研究も継続している。 可読性維持機能:新規課題として、⑪文字に適したプーリングのメタ学習(投稿済)、⑫認識に必要な局所構造の学習(国内発表済)、⑬手書きの変形吸収のための機械学習(投稿済)を実施した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2020年度も、文字の機能解明のために、満遍なくかつ大量の研究を同時並列して実施した。昨年度同様、昨今の技術的進展ならびにオープンソース・オープンデータにより、これらの中には、本研究課題開始時には着想できてなかったものが多く存在し、予想を超える進展を遂げている状況である。 さらに我々は、世界的なスピード感と歩調を合わせるべく,躊躇することなく成果のすべてを国際論文(ジャーナル・国際会議論文)として投稿しており,その多くが採択されるに至っている。特に2021年度に予定されている本課題に関する最重要会議であるICDAR (International Conference on Document Analysis and Recognition, CORE ranking A会議)に対しては、我々のグループから10編ものフルペーパーを投稿している。なお、研究代表者は同会議のプログラム委員長も務めており、本課題の遂行により得られた研究成果が高く評価されていることの一つの証左であると考える.
|
今後の研究の推進方策 |
最終年度である2021年度についても,2020年度までに行ってきた検討をさらに進め,文字機能の原理解明のための基礎研究を,下記の通り,4 機能全てについて並行して実施する.なお,これまで4年間の実績において,すでに当初計画の内容を超えており,さらにその成果により,より広くの文字関連分野(認知心理学や自然言語処理,プロフェッショナルな書体デザイナや環境サインデザイナ)との連携の必要性も見えてきた状況である.今後はこうした連携を広げる動きについても加速する予定であり,すでにそれら分野の第一人者との交流も進めている. 周囲の明確化機能:①物体と文字の間のインタラクション関係について,これまでに解明してきた共起性等の関係を踏まえ,さらに進めた解析を行う. 知識・意味伝達機能:②自然言語処理の分野で劇的に進歩している文や単語の意味定量化や,画像を対象としたキャプション生成や質問応答の技術を利活用し,我々の身の回りの文字情報がどのような知識や意味を伝達しているのかについて,その傾向を定量的解析する. 雰囲気伝達機能:③フォントデザインと印象の関係を局所形状に注目して検証を行う.さらに特定印象を持ったフォントの合成についても引き続き検討する.それら課題においては,印象の多様性や不安定性を考慮した手法の改善を図る.またこうした試みを介して,フォントデザインと印象の結びつきの強さを定量化するような手法を開発する.また文字と関連するロゴ等のビジュアルデザインについて対象を拡大し,同様の手法の開発を試みる. 可読性維持機能:④文字が通信記号として持つ様々な特性を解明するため,どのような局所的形状集合が文字クラスを決定しているのかを,集合を対象とした深層学習や強化学習を利用することで,客観的に解明する.これと並行して,文字の耐ノイズ性についても,様々なノイズを対象として定量解析を行う.
|