2019 Fiscal Year Annual Research Report
Project/Area Number |
17H06100
|
Research Institution | Kyushu University |
Principal Investigator |
内田 誠一 九州大学, システム情報科学研究院, 教授 (70315125)
|
Co-Investigator(Kenkyū-buntansha) |
柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
牛久 祥孝 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, プリンシパルインベスティゲーター (10784142)
|
Project Period (FY) |
2017-05-31 – 2022-03-31
|
Keywords | 文字科学 / 文字工学 / 文字認識 / 機械学習 / フォント |
Outline of Annual Research Achievements |
R1年度についても、H29-31年度に行ってきた検討をさらに進め、文字機能の原理解明のための基礎研究を,4 機能全てについて並行して実施した。 周囲の明確化機能:①文字と物体の関係について、OpenImagesの150万枚の画像に対して文字認識を施し、物体と単語の共起関係2000万件を自動抽出した上で、物体種別ごとの単語の多様性を評価するなどの実験を行った(論文投稿済)。②文字と情景については、Place365の情景画像200万枚を利用し、環境内に存在する単語情報による環境認識精度がどのように向上するかを検証した(国内発表済)。 知識・意味伝達機能:③書籍タイトルをメッセージの例として書籍ジャンル毎のタイトルの差異を単語埋め込みを用いて解析した(論文準備中)。④文字色が単語の意味をより強化している可能性を検証すべく、書籍画像20万冊分を用いて、各書籍のタイトルを構成する文字列の色と単語の意味の相関関係を調べた(論文採択済)。 雰囲気伝達機能:文字のデザイン、特にロゴやフォントのデザイン解析については、世界的に見ても類を見ないほどの多様な研究を行っている。⑤フォントF1とフォントF2の「差異」をフォントG1に適用することで新たなフォントG2を作るような手法や、⑥実画像をロゴ化する研究の第一歩として実画像をアイコン化する手法(Iconify)を提案した(いずれも論文採択済)。⑦Lyric Videoにおける文字の動きの解析を世界で初めて行った(論文採択済)。なお、文字デザインについては関連して企業との共同研究も開始した。 可読性維持機能:⑧AとBのような異なる文字種でも同一フォントか否かを判定できることを実証(論文採択済)、⑨手書きする場合の運筆傾向の強化学習や時系列学習による解析(共に論文投稿済み)など「文字とは何か」に迫る研究を実施した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
前項で述べた通り、2019年度も、文字の機能解明のために、満遍なくかつ大量の研究を同時並列して実施した。これらの中には、本研究課題開始時には着想できてなかったものも多く存在する。このように加速的に多数のそして新規の成果が達成できた背景には、機械学習の急速な進展、オープンソースやオープンデータの存在、モチベーションの高い学生・研究者の集積など、現在の時流に恵まれていることも大きい。ただしそれだけではなく、一つ前の研究成果が次の課題や発想を産み、そしてそれが新たな研究成果につながるという、いわゆる「雪だるま」的な効果もあったものと考える。 それらのほとんどすべてが国際論文(ジャーナル・国際会議論文)として投稿・採択されるに至っている。すなわち、それぞれの課題について、論文として十分な結論を与えられるだけの成果を達成できている。特に2019年度には、CVPRやICCVという計算機科学全体の中でのトップカンファレンスに論文が採択されている。さらに文字文書画像解析系のトップカンファレンス(ICDAR, COREランクA会議)においては、我々のグループから全世界最多の12編の論文が採録に至っている。他にも、やはり文字文書画像解析系では歴史のある国際会議(DAS2020)に対して、2019年度内に執筆投稿した論文5編がすべて採択された。
|
Strategy for Future Research Activity |
2020年度についても、2019年度までに行ってきた検討をさらに進め、文字機能の原理解明のための基礎研究を、4 機能全てについて並行して実施する。 周囲の明確化機能:①これまでの検討を踏まえ、物体認識における文字情報の有効性を大規模実験により評価する。特に、情景内文字認識技術で得られた文字情報と、物体認識技術を用いた物体情報を用い、それらの間の共起性を詳細に検証する。その結果、高い共起性がみられる場合に限って文字情報を活用することで、物体認識の精度がどの程度向上できるかを定量評価する。また特定の文字情報が明確化している領域を、attentionメカニズム等により自動的に抽出する方法を検討する。 知識・意味伝達機能:②BERT等の高度なword-embeddingを利用し、我々の身の回りの文字情報がどのような知識や意味を伝達しているのかについて、その傾向を解析する。また前項①とも関連するが、その共起性を用いて、各文字情報がラベルとメッセージのどちらに相当するのかを区別する試みも行う。 雰囲気伝達機能:③フォントと印象の関係を与えるファクタについて、例えば文字形状と印象要素をdisentangleするような試みを行う。また様々な印象(スタイリッシュやカジュアルなど)のうち、判定が容易なものと困難なものの選別についても検証する。④その成果を受けて、特定印象を持ったフォントの合成についても引き続き検討する。 可読性維持機能:⑤文字が通信記号として持つ様々な特性を解明するため、文字の生成モデルを開発し、それによって文字の特性を自動学習させ、さらに学習結果のパラメータを吟味する、という一連の研究を行う。生成モデルには多様な機械学習を活用し、特に強化学習や分岐構造を持った時系列予測モデルなどの強力な生成モデルを開発し、文字が持つ潜在的な特性をそれらモデルの学習を通して把握する。
|
Research Products
(82 results)