2014 Fiscal Year Annual Research Report
Project/Area Number |
24700242
|
Research Institution | Shizuoka University |
Principal Investigator |
TSAGAAN B 静岡大学, 情報学研究科, 助教 (00595564)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 伝統モンゴル文字 / 文字認識 / デジタル化 |
Outline of Annual Research Achievements |
本研究は、伝統モンゴル文字で書かれた資料や書籍のデジタル化、オンラインでの情報交換を実現するために、文書画像を解析し、内容をテキスト化する文字認識手法を開発し、伝統モンゴル文字のデジタル化の問題に適用することを目的としている。 昨年度までは、モンゴル文字が左縦書きであることを考慮した文書画像のレイアウト解析を実装し、さらに入力文書から目的の単語を検索する手法を開発してきた。本手法では、文字間に空白を作らない、単語の中心に基準線が現れる、などのモンゴル文字の特徴を生かしたアルゴリズムを実装できた。さらに、DPマッチング法に基づく検索法の導入により入力文書のフォントや書記体の相違に対応できた。また、モンゴル語文字の基本的な構成要素に対して特徴量を定義して、Adaboost法により文字要素をクラスタ分類する手法を開発してきた。 本年度は、(i) 古い書籍や資料の背景雑音の削減による単語検索手法の精度向上、(ii) Adaboost 法によるモンゴル文字の構成要素認識手法の改良、(iii) モンゴル語の文法の規則性を考慮した文字認識手法の構築、などをおこなった。伝統モンゴル文字は、基本的に発音に準拠した音素文字であるが、単語を構成する際に子音と母音が結合し形態が変わる。例えば、子音は結合する母音の性(陽性・陰性・中性)によって形態が変化し、母音は単語中の位置(独立・語頭・語中・語尾)によって形態が決まる。そこで、本研究では、単語単位の認識結果に基づいて文字単位の分割を行い、分割された各要素に対して上記(ii)のクラスタ分類法と(iii)の構文的な手法で変形の規則性をモデリングした方法を組み合わせたモンゴル文字認識手法を開発し、その有効性を検討した。 今後は、伝統モンゴル文字の文体・単語・文字・字素に関する統計的モデルの構築により、認識精度の向上を図る予定である。
|
Research Products
(5 results)