2013 Fiscal Year Research-status Report
Project/Area Number |
24700242
|
Research Institution | Shizuoka University |
Principal Investigator |
TSAGAAN B 静岡大学, 情報学研究科, 助教 (00595564)
|
Keywords | 伝統モンゴル文字 / 文字認識 / 資料のデジタル化 |
Research Abstract |
本研究では、伝統モンゴル文字で書かれた資料や書籍のデジタル化、オンラインでの情報交換を実現するために、文書画像を解析し、内容をテキスト化する伝統モンゴル文字の自動認識手法を開発し、および他のデジタル化の問題を解決することを目的とする。 前年度は、伝統モンゴル文字の文書画像に対して、モンゴル文字が左縦書きであることを考慮して文書のレイアウトを解析し、単語ブロックの画像を検索する手法を開発した。ここでは、文字間に空白を作らない、単語の中心に基準線が現れるなどのモンゴル文字の特徴を生かした検索アルゴリズムの設計を実現した。本年度の研究では、伝統モンゴル文字で書かれた古い資料や書籍は書記体が統一化されていない場合に、入力画像から目的の単語の形態を取得して、他の画像上で単語を検索する手法の開発を試みた。同様に、テキスト入力による検索方法を実装し、フォントの違いや書記体の相違にも対応できるように、DP(ダイナミックプログラミング)マッチング法に基づく検察アルゴリズムを開発した。 その他、本年度は、モンゴル語の単語から文字を構成する要素パターンの特徴量を抽出して、各要素の特徴をAdaboost法により学習する手法を開発し初期実験を行い、その有効性を検討した。次年度は、モンゴル文字データベースの構築と、機会学習による文字の自動認識といった統計学的手法の開発を行う予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・伝統モンゴル文字の文書や資料の基本的なレイアウト解析はできている。文書画像の入出力、および表示インターフェスの実装、解析アルゴリズムの設計を行った。 ・伝統モンゴル文字の文書画像から単語を検索する手法を開発した。入力文書画像から目的の単語を画像処理によって探索して、検出した単語の位置情報を出力する手法の設計である。モンゴル文字の単語では字間に空白がなく、またほぼ全ての単語に基準線ができる。研究では、このようなモンゴル文字の特徴を用いて、検索アルゴリズムの高速化と精度向上を図っている。 ・テキスト入力による検索方法の実装し、フォントの違いや書記体の相違にも対応できるように、DPマッチング法に基づく検索アルゴリズムを開発した。 ・モンゴル文字の基本的な構造要素の特徴量を次のように定義した。具体的には、各要素の画像から線画像を抽出し、線画像上の任意の2点間の相対ベクトルを特徴量空間にプロットし、Adaboost法により要素のクラス分類をおこなう手法の開発である。今後は、各文字を構成する基本要素の組み合わせを検討し、構文的手法による文字認識を行う。
|
Strategy for Future Research Activity |
・モンゴル文字データベースを構築し、文字特徴量の定義、機会学習による文字の自動認識といった統計学的手法の開発を行いたい。 ・古文書の画像をモンゴル大学の研究者らから入手する方法を検討中である。 ・モンゴル語の文字は単語中の出現位置によって形態が変形する。その変形は、言語学的なルールに基づいて行われる。モンゴル文字の自動認識するために前述の統計的手法のみならず、構文的手法で変形メカニズムをモデリングする必要があり、今後の研究課題である。
|
Expenditure Plans for the Next FY Research Funding |
使用額の計算を間違えたため。 次年度に繰り越して使用する予定である。
|
Research Products
(5 results)