2012 Fiscal Year Research-status Report
Project/Area Number |
24700242
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Shizuoka University |
Principal Investigator |
TSAGAAN B 静岡大学, 情報学部, 助教 (00595564)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 伝統モンゴル文字 / 文字認識 / デジタル化 |
Research Abstract |
本研究では、伝統モンゴル文字で書かれた資料や書籍のデジタル化、オンラインでの情報交換を実現するために、文書画像を解析し、内容をテキスト化するモンゴル文字自動認識手法を開発、および他のデジタル化の問題を解決することを目的とする。 本年度は、伝統モンゴル文字の文書画像に対して、レイアウトを解析し、単語を検索する手法の開発を試みた。具体的には、モンゴル文字が左縦書きであることを考慮して文書のレイアウトを解析し、得られた各単語ブロックから目的の単語を検索する手法を開発した。ここでは、文字間に空白を作らない、単語の中心に基準線が現れるなどのモンゴル文字の特徴を生かしたアルゴリズムの設計を試みた。また、伝統モンゴル文字で書かれた古い資料や書籍は書記体が統一化されていないことが推定され、本研究は、入力画像から印刷された文字の形態を認識し、単語を検索する手法を設計した。次年度は、テキスト入力による検索方法の実装し、フォントの違いや書記体の違いに対応したアルゴリズムの開発を目指す。 そのほか、本年度は、モンゴル文字の形態変化をモデリングするための特徴量の抽出を試みた。これは、入力文書画像から単語ブロックを抽出し、その構成文字の各要素パターンの特徴を抽出して認識段階において用いるための検討課題であった。次年度は、各文字の画像データベースを構築し、そのデータベースから文字特徴を学習する統計学的手法を設計する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・伝統モンゴル文字で書かれた書籍や資料画像のレイアウト解析はできている。画像の入力・出力、解析結果の表示するインターフェスを実装し、設計アルゴリズムの性能を印刷文字の画像上で検証した。 ・伝統モンゴル文字の文書画像から目的の単語を検索する手法を開発した。入力画像から目的単語のパターンを認識して単語を検索するアルゴリズムの設計である。伝統モンゴル文字では、単語中に空白がないことやほぼ全ての単語に基準線ができる、などのモンゴル文字の特徴を用いて、検索アルゴリズムの精度向上と高速化を図った手法の開発した。 ・モンゴル文字が作られる基本要素の構造特徴を画像処理の観点から解析した。今後は、各文字を構成する基本要素の組み合わせを検討し、構文的手法による文字認識を行う。
|
Strategy for Future Research Activity |
・モンゴル文字で書かれた古い資料や書籍に書記体が統一されていないものが多くある。今年度開発した単語検索手法を古文資料を対象にしたアルゴリズムに拡張したい。 ・画像から各文字を統計学的な手法で機会学習するためにモンゴル文字の画像データベースを構築したい。現在はデータベース構築に必要なインターフェスを開発中で、また古い文書の画像をインターネットや他の研究者らから入手する予定である。 ・モンゴル語の文字は、単語中の出現位置によって形態が変形する。その変形は、言語学的なルールに基づいて行われる。モンゴル文字の自動認識するために前述の統計的手法のみならず、それら変形メカニズムを構文的手法でモデリングする必要があり、これは今後の研究課題である。
|
Expenditure Plans for the Next FY Research Funding |
該当なし
|
Research Products
(1 results)