• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

古・中世ロシア文字のOCRによる認識のための実験的予備研究

Research Project

Project/Area Number 15652016
Research Category

Grant-in-Aid for Exploratory Research

Allocation TypeSingle-year Grants
Research Field ヨーロッパ語系文学
Research InstitutionNagoya University

Principal Investigator

MUHTAR Mahsut (2004)  名古屋大学, 大学院・国際開発研究科, 助手 (20283517)

中條 直樹 (2003)  名古屋大学, 大学院・国際開発研究科, 教授 (10023623)

Co-Investigator(Kenkyū-buntansha) 中條 直樹  名古屋大学, 大学院・国際開発研究科, 名誉教授 (10023623)
MUHTAR Mahsut  名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
Project Period (FY) 2003 – 2004
Project Status Completed (Fiscal Year 2004)
Budget Amount *help
¥3,200,000 (Direct Cost: ¥3,200,000)
Fiscal Year 2004: ¥1,500,000 (Direct Cost: ¥1,500,000)
Fiscal Year 2003: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywords手書き文字 / 古ロシア語 / マイクロフィルム / マイクロフィッシュ / OCR / 古・中世ロシア文字 / 白樺文書 / 認識率 / pdf
Research Abstract

本プロジェクトの最終年度は、昨年度に引き続き、手書きの古ロシア古語文献のPCによる処理を試行した。今年度は、酒井純氏(岡崎女子短期大学経営実務科講師、コンピュータ言語学)を研究協力者として迎え研究を実施した。
ロシア語文献に使用される文字は、チートロを用いた省略語を初め、単語上に省略された文字を山括弧付きで記すもの、文頭を飾る特殊な装飾文字、あるいは草書体に近いものまで、極めて多岐にわたる。結果として、研究室に設置されたPC、スキャナ等では、上述の様な特殊文字の、さらに手書き文字の処理には大きな限界があることが判明した。我が国では古文書のデジタル化が実現しているが、手書きの古ロシア古語文献の処理に関しては、大規模プロジェクトで行う必要がある。
・マイクロフィッシュ、マイクロフィルムのスキャナによる読み込みについて:
透過原稿ユニット付きのフラットベットスキャナを用いてスキャンを実施、及び専用の枠を作成してスキャニングしたが、枠の厚みによってスキャナのフォーカス(焦点)にずれが出てしまうため、画質の精度に問題が生じた。
・スキャン画像の画質の調整について:
OCRソフトでの認識率を上げるため、解像度、ガンマ値(=いわゆる明るさ)を調整する必要であった。また、画像によっては画像処理ソフトによってシャープネスをあげることでOCRの読み取り精度を上げることが可能であった。
・読み取ったデータの文字認識(OCR)について:
データがマイクロフィッシュ、マイクロフィルムであり、データが粗めのため、OCRでの認識率はあまり良くない。ただし、ロシア語については、ScanReaderを用いたため、他のソフトに比べて格段に認識率を上げることが可能となった。
・データの保存について:
Adobe Acrobatを用いて、pdf形式でデータを保存することにより、読み取った画像データと、OCRの結果である文字データを一括して保存した。また、この形式を用いることにすれば、多くのPDCパソコンで閲覧可能となる。
・その他
実際のデータはCD-Rに出来るため、保存性もよく、文字データを含むため、検索にも対応する。ただし、簡単な検索の場合は問題ないが、検索の利便性を考えて電子辞書形式や、ほぼすべてのパソコンで閲覧可能であり、そのままインターネット上に掲載することが可能なhtmlまたはxml形式にすることも今後検討する余地があると考えられる。

Report

(2 results)
  • 2004 Annual Research Report
  • 2003 Annual Research Report
  • Research Products

    (2 results)

All 2004

All Journal Article (2 results)

  • [Journal Article] An experiment on Japanese-Uighur machine translation and its evaluation2004

    • Author(s)
      Muhtar, Mahsut etc.
    • Journal Title

      Machine Translation 3265

      Pages: 203-216

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 日本語言い換え処理を利用した日本語-ウイグル語対訳辞書の拡充2004

    • Author(s)
      Muhtar, Mahsut etc.
    • Journal Title

      自然言語処理 11(5)

      Pages: 39-61

    • Related Report
      2004 Annual Research Report

URL: 

Published: 2003-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi