歴史史料デジタル化支援システムの研究

研究課題

研究課題/領域番号	14310166
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	日本史
研究機関	国文学研究資料館
研究代表者	原正一郎国文学研究資料館, 複合領域研究系, 助教授 (50218616)
研究分担者	安永尚志国文学研究資料館, 複合領域研究系, 教授 (20017411) 柴山守京都大学, 東南アジア研究所, 教授 (10162645) 山田奨治国際日本文化研究センター, 研究部, 助教授 (20248751) 相田満国文学研究資料館, 文学研究形成系, 助手 (00249921) 岩崎宏之常磐大学, コミュニティー振興学部, 教授 (50087904) 勝村哲也島根県立大学, 総合政策学部, 教授 (50066411)
研究期間 (年度)	2002 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	9,700千円 (直接経費: 9,700千円) 2004年度: 3,100千円 (直接経費: 3,100千円) 2003年度: 3,800千円 (直接経費: 3,800千円) 2002年度: 2,800千円 (直接経費: 2,800千円)
キーワード	OCR / 画像処理 / 多重解像度解析 / n-gram / 古文書 / 古文書OCR
研究概要	古文書画像には虫喰い・褪色・変色・汚れなどが多い。また多くの文書は草書あるいは行書で書かれており文字が相互に接続していることが多い。ところが従来の手書き文字研究では文字認識に主眼が置かれ、人手により丁寧に切り出され整形された文字を認識実験に使っており、実用化にはほど遠い状態である。そこで本研究では実用的な古文書OCR開発の基礎として、古文書画像から文字を正しく切り出す手法の開発を主として行った。本研究の前半では、汚れた古文書画像から文字部分を抽出し、さらにつづき文字を切り出すための画像処理的フィルタ群の開発を行った。まず色彩やピクセルの隣接関係に注目して押印、ゴマ塩様ノイズなど除去して良好な2値画像を構成する。次に周辺分布から画像ごとの平均文字サイズ、縦書き・横書きに関するレイアウト情報などを抽出し、これらの情報に基づいてピクセルから文字の部分セグメントを組み立てる。次いで近傍のセグメントを集めて文字あるいはつづき文字を生成した。つづき文字は、文字輪郭上の近接する大局的な凹部分を結ぶ線(文字切出し線)を推定し、これに沿って切り出す。上記の文字切り出し法の問題点は、文字図形の局所的形状の影響を強く受けることである。そこで文字画像の大局的形状を文字切り出しの情報として利用するロバストな方法を考案した。この手法の特徴は、適切な凹部分の抽出に多重解像度解析を用いる点にある。基礎的な手続きは、2値化された文字画像に適当なスケールのガウス関数を畳み込んでボカし、さらにLaplacianオペレータを適用してエッジを抽出する。ここでガウス関数のσが大きい場合は文字の大まかな輪郭を抽出する。この手続きを様々なチャンネルから生成された文字輪郭に対して行うことで、適切な文字切出し線を効率的に抽出する。最初の手法に比べて局所的な形状に対してロバストであるという結果を得た。この手法を高速化するためにwaveletによる多重解像度解析も試み、おおむね良好な結果を得た。さらにレイアウト情報に基づく表題抽出、また本格的な文字認識研究へのアプローチとしてn-gramを併用した文字認識についての検討などを行った。

報告書

(4件)

研究成果
(10件)

すべて 2004 2003 2002 その他

すべて雑誌論文 (7件) 文献書誌 (3件)

[雑誌論文] OCR for Japanese Classical Documents - Segmentation of Cursive Characters2004
- 著者名/発表者名
  Shoichiro HARA
- 雑誌名
  
  PNC 2004 Annual Conference in Conjunction with PRDLA Program Abstracts
  
  ページ: 121-121
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] OCR for Japanese Classical Documents -Segmentation of Cursive Characters-2004
- 著者名/発表者名
  Shoichiro HARA
- 雑誌名
  
  PNC 2004 Annual Conference in Conjunction with PRDLA Program Abstracts
  
  ページ: 121-121
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] OCR for Japanese Classical Documents2003
- 著者名/発表者名
  Shoichiro Hara, Mamoru Shibayama
- 雑誌名
  
  2003 PNC Annual Conference and Joint Meetings Program and Abstracts
  
  ページ: 126-127
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 古文書OCRのための文字切り出し2002
- 著者名/発表者名
  原正一郎
- 雑誌名
  
  情報処理学会研究報告 2002-CH-55 Vol.2002 No.73
  
  ページ: 51-56
- NAID
  110002930162
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] OCR for Japanese Classical Documents - Segmentation of Cursive Characters -2002
- 著者名/発表者名
  Shoichiro Hara
- 雑誌名
  
  Conference Proceedings IEEE ICITA 2002 (in CD-ROM) CD-ROM
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Segmentation of Cursive Character for Classical Literal OCR2002
- 著者名/発表者名
  Shoichiro HARA
- 雑誌名
  
  IPSJ SIG Technical Report 2002-CH-55 Vol.2002,No.73
  
  ページ: 51-56
- NAID
  110002930162
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] OCR for Japanese Classical Documents -Segmentation of Cursive Characters-2002
- 著者名/発表者名
  Shoichiro Hara
- 雑誌名
  
  Conference Proceedings IEEE ICITA 2002 (149-10)1-6(CD-ROM)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[文献書誌] Shoichiro Hara, Mamoru Shibayama: "OCR for Japanese Classical Documents"2003 PNC Annual Conference and Joint Meetings Program and Abstracts. 126-127 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 原正一郎: "古文書OCRのための文字切り出し"情報処理学会研究報告2002-CH-55. Vol.2002,No.73. 51-56 (2002)
- 関連する報告書
  2002 実績報告書
[文献書誌] Shoichiro Hara: "OCR for Japanese Classical Documents -Segmentaion of Cursive Characters-"Conference Proceedings IEEE ICITA 202. (CD-ROM). (149-10)1-(149-10)6 (2002)
- 関連する報告書
  2002 実績報告書

歴史史料デジタル化支援システムの研究

研究代表者

原 正一郎 国文学研究資料館, 複合領域研究系, 助教授 (50218616)

9,700千円 (直接経費: 9,700千円)

報告書

研究成果

[雑誌論文] OCR for Japanese Classical Documents - Segmentation of Cursive Characters2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] OCR for Japanese Classical Documents -Segmentation of Cursive Characters-2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] OCR for Japanese Classical Documents2003

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 古文書OCRのための文字切り出し2002

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] OCR for Japanese Classical Documents - Segmentation of Cursive Characters -2002

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Segmentation of Cursive Character for Classical Literal OCR2002

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] OCR for Japanese Classical Documents -Segmentation of Cursive Characters-2002

著者名/発表者名

雑誌名

説明

関連する報告書

[文献書誌] Shoichiro Hara, Mamoru Shibayama: "OCR for Japanese Classical Documents"2003 PNC Annual Conference and Joint Meetings Program and Abstracts. 126-127 (2003)

関連する報告書

[文献書誌] 原 正一郎: "古文書OCRのための文字切り出し"情報処理学会研究報告2002-CH-55. Vol.2002,No.73. 51-56 (2002)

関連する報告書

[文献書誌] Shoichiro Hara: "OCR for Japanese Classical Documents -Segmentaion of Cursive Characters-"Conference Proceedings IEEE ICITA 202. (CD-ROM). (149-10)1-(149-10)6 (2002)

関連する報告書

原正一郎国文学研究資料館, 複合領域研究系, 助教授 (50218616)

[文献書誌] 原正一郎: "古文書OCRのための文字切り出し"情報処理学会研究報告2002-CH-55. Vol.2002,No.73. 51-56 (2002)