研究課題/領域番号 |
26280119
|
研究種目 |
基盤研究(B)
|
配分区分 | 一部基金 |
応募区分 | 一般 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
|
研究協力者 |
木目 沢司 国立国会図書館西館, 電子図書館課, 書士
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
研究課題ステータス |
完了 (2016年度)
|
配分額 *注記 |
11,960千円 (直接経費: 9,200千円、間接経費: 2,760千円)
2016年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2015年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2014年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
|
キーワード | 近代書籍用OCR / 文字認識 / 特徴量 / アンサンブル学習 / 特徴抽出 / Webアプリケーション / 遺伝的プログラミング / コンテンツ・アーカイブ / テキスト化 / 近代書籍テキスト化 / 進化計算 / Webサービス / データベース / デジタルアーカイブ / Webプログラミング |
研究成果の概要 |
本研究課題では近代書籍の自動テキスト化を実現するために必要な学習データを効率良く集めるための支援環境を構築した。規格化された現在の書籍用フォントと違い、近代書籍の活版印刷によるフォントにはデータベース等は存在せず、近代書籍から直接画像を切り出し学習データを作成しなければならないが、文字種が1000種類くらいまでは人手でも困難なく収集できるが、2000種を数える頃には困難を極める。そこで不完全ながら学習データを備えた近代文字認識システムを構築し、それに新たな近代書籍を適用し、正しく認識できない未学習の文字を表示させ、その文字種を人間が判断して学習データに追加するシステムを構築した。
|