研究課題/領域番号 |
16K12545
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 国文学研究資料館 |
研究代表者 |
野本 忠司 国文学研究資料館, 研究部, 准教授 (20321557)
|
研究分担者 |
相田 満 国文学研究資料館, 研究部, 准教授 (00249921)
|
研究協力者 |
寺沢 憲吾
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2017年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2016年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | くずし字 / 画像検索 / 文字画像認識 / 深層学習 / 文字認識 / 日本古典籍 / 毛筆画像解析 / 画像処理 / 人口知能 / 情報検索 / 毛筆画像 |
研究成果の概要 |
本件の目的は文字画像マッピングというアイデアを導入し,従来とは一線を画す,OCRやアノテーションを要しないテキスト入力型のくずし字画像の検索を実現することである.本件では,主として3つの手法の有効性を比較的大きなデータセットを用いて検証した.すなわち,(1)辞書マッピングによる手法(テキスト文字に対応するくずし字をクエリとして使う方法),(2)直接現代漢字で検索する手法,(3)サイクルガン(CycleGan)と呼ばれる手法で,現代漢字をくずし字に変形しクエリを作成した上で検索する方法である.実験の結果,(1)の手法が顕著に優位であることが判明し,本仮説を正当性を裏付けるものとなった.
|
研究成果の学術的意義や社会的意義 |
デジタル技術の発展に伴い国内の歴史的典籍が大量にデジタル化されアーカイブされている.それらのほとんどは画像形式で保存されているため,キーワードによる自由な検索ができず,コンテンツの再利用や知財化へ向けた取組みの大きな障壁になっている.手動あるいはOCRによる翻刻を用いた検索なども提案されているが実用の域に達していない.この点において本件は有用な貢献が期待できる.
|