Digital text archiving for cursive writing documents by using the reading voice of which the experts read aloud.
Project/Area Number |
21K18372
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 2:Literature, linguistics, and related fields
|
Research Institution | Ritsumeikan University |
Principal Investigator |
赤間 亮 立命館大学, 文学部, 教授 (70212412)
|
Co-Investigator(Kenkyū-buntansha) |
西浦 敬信 立命館大学, 情報理工学部, 教授 (70343275)
山路 正憲 立命館大学, 衣笠総合研究機構, 研究員 (00899049)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 変体仮名 / 音声入力 / 自動変換 / 形態素解析 / 形態解析 |
Outline of Research at the Start |
歴史的典籍・古文書の翻刻デジタルアーカイブを進める上で、AI画像認識を使った自動翻刻技術が進展しているが、その正答率はいまだ十分ではなく、100%正確なテキストアーカイブが課題となってきている。本研究では、その一つの方策として、熟練者の解読能力を活用し、かつ熟練者の負担を出来る限り軽減して翻刻テキストを作成するため、熟練者の読上げ音声を、読み上げ時の本文テキスト情報以外のノイズを極力軽減して、電子テキスト化し、立命館ARCの初心者の育成・教育ができる「翻刻支援システム」とを連携させ、ツールの一つとしてシステムに加え、従来の翻刻量を圧倒的に凌駕するシステムを開発する。
|
Outline of Annual Research Achievements |
本研究は、翻刻能力を持ちながらキーボードを使ったテキストデータ化を不得意とする解読者が、オンラインデータベース上で閲覧できる古典籍を直接読み上げることで、音声認識システムを通して簡単にテキストデータ化できるシステムの構築を目指している。昨年度の成果を承け、①形態論情報付き古文テキストの作成を実施した。本研究では、江戸期の古典籍・古文書を対象とした音声認識システム構築を中心的な課題としており、研究代表者らの専門に近い、とくに歌舞伎役者を批評した芸評書である役者評判記を対象に、形態論情報付きテキストデータの作成を試みた。②音声認識システムの主要構成要素である言語モデルは江戸時代語のモデルを構築する必要があり、国立国語研究所言語資源開発センターが公開する日本語歴史コーパス 江戸時代編のデータを用いて、古文用統計的言語モデル(単語N-gram)を構築した。江戸時代語を対象に今回構築したモデルと現代日本語コーパスで学習された言語モデルの認識性能をテストしたところ、現代日本語コーパスで学習された言語モデルよりも、現時点で構築した古文用言語モデルの方が良い認識結果を示しており、本モデルの有用性が確認できた。③この成果をもとに、立命館大学アート・リサーチセンターのくずし字解読支援システムへの実装を試みたが、音声認識によるテキスト入力システムと、従来の翻刻支援システムの根幹となる縦書入力システムとの相違、単体での音声認識結果と、オンライン上のシステムでの認識結果に大きな齟齬があり、これが今年度中には解決できなかったため、実際の音声認識入力実験については、次年度に持ち越しとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
近世語、とくに役者評判記の形態論情報付テキスト(コーパス)を作成するにあたり、凡例の作成が遅れており、本格稼働が年度内に実施できなかった。また、実際の音声認識システムは、報告に書いたような不具合を解決できておらず、実証実験の開始が遅れた。
|
Strategy for Future Research Activity |
課題となった2点の内、コーパスの作成凡例については、本報告時点では、準備ができており、実施できる。音声認識システムについては、不具合の解消に努めており、8月までには、解決して実証実験が開始できるようにしたい。
|
Report
(2 results)
Research Products
(2 results)