2023 Fiscal Year Annual Research Report
Digital text archiving for cursive writing documents by using the reading voice of which the experts read aloud.
Project/Area Number |
21K18372
|
Research Institution | Ritsumeikan University |
Principal Investigator |
赤間 亮 立命館大学, 文学部, 教授 (70212412)
|
Co-Investigator(Kenkyū-buntansha) |
西浦 敬信 立命館大学, 情報理工学部, 教授 (70343275)
山路 正憲 立命館大学, 衣笠総合研究機構, 研究員 (00899049) [Withdrawn]
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | 変体仮名 / 音声入力 / 自動変換 / 形態素解析 |
Outline of Annual Research Achievements |
本研究は、翻刻能力を持ちながらキーボードを使ったテキストデータ化を不得意とする解読者が、オンラインデータベース上で閲覧できる古典籍を直接読み上げることで、音声認識システムを通して簡単にテキストデータ化できるシステムの構築を目指している。 ①形態論情報付き古文テキストの作成を継続した。本研究では、江戸期の古典籍・古文書を対象とした音声認識システム構築を中心的な課題としており、とりわけ、研究代表者らの専門と、別プロジェクトで進めている歌舞伎役者を批評した芸評書である「役者評判記」の翻刻テキストの有効利用を目的として形態論情報付きテキストデータの作成を進めた。②昨年度の構築した古文用統計的言語モデル(単語N-gram)を使って、立命館大学アート・リサーチセンターの「くずし字解読支援システム」への実装を行った。③実際の音声認識入力実験が可能となり、上記「役者評判記」翻刻プロジェクトが対象とする享和4年(1804)より後の作品について、音声入力による翻刻作業の実験を行った。音声認識によるテキスト化はストレスなく実施できることが分かったが、漢字仮名交じり文に変換するにあたり、音声からの適切な変換ができたとしても、原文は近世以前の本文特有の規則性のない漢字宛が行われており、必ずしも原文通りの翻刻本文とはならないことから、本研究では、音声変換により記録されるテキストは、校訂本文という位置づけで保存されるようシステムの修正が求められることが判明した。④一方、音声変換テキストの精度を画期的に向上するためには、短単位自動解析するための解析用辞書が必要であり、現状の公開されているUNIDICのうち、近世江戸口語、近世上方口語、近世文語による検証を改めて行ない、①で行っている作業方針の修正を行った。
|
Remarks |
上記、システムは、本研究で開発実装した音声認識翻刻システムに最短で到達するURLであるが、翻刻システムは、ログインが必要なため、本報告から直接確認ができない。利用の希望者は研究代表への連絡をお願いしたい。
|