研究課題/領域番号 |
21K18372
|
研究機関 | 立命館大学 |
研究代表者 |
赤間 亮 立命館大学, 文学部, 教授 (70212412)
|
研究分担者 |
西浦 敬信 立命館大学, 情報理工学部, 教授 (70343275)
山路 正憲 立命館大学, 衣笠総合研究機構, 研究員 (00899049) [辞退]
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
キーワード | 変体仮名 / 音声入力 / 自動変換 / 形態素解析 |
研究実績の概要 |
本研究は、翻刻能力を持ちながらキーボードを使ったテキストデータ化を不得意とする解読者が、オンラインデータベース上で閲覧できる古典籍を直接読み上げることで、音声認識システムを通して簡単にテキストデータ化できるシステムの構築を目指している。昨年度の成果を承け、①形態論情報付き古文テキストの作成を実施した。本研究では、江戸期の古典籍・古文書を対象とした音声認識システム構築を中心的な課題としており、研究代表者らの専門に近い、とくに歌舞伎役者を批評した芸評書である役者評判記を対象に、形態論情報付きテキストデータの作成を試みた。②音声認識システムの主要構成要素である言語モデルは江戸時代語のモデルを構築する必要があり、国立国語研究所言語資源開発センターが公開する日本語歴史コーパス 江戸時代編のデータを用いて、古文用統計的言語モデル(単語N-gram)を構築した。江戸時代語を対象に今回構築したモデルと現代日本語コーパスで学習された言語モデルの認識性能をテストしたところ、現代日本語コーパスで学習された言語モデルよりも、現時点で構築した古文用言語モデルの方が良い認識結果を示しており、本モデルの有用性が確認できた。③この成果をもとに、立命館大学アート・リサーチセンターのくずし字解読支援システムへの実装を試みたが、音声認識によるテキスト入力システムと、従来の翻刻支援システムの根幹となる縦書入力システムとの相違、単体での音声認識結果と、オンライン上のシステムでの認識結果に大きな齟齬があり、これが今年度中には解決できなかったため、実際の音声認識入力実験については、次年度に持ち越しとなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
近世語、とくに役者評判記の形態論情報付テキスト(コーパス)を作成するにあたり、凡例の作成が遅れており、本格稼働が年度内に実施できなかった。また、実際の音声認識システムは、報告に書いたような不具合を解決できておらず、実証実験の開始が遅れた。
|
今後の研究の推進方策 |
課題となった2点の内、コーパスの作成凡例については、本報告時点では、準備ができており、実施できる。音声認識システムについては、不具合の解消に努めており、8月までには、解決して実証実験が開始できるようにしたい。
|
次年度使用額が生じた理由 |
予定していたくずし字読み上げ「音声入力システム」の実装、ならびにコーパス作成の実施が遅れており、作成作業の人件費、読み上げ実証実験の人件費の執行、ならびに実証実験用の作品追加購入が遅れたため。システムの実装を7月までに完了し、またコーパス作成についても、開始できる段階にあり、集中的に研究活動を進める。
|