研究課題/領域番号 |
21K18372
|
研究機関 | 立命館大学 |
研究代表者 |
赤間 亮 立命館大学, 文学部, 教授 (70212412)
|
研究分担者 |
西浦 敬信 立命館大学, 情報理工学部, 教授 (70343275)
山路 正憲 立命館大学, 衣笠総合研究機構, 研究員 (00899049)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
キーワード | 変体仮名 / 音声入力 / 自動変換 / 形態解析 |
研究実績の概要 |
本年度は、古典籍データベースから作品を選定。近世小説(「風流今様曽我」https://www.dh-jac.net/db1/books/shiBK02-0187/portal/1/)、滑稽本(「新作おとしばなし」https://www.dh-jac.net/db1/books/shiBK02-0146-02/portal/1/)、語り物(「国性爺御前軍談」https://www.dh-jac.net/db1/books/arcBK01-0199/portal/2/)、短詩(「花供養」https://www.dh-jac.net/db1/books/mai14c27/portal/2/)、音曲系作品(「詩入どゞ逸」https://www.dh-jac.net/db1/books/shiBK05-0004/portal/2/)を対象に熟練者に読上げてもらう作品を選定。熟練者に対象となる作品頁を読み上げてもらい読上げ音声を記録した。赤間は、高度な解読能力を有する人材を確保し、正解となる作品テキストを作成した。また、読み上げ音声とは別に、古文言語モデルの構築のため、より広いジャンルの翻刻テキスト本文を作成すべく、翻刻チューター型ワークショップを展開、十分な量の翻刻テキスト作成した。これを元に西浦は、古文の読み上げ音声を認識して、テキスト化を試みるモデルの構築を行った。具体的には、正解となる作品テキストを形態素分割し、ヨミを付与し、辞書ファイルを作成し、古文用言語モデルを構築した。現代語を対象にした言語モデルと古文用言語モデルでの認識率を測定し、現代語モデルでは、45%の認識率であったものが、古文用言語モデルによりほぼ90%に近い認識率を得ることに成功した。この精度をさらに向上させるためには、より多くの形態素解析済みコーパスを集め、モデルの検証を繰返す必要があることが確認できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定していた研究内容については、順調に進捗しているが、古典籍の頁閲覧ビューアー上に読上げ音声録音機能を追加し、読み上げ音声を、システムのサーバー領域に自動的に保存する機能については、大規模な開発が必要であることが判明し、本年度中の実現が叶わなかったため。
|
今後の研究の推進方策 |
読み上げ音声のサーバーへのアーカイブ機能の開発については検討を続ける。また、古文用言語モデルについては、国立国語研究所が公開している日本語歴史コーパスの江戸時代編を使い、言語モデルを構築する。加えて、ジャンルの偏りがある江戸時代編のコーパスがより汎用性の高いものとなるよう、役者評判記を使った形態素分割を行い、立命館ARC版歴史コーパスを作成し、古文言語モデルの精度の向上に努める。
|
次年度使用額が生じた理由 |
本年度に予定していた、頁閲覧時の読上げ音声を直接記録し、システム内に頁単位での保存を可能とする「音声アーカイブシステムの構築(第一期)」については、現状では、グーグルドキュメントが持つテキスト化機能を使い、書き込む方法が最も効率的であり、このシステムの独自開発を取りやめたため。 この部分については、形態解析素の強化のための、辞書データの構築作業を重点化することで、システムの効果を向上させる。
|