| 研究課題/領域番号 |
23K25329
|
| 補助金の研究課題番号 |
23H00632 (2023)
|
| 研究種目 |
基盤研究(B)
|
| 配分区分 | 基金 (2024) 補助金 (2023) |
| 応募区分 | 一般 |
| 審査区分 |
小区分02070:日本語学関連
小区分02090:日本語教育関連
合同審査対象区分:小区分02070:日本語学関連、小区分02090:日本語教育関連
|
| 研究機関 | 北海道大学 |
研究代表者 |
伊藤 孝行 北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)
|
| 研究分担者 |
山下 倫央 北海道大学, 情報科学研究院, 准教授 (50415759)
横山 想一郎 北海道大学, 情報科学研究院, 助教 (80795732)
川村 秀憲 北海道大学, 情報科学研究院, 教授 (60322830)
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
| 研究期間 (年度) |
2024-04-01 – 2026-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
18,460千円 (直接経費: 14,200千円、間接経費: 4,260千円)
2025年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2024年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 10,010千円 (直接経費: 7,700千円、間接経費: 2,310千円)
|
| キーワード | 帝国議会議事速記録 / テキストデータ化 / テキスト化支援システムの開発 / テキストマイニング / 日本語史 / 近代語 / コーパス |
| 研究開始時の研究の概要 |
本研究では『帝国議会議事速記録集』(1890-1947年)を資料とし,国立国会図書館が2022年4月に公開したOCR(光学的文字認識)処理プログラムによる認識結果を援用し,CHJを大幅に補強しBCCWJとつなぐコーパスの作成・一般公開を行う。また,作成したコーパスを使用し,テキストマイニングを用いることでこれまで明らかにされてこなかった明治期から戦中期の言語変化を解明し,現代語の形成過程の解明につながる知見を抽出する。
|
| 研究実績の概要 |
本申請研究の第一の目的は,『帝国議会議事速記録集』のテキスト化支援システムを構築し,『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は,『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い,『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。 上記目的を達成するために本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。 研究項目1については,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている可能表現を調査し,報告した。研究項目2については,文書画像データのテキスト化支援システムを開発・運用中である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。なお,このシステムについては日本語学会2024年度秋季大会にて紹介し,フィードバック等をいただいた。研究項目4については,すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出した。また,可能表現の使用実態および使用の推移を明らかにした。
|
| 現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。 研究項目1については,帝国議会議事速記録の分析項目を検討・決定するにあたり,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態および使用の推移を明らかにした。研究項目2については,CHJに則り1901年から前後8年おきに帝国議会貴族院議事速記録・帝国議会衆議院議事速記録本文の文書画像データのテキスト化を進めてきた。研究項目3および研究手法4については,研究項目1および研究項目2の進捗度に応じて計画を遂行した。
|
| 今後の研究の推進方策 |
本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。 研究項目1については,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,研究項目2の進捗度に応じて『帝国議会議事速記録』に於けるこれまで近代語研究に於いて取りあげられている言語変化を調査する。研究項目2については,文書画像データのテキスト化支援システムが完成し次第,テキストデータの認識ミスの確認と修正の支援体制を構築し,テキストデータの修正に取り組む。研究項目3については,研究項目2の進捗度に応じてテキスト化されたデータに対して構造化データの作成をおこなう。貴族院・衆議院議員名簿にある議員に関する情報を追加する体制を構築する。研究項目4については,研究項目3の進捗度に応じてコーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し,新漢語や可能表現の使用頻度,衆議院・貴族院での使用傾向の差異を分析する。
|