帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明

研究課題

研究課題/領域番号	23K25329
補助金の研究課題番号	23H00632 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分02070:日本語学関連小区分02090:日本語教育関連合同審査対象区分:小区分02070:日本語学関連、小区分02090:日本語教育関連
研究機関	北海道大学
研究代表者	伊藤孝行北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)
研究分担者	山下倫央北海道大学, 情報科学研究院, 准教授 (50415759) 横山想一郎北海道大学, 情報科学研究院, 助教 (80795732) 川村秀憲北海道大学, 情報科学研究院, 教授 (60322830) 小木曽智信大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,460千円 (直接経費: 14,200千円、間接経費: 4,260千円) 2025年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2024年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2023年度: 10,010千円 (直接経費: 7,700千円、間接経費: 2,310千円)
キーワード	帝国議会議事速記録 / 日本語史 / 近代語 / テキストマイニング / コーパス / テキスト化支援システムの開発
研究開始時の研究の概要	本研究では『帝国議会議事速記録集』（1890-1947年）を資料とし，国立国会図書館が2022年4月に公開したOCR（光学的文字認識）処理プログラムによる認識結果を援用し，CHJを大幅に補強しBCCWJとつなぐコーパスの作成・一般公開を行う。また，作成したコーパスを使用し，テキストマイニングを用いることでこれまで明らかにされてこなかった明治期から戦中期の言語変化を解明し，現代語の形成過程の解明につながる知見を抽出する。
研究実績の概要	本申請研究の第一の目的は，『帝国議会議事速記録集』のテキスト化支援システムを構築し，『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は，『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い，『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。上記目的を達成するために1年目は，1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ，この点に於いては計画以上の進捗となった。文書画像データのテキスト化では，文書画像データのテキスト化支援システムを順調に開発中，完成間近である。この文書画像データのテキスト化支援システムは，PDF ファイル化された帝国議会議事速記録の1ページの画像（文書画像データ）からテキストデータを作成する。文字列領域を検出し，文字列画像に対応するテキストデータを自動生成するもので，自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また，帝国議会議事速記録テキストデータの分析では，帝国議会議事速記録の分析項目を検討・決定するにあたり，これまで近代語研究に於いて取りあげられている言語変化を調査し，報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い，その中で使用されている語彙の頻度，文字 n-gram，単語 n-gram を算出し，加えて可能表現の使用実態を明らかにした。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 1年目は，1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ，この点に於いては計画以上の進捗となった。文書画像データのテキスト化では，文書画像データのテキスト化支援システムを順調に開発中，完成間近である。この文書画像データのテキスト化支援システムは，PDF ファイル化された帝国議会議事速記録の1ページの画像（文書画像データ）からテキストデータを作成する。文字列領域を検出し，文字列画像に対応するテキストデータを自動生成するもので，自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また，帝国議会議事速記録テキストデータの分析では，帝国議会議事速記録の分析項目を検討・決定するにあたり，これまで近代語研究に於いて取りあげられている言語変化を調査し，報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い，その中で使用されている語彙の頻度，文字 n-gram，単語 n-gram を算出し，加えて可能表現の使用実態を明らかにした。
今後の研究の推進方策	2年目は，文書画像データのテキスト化支援システムを使用し，テキストデータの認識ミスの確認と修正の支援体制を構築し，テキストデータの修正に取り組む。また，テキスト化されたデータに対して構造化データの作成をおこなう。コーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し，新漢語や可能表現の使用頻度，衆議院・貴族院での使用傾向の差異を分析する。

報告書

(1件)

2023 実績報告書

研究成果
(5件)

すべて 2024 2023

すべて学会発表 (5件)

[学会発表] 日本語学 × 情報学による文理協働型研究体制の試み ― テキストマイニングによる『帝国議会衆議院秘密会議事速記録集』を対象とした近代日本語史の分析2024
- 著者名/発表者名
  伊藤孝行, 山下倫央
- 学会等名
  「通時コーパス」シンポジウム2024
- 関連する報告書
  2023 実績報告書
[学会発表] 品詞のパターンマッチングを用いた帝国議会議事速記録における可能表現の自動抽出2023
- 著者名/発表者名
  北野勇太, 横山想一郎, 山下倫央, 川村秀憲, 伊藤孝行
- 学会等名
  第22回情報科学技術フォーラム(FIT2023)
- 関連する報告書
  2023 実績報告書
[学会発表] 『帝国議会衆議院秘密会議事速記録集』のテキストデータ化とテキストマイニングによる基礎調査2023
- 著者名/発表者名
  伊藤孝行, 山下倫央, 横山想一郞, 川村秀憲
- 学会等名
  第9回北大・部局横断シンポジウム
- 関連する報告書
  2023 実績報告書
[学会発表] 歴史的文書のコーパス分析に対する人工知能技術の応用2023
- 著者名/発表者名
  横山想一郞, 山下倫央, 川村秀憲, 伊藤孝行
- 学会等名
  第9回北大・部局横断シンポジウム
- 関連する報告書
  2023 実績報告書
[学会発表] 帝国議会議事速記録における品詞のパターンマッチングによる可能表現の頻度分析2023
- 著者名/発表者名
  北野勇太, 横山想一郎, 山下倫央, 川村秀憲, 伊藤孝行
- 学会等名
  第24回データ指向構成マイニングとシミュレーション研究会(SIG-DOCMAS)
- 関連する報告書
  2023 実績報告書

帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明

研究代表者

伊藤 孝行 北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)

18,460千円 (直接経費: 14,200千円、間接経費: 4,260千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] 日本語学 × 情報学による文理協働型研究体制の試み ― テキストマイニングによる『帝国議会衆議院秘密会議事速記録集』を対象とした近代日本語史の分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 品詞のパターンマッチングを用いた帝国議会議事速記録における可能表現の自動抽出2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 『帝国議会衆議院秘密会議事速記録集』の テキストデータ化とテキストマイニングによる基礎調査2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歴史的文書のコーパス分析に対する人工知能技術の応用2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 帝国議会議事速記録における品詞のパターンマッチングによる可能表現の頻度分析2023

著者名/発表者名

学会等名

関連する報告書

伊藤孝行北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)

[学会発表] 『帝国議会衆議院秘密会議事速記録集』のテキストデータ化とテキストマイニングによる基礎調査2023