• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明

研究課題

研究課題/領域番号 23K25329
補助金の研究課題番号 23H00632 (2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2023)
応募区分一般
審査区分 小区分02070:日本語学関連
小区分02090:日本語教育関連
合同審査対象区分:小区分02070:日本語学関連、小区分02090:日本語教育関連
研究機関北海道大学

研究代表者

伊藤 孝行  北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)

研究分担者 山下 倫央  北海道大学, 情報科学研究院, 准教授 (50415759)
横山 想一郎  北海道大学, 情報科学研究院, 助教 (80795732)
川村 秀憲  北海道大学, 情報科学研究院, 教授 (60322830)
小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
研究期間 (年度) 2024-04-01 – 2026-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
18,460千円 (直接経費: 14,200千円、間接経費: 4,260千円)
2025年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2024年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 10,010千円 (直接経費: 7,700千円、間接経費: 2,310千円)
キーワード帝国議会議事速記録 / テキストデータ化 / テキスト化支援システムの開発 / テキストマイニング / 日本語史 / 近代語 / コーパス
研究開始時の研究の概要

本研究では『帝国議会議事速記録集』(1890-1947年)を資料とし,国立国会図書館が2022年4月に公開したOCR(光学的文字認識)処理プログラムによる認識結果を援用し,CHJを大幅に補強しBCCWJとつなぐコーパスの作成・一般公開を行う。また,作成したコーパスを使用し,テキストマイニングを用いることでこれまで明らかにされてこなかった明治期から戦中期の言語変化を解明し,現代語の形成過程の解明につながる知見を抽出する。

研究実績の概要

本申請研究の第一の目的は,『帝国議会議事速記録集』のテキスト化支援システムを構築し,『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は,『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い,『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。
上記目的を達成するために本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている可能表現を調査し,報告した。研究項目2については,文書画像データのテキスト化支援システムを開発・運用中である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。なお,このシステムについては日本語学会2024年度秋季大会にて紹介し,フィードバック等をいただいた。研究項目4については,すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出した。また,可能表現の使用実態および使用の推移を明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,帝国議会議事速記録の分析項目を検討・決定するにあたり,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態および使用の推移を明らかにした。研究項目2については,CHJに則り1901年から前後8年おきに帝国議会貴族院議事速記録・帝国議会衆議院議事速記録本文の文書画像データのテキスト化を進めてきた。研究項目3および研究手法4については,研究項目1および研究項目2の進捗度に応じて計画を遂行した。

今後の研究の推進方策

本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,研究項目2の進捗度に応じて『帝国議会議事速記録』に於けるこれまで近代語研究に於いて取りあげられている言語変化を調査する。研究項目2については,文書画像データのテキスト化支援システムが完成し次第,テキストデータの認識ミスの確認と修正の支援体制を構築し,テキストデータの修正に取り組む。研究項目3については,研究項目2の進捗度に応じてテキスト化されたデータに対して構造化データの作成をおこなう。貴族院・衆議院議員名簿にある議員に関する情報を追加する体制を構築する。研究項目4については,研究項目3の進捗度に応じてコーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し,新漢語や可能表現の使用頻度,衆議院・貴族院での使用傾向の差異を分析する。

報告書

(2件)
  • 2024 実施状況報告書
  • 2023 実績報告書
  • 研究成果

    (15件)

すべて 2025 2024 2023

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (13件) (うち招待講演 1件)

  • [雑誌論文] テキストアナリシスによる宏文学院『日本語教科書』のことば2025

    • 著者名/発表者名
      伊藤 孝行
    • 雑誌名

      新世紀人文学論究

      巻: 9 ページ: 93-102

    • 関連する報告書
      2024 実施状況報告書
    • 査読あり
  • [雑誌論文] Same goal, different measures: Obscure transformation in Japan's food security policy (1970-2020)2024

    • 著者名/発表者名
      Sasada Hironori, Ito Takayuki
    • 雑誌名

      Asian Politics & Policy

      巻: 16 号: 4 ページ: 564-586

    • DOI

      10.1111/aspp.12761

    • 関連する報告書
      2024 実施状況報告書
    • 査読あり
  • [学会発表] 形態素解析を用いた帝国議会・国会議事速記録における可能表現の自動抽出とその分析2025

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 小木曽 智信, 伊藤 孝行
    • 学会等名
      第24回複雑系マイクロシンポジウム(CSMS’25)
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 帝国議会・国会会議録を用いた可能表現の定量分析2025

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 小木曽 智信, 伊藤 孝行
    • 学会等名
      「通時コーパス」シンポジウム 2025
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 帝国議会議事速記録のテキストデータ作成に向けたテキスト修正支援ツールの開発2024

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第136回人文科学とコンピュータ研究会
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 帝国議会議事速記録のコーパス構築に向けた文理協働型研究プロジェクト2024

    • 著者名/発表者名
      山下 倫央, 北野 勇太, 横山 想一郎, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • 関連する報告書
      2024 実施状況報告書
    • 招待講演
  • [学会発表] 帝国議会議事速記録のテキスト化における修正支援システムの開発2024

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 『帝国議会貴族院秘密会議事速記録集』『帝国議会衆議院秘密会議事速記録集』のテキストデータ化とテキストマイニングによる基礎調査2024

    • 著者名/発表者名
      伊藤 孝行, 北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲
    • 学会等名
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 帝国議会議事速記録のコーパス構築に向けた 翻刻・文字起こし支援システムの開発2024

    • 著者名/発表者名
      伊藤 孝行, 平間 友大, 北野 勇太, 横山 想一郞, 山下 倫央, 川村 秀憲, 小木曽 智信
    • 学会等名
      日本語学会2024年度秋季大会
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 日本語歴史コーパス(CHJ)拡張への寄与を念頭に置いた『帝国議会議事速記録集』のテキストデータ化とテキストマイニングによる調査2024

    • 著者名/発表者名
      伊藤 孝行, 北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲
    • 学会等名
      令和6年度國學院大學国語研究会後期大会
    • 関連する報告書
      2024 実施状況報告書
  • [学会発表] 日本語学 × 情報学による文理協働型研究体制の試み ― テキストマイニングによる『帝国議会衆議院秘密会議事速記録集』を対象とした近代日本語史の分析2024

    • 著者名/発表者名
      伊藤孝行, 山下倫央
    • 学会等名
      「通時コーパス」シンポジウム2024
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 品詞のパターンマッチングを用いた帝国議会議事速記録における可能表現の自動抽出2023

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第22回情報科学技術フォーラム(FIT2023)
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 『帝国議会衆議院秘密会議事速記録集』の テキストデータ化とテキストマイニングによる基礎調査2023

    • 著者名/発表者名
      伊藤孝行, 山下倫央, 横山想一郞, 川村秀憲
    • 学会等名
      第9回北大・部局横断シンポジウム
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 歴史的文書のコーパス分析に対する人工知能技術の応用2023

    • 著者名/発表者名
      横山想一郞, 山下倫央, 川村秀憲, 伊藤孝行
    • 学会等名
      第9回北大・部局横断シンポジウム
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 帝国議会議事速記録における品詞のパターンマッチングによる可能表現の頻度分析2023

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第24回データ指向構成マイニングとシミュレーション研究会(SIG-DOCMAS)
    • 関連する報告書
      2023 実績報告書

URL: 

公開日: 2023-04-18   更新日: 2025-12-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi