• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明

Research Project

Project/Area Number 23K25329
Project/Area Number (Other) 23H00632 (2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2023)
Section一般
Review Section Basic Section 02070:Japanese linguistics-related
Basic Section 02090:Japanese language education-related
Sections That Are Subject to Joint Review: Basic Section02070:Japanese linguistics-related , Basic Section02090:Japanese language education-related
Research InstitutionHokkaido University

Principal Investigator

伊藤 孝行  北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)

Co-Investigator(Kenkyū-buntansha) 山下 倫央  北海道大学, 情報科学研究院, 准教授 (50415759)
横山 想一郎  北海道大学, 情報科学研究院, 助教 (80795732)
川村 秀憲  北海道大学, 情報科学研究院, 教授 (60322830)
小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
Project Period (FY) 2024-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥18,460,000 (Direct Cost: ¥14,200,000、Indirect Cost: ¥4,260,000)
Fiscal Year 2025: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2024: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥10,010,000 (Direct Cost: ¥7,700,000、Indirect Cost: ¥2,310,000)
Keywords帝国議会議事速記録 / テキストデータ化 / テキスト化支援システムの開発 / テキストマイニング / 日本語史 / 近代語 / コーパス
Outline of Research at the Start

本研究では『帝国議会議事速記録集』(1890-1947年)を資料とし,国立国会図書館が2022年4月に公開したOCR(光学的文字認識)処理プログラムによる認識結果を援用し,CHJを大幅に補強しBCCWJとつなぐコーパスの作成・一般公開を行う。また,作成したコーパスを使用し,テキストマイニングを用いることでこれまで明らかにされてこなかった明治期から戦中期の言語変化を解明し,現代語の形成過程の解明につながる知見を抽出する。

Outline of Annual Research Achievements

本申請研究の第一の目的は,『帝国議会議事速記録集』のテキスト化支援システムを構築し,『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は,『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い,『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。
上記目的を達成するために本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている可能表現を調査し,報告した。研究項目2については,文書画像データのテキスト化支援システムを開発・運用中である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。なお,このシステムについては日本語学会2024年度秋季大会にて紹介し,フィードバック等をいただいた。研究項目4については,すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出した。また,可能表現の使用実態および使用の推移を明らかにした。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,帝国議会議事速記録の分析項目を検討・決定するにあたり,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態および使用の推移を明らかにした。研究項目2については,CHJに則り1901年から前後8年おきに帝国議会貴族院議事速記録・帝国議会衆議院議事速記録本文の文書画像データのテキスト化を進めてきた。研究項目3および研究手法4については,研究項目1および研究項目2の進捗度に応じて計画を遂行した。

Strategy for Future Research Activity

本研究では下記の研究項目を計画した。研究項目1:帝国議会議事速記録テキストデータの分析,研究項目2:文書画像データのテキスト化,研究項目3:コーパス化に向けたテキストデータの整備,研究項目4:テキストデータの分析手法の実装。
研究項目1については,すでに全文テキストデータ化が完了している『帝国議会貴族院秘密会議事速記録集』・『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,研究項目2の進捗度に応じて『帝国議会議事速記録』に於けるこれまで近代語研究に於いて取りあげられている言語変化を調査する。研究項目2については,文書画像データのテキスト化支援システムが完成し次第,テキストデータの認識ミスの確認と修正の支援体制を構築し,テキストデータの修正に取り組む。研究項目3については,研究項目2の進捗度に応じてテキスト化されたデータに対して構造化データの作成をおこなう。貴族院・衆議院議員名簿にある議員に関する情報を追加する体制を構築する。研究項目4については,研究項目3の進捗度に応じてコーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し,新漢語や可能表現の使用頻度,衆議院・貴族院での使用傾向の差異を分析する。

Report

(2 results)
  • 2024 Research-status Report
  • 2023 Annual Research Report
  • Research Products

    (15 results)

All 2025 2024 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (13 results) (of which Invited: 1 results)

  • [Journal Article] テキストアナリシスによる宏文学院『日本語教科書』のことば2025

    • Author(s)
      伊藤 孝行
    • Journal Title

      新世紀人文学論究

      Volume: 9 Pages: 93-102

    • Related Report
      2024 Research-status Report
    • Peer Reviewed
  • [Journal Article] Same goal, different measures: Obscure transformation in Japan's food security policy (1970-2020)2024

    • Author(s)
      Sasada Hironori, Ito Takayuki
    • Journal Title

      Asian Politics & Policy

      Volume: 16 Issue: 4 Pages: 564-586

    • DOI

      10.1111/aspp.12761

    • Related Report
      2024 Research-status Report
    • Peer Reviewed
  • [Presentation] 形態素解析を用いた帝国議会・国会議事速記録における可能表現の自動抽出とその分析2025

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 小木曽 智信, 伊藤 孝行
    • Organizer
      第24回複雑系マイクロシンポジウム(CSMS’25)
    • Related Report
      2024 Research-status Report
  • [Presentation] 帝国議会・国会会議録を用いた可能表現の定量分析2025

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 小木曽 智信, 伊藤 孝行
    • Organizer
      「通時コーパス」シンポジウム 2025
    • Related Report
      2024 Research-status Report
  • [Presentation] 帝国議会議事速記録のテキストデータ作成に向けたテキスト修正支援ツールの開発2024

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • Organizer
      第136回人文科学とコンピュータ研究会
    • Related Report
      2024 Research-status Report
  • [Presentation] 帝国議会議事速記録のコーパス構築に向けた文理協働型研究プロジェクト2024

    • Author(s)
      山下 倫央, 北野 勇太, 横山 想一郎, 川村 秀憲, 伊藤 孝行
    • Organizer
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • Related Report
      2024 Research-status Report
    • Invited
  • [Presentation] 帝国議会議事速記録のテキスト化における修正支援システムの開発2024

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • Organizer
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • Related Report
      2024 Research-status Report
  • [Presentation] 『帝国議会貴族院秘密会議事速記録集』『帝国議会衆議院秘密会議事速記録集』のテキストデータ化とテキストマイニングによる基礎調査2024

    • Author(s)
      伊藤 孝行, 北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲
    • Organizer
      第10回北大・部局横断シンポジウム 若手による異分野融合研究の創成
    • Related Report
      2024 Research-status Report
  • [Presentation] 帝国議会議事速記録のコーパス構築に向けた 翻刻・文字起こし支援システムの開発2024

    • Author(s)
      伊藤 孝行, 平間 友大, 北野 勇太, 横山 想一郞, 山下 倫央, 川村 秀憲, 小木曽 智信
    • Organizer
      日本語学会2024年度秋季大会
    • Related Report
      2024 Research-status Report
  • [Presentation] 日本語歴史コーパス(CHJ)拡張への寄与を念頭に置いた『帝国議会議事速記録集』のテキストデータ化とテキストマイニングによる調査2024

    • Author(s)
      伊藤 孝行, 北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲
    • Organizer
      令和6年度國學院大學国語研究会後期大会
    • Related Report
      2024 Research-status Report
  • [Presentation] 日本語学 × 情報学による文理協働型研究体制の試み ― テキストマイニングによる『帝国議会衆議院秘密会議事速記録集』を対象とした近代日本語史の分析2024

    • Author(s)
      伊藤孝行, 山下倫央
    • Organizer
      「通時コーパス」シンポジウム2024
    • Related Report
      2023 Annual Research Report
  • [Presentation] 品詞のパターンマッチングを用いた帝国議会議事速記録における可能表現の自動抽出2023

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • Organizer
      第22回情報科学技術フォーラム(FIT2023)
    • Related Report
      2023 Annual Research Report
  • [Presentation] 『帝国議会衆議院秘密会議事速記録集』の テキストデータ化とテキストマイニングによる基礎調査2023

    • Author(s)
      伊藤孝行, 山下倫央, 横山想一郞, 川村秀憲
    • Organizer
      第9回北大・部局横断シンポジウム
    • Related Report
      2023 Annual Research Report
  • [Presentation] 歴史的文書のコーパス分析に対する人工知能技術の応用2023

    • Author(s)
      横山想一郞, 山下倫央, 川村秀憲, 伊藤孝行
    • Organizer
      第9回北大・部局横断シンポジウム
    • Related Report
      2023 Annual Research Report
  • [Presentation] 帝国議会議事速記録における品詞のパターンマッチングによる可能表現の頻度分析2023

    • Author(s)
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • Organizer
      第24回データ指向構成マイニングとシミュレーション研究会(SIG-DOCMAS)
    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-18   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi