• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明

研究課題

研究課題/領域番号 23H00632
配分区分補助金
研究機関北海道大学

研究代表者

伊藤 孝行  北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)

研究分担者 山下 倫央  北海道大学, 情報科学研究院, 准教授 (50415759)
横山 想一郎  北海道大学, 情報科学研究院, 助教 (80795732)
川村 秀憲  北海道大学, 情報科学研究院, 教授 (60322830)
小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
研究期間 (年度) 2023-04-01 – 2026-03-31
キーワード帝国議会議事速記録 / 日本語史 / 近代語 / テキストマイニング / テキスト化支援システムの開発 / コーパス
研究実績の概要

本申請研究の第一の目的は,『帝国議会議事速記録集』のテキスト化支援システムを構築し,『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は,『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い,『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。
上記目的を達成するために1年目は,1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ,この点に於いては計画以上の進捗となった。文書画像データのテキスト化では,文書画像データのテキスト化支援システムを順調に開発中,完成間近である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている言語変化を調査し,報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態を明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

1年目は,1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ,この点に於いては計画以上の進捗となった。文書画像データのテキスト化では,文書画像データのテキスト化支援システムを順調に開発中,完成間近である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている言語変化を調査し,報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態を明らかにした。

今後の研究の推進方策

2年目は,文書画像データのテキスト化支援システムを使用し,テキストデータの認識ミスの確認と修正の支援体制を構築し,テキストデータの修正に取り組む。また,テキスト化されたデータに対して構造化データの作成をおこなう。コーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し,新漢語や可能表現の使用頻度,衆議院・貴族院での使用傾向の差異を分析する。

  • 研究成果

    (5件)

すべて 2024 2023

すべて 学会発表 (5件)

  • [学会発表] 日本語学 × 情報学による文理協働型研究体制の試み ― テキストマイニングによる『帝国議会衆議院秘密会議事速記録集』を対象とした近代日本語史の分析2024

    • 著者名/発表者名
      伊藤孝行, 山下倫央
    • 学会等名
      「通時コーパス」シンポジウム2024
  • [学会発表] 品詞のパターンマッチングを用いた帝国議会議事速記録における可能表現の自動抽出2023

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第22回情報科学技術フォーラム(FIT2023)
  • [学会発表] 『帝国議会衆議院秘密会議事速記録集』の テキストデータ化とテキストマイニングによる基礎調査2023

    • 著者名/発表者名
      伊藤孝行, 山下倫央, 横山想一郞, 川村秀憲
    • 学会等名
      第9回北大・部局横断シンポジウム
  • [学会発表] 歴史的文書のコーパス分析に対する人工知能技術の応用2023

    • 著者名/発表者名
      横山想一郞, 山下倫央, 川村秀憲, 伊藤孝行
    • 学会等名
      第9回北大・部局横断シンポジウム
  • [学会発表] 帝国議会議事速記録における品詞のパターンマッチングによる可能表現の頻度分析2023

    • 著者名/発表者名
      北野 勇太, 横山 想一郎, 山下 倫央, 川村 秀憲, 伊藤 孝行
    • 学会等名
      第24回データ指向構成マイニングとシミュレーション研究会(SIG-DOCMAS)

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi