2023 Fiscal Year Annual Research Report
帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明
Project/Area Number |
23H00632
|
Allocation Type | Single-year Grants |
Research Institution | Hokkaido University |
Principal Investigator |
伊藤 孝行 北海道大学, メディア・コミュニケーション研究院, 准教授 (00588478)
|
Co-Investigator(Kenkyū-buntansha) |
山下 倫央 北海道大学, 情報科学研究院, 准教授 (50415759)
横山 想一郎 北海道大学, 情報科学研究院, 助教 (80795732)
川村 秀憲 北海道大学, 情報科学研究院, 教授 (60322830)
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 帝国議会議事速記録 / 日本語史 / 近代語 / テキストマイニング / テキスト化支援システムの開発 / コーパス |
Outline of Annual Research Achievements |
本申請研究の第一の目的は,『帝国議会議事速記録集』のテキスト化支援システムを構築し,『帝国議会議事速記録集』の文書画像データからコーパスを作成し公開することである。第二の目的は,『帝国議会議事速記録集』のコーパスをもとにテキストマイニングを用い,『帝国議会議事速記録集』に於ける使用語彙の頻度や資料の特徴語を調査・分析することである。 上記目的を達成するために1年目は,1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ,この点に於いては計画以上の進捗となった。文書画像データのテキスト化では,文書画像データのテキスト化支援システムを順調に開発中,完成間近である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている言語変化を調査し,報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』をテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態を明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1年目は,1890年第1回議会の速記録を対象として文書画像データのテキスト化・構造化データの仕様の策定・分析項目の検討とテキスト化支援システムの開発を進めてきた。計画では1890年第1回議会の速記録を対象としていたが『帝国議会衆議院議事速記録集』全文に対象を広げることができ,この点に於いては計画以上の進捗となった。文書画像データのテキスト化では,文書画像データのテキスト化支援システムを順調に開発中,完成間近である。この文書画像データのテキスト化支援システムは,PDF ファイル化された帝国議会議事速記録の1ページの画像(文書画像データ)からテキストデータを作成する。文字列領域を検出し,文字列画像に対応するテキストデータを自動生成するもので,自動生成されたテキストデータの認識ミスの確認と修正の支援が可能となっている。また,帝国議会議事速記録テキストデータの分析では,帝国議会議事速記録の分析項目を検討・決定するにあたり,これまで近代語研究に於いて取りあげられている言語変化を調査し,報告した。すでに全文テキストデータ化が完了している『帝国議会衆議院秘密会議事速記録集』を対象としたテキストマイニング手法を用い,その中で使用されている語彙の頻度,文字 n-gram,単語 n-gram を算出し,加えて可能表現の使用実態を明らかにした。
|
Strategy for Future Research Activity |
2年目は,文書画像データのテキスト化支援システムを使用し,テキストデータの認識ミスの確認と修正の支援体制を構築し,テキストデータの修正に取り組む。また,テキスト化されたデータに対して構造化データの作成をおこなう。コーパス化が完了した速記録に対して分析手法を順次適用してコーパスを分析し,新漢語や可能表現の使用頻度,衆議院・貴族院での使用傾向の差異を分析する。
|
Research Products
(5 results)