• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 実績報告書

「20世紀初期総合雑誌コーパス」の構築による確立期現代語の高精度な記述

研究課題

研究課題/領域番号 14310197
研究種目

基盤研究(B)

研究機関独立行政法人国立国語研究所

研究代表者

田中 牧郎  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (90217076)

研究分担者 山口 昌也  独立行政法人国立国語研究所, 研究開発部門, 研究員 (30302920)
小椋 秀樹  独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
笹原 宏之  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (80269505)
小木曽 智信  明海大学, 外国語学部, 専任講師 (20337489)
湯浅 茂雄  実践女子大学, 文学部, 教授
キーワードコーパス / 言語の記述研究 / 20世紀初期 / 総合雑誌 / 女性雑誌 / 構造化テキスト / 形態素解析 / 検索システム
研究概要

初年度である平成14年度は,「20世紀初期総合雑誌コーパス」の構築に着手し,電子テキスト作成を重点的に進め,形態素解析の準備と検索システムの開発に着手した。本研究は,現代日本語が確立する変化過程をとらえることのできる雑誌コーパスを構築し,これを用いて,確立期現代語の高精度な記述を実践し,コーパスによる日本語研究を新しい段階に進めることを企図するものである。
対象とする資料には,広範な言語層をとらえるために,男性を主たる読者とする総合雑誌『太陽』と女性総合雑誌を選び,共時・通時両面からの記述研究に資するように,対象とする年次を選定した。具体的には,『太陽』1895年・1909年・1925年,『女学雑誌』1894・1895年,『女学世界』1909年,『婦人倶楽部』1925年で,全体で約900万字の規模になる。
この対象資料をもとに電子テキストを作成した。信頼できる電子テキストとするたあに,文献資料の言語構造を把握し,文献資料から抽出される言語情報を,XMLによる文書の構造化と情報のマークアップという形で実現させた。こうして作成された電子テキストに対して,言語研究に有用な単位で形態素解析を行い,品詞等の情報を付与すべく,規準の策定とマニュアルの整備を行い,平成15年度から本格的な作業に着手する準備を整えた。また,コーパスを言語研究に活用する立場から,検索洩れがなく,検索効率が高く,研究者の分析を支援できる,高機能なシステム開発を実現させるための設計に着手した。また,本コーパスを利用した記述研究を行うための探索的研究にも着手した。

URL: 

公開日: 2004-04-07   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi