2018 Fiscal Year Annual Research Report
精緻な文字表記情報を持つ近代新聞コーパスの構築による表記・文体変遷の計量的研究
Project/Area Number |
18H05613
|
Allocation Type | Single-year Grants |
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
間淵 洋子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 特任助教 (10415614)
|
Project Period (FY) |
2018-08-24 – 2020-03-31
|
Keywords | コーパス / 新聞 / 近代語 / 表記 / 言語変化 / Unicode変体仮名 |
Outline of Annual Research Achievements |
本研究の目的は,社会と言語が大きく変化した近代から現代にかけて,語の使用の実態とその変遷を明らかにすると共に,資料の形式・表記・文体が,メディアの発達,読者層の変化,社会の変化とどのように関わりながら変化したかを明らかにすることである.そのために,幕末明治初期に誕生し,形式・形態・表記・文体すべてにおいて急速に変化・発展しながら現代へと途切れなく続く「新聞」というメディアを研究対象として選択し,資料の形式や言語の表記についての,大量かつ精緻な実態把握に基づき,言語変化の様相と,その背景としての人間・人間活動の変化変遷を関連付けて論じることを試みることとした. 本年度は,新聞に見られる言語変化の実態把握に用いるためのコーパス(新聞本文を言語研究に利用できる形で電子化したデータベース)の構築に取り組んだ.具体的には,明治・大正期から現代まで存続する新聞のうち,明治期の年間発行部数が多く,庶民を読者層として平易な談話体と傍訓に特徴のある,いわゆる「小新聞」(土屋礼子『大衆 紙の源流 明治期小新聞の研究』,世界思想社,2002年)の一つ,『読売新聞』を採録対象とし,発刊の明治7(1874)年から一定期間おきに,1年につき8~10万語程度を含む,約60~80万語分のコーパスを作ることとし,本文の文字入力(外部業者への業務委託による)と整備を実施した. コーパス作成にあたっては,本文本行の文字をできる限り精緻に写すため,日本語を記述する文字(漢字や変体仮名を含む仮名文字)のセットとして最新の国際規格である「Unicode11.0」を用いて文字の記述を行うこととし,入力した新聞の本文に対して,Unicodeのコードポイント情報を付与するタグ付けを実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題は,コーパスに基づく近代の新聞の言語実態調査が研究の柱となっており,コーパスの構築自体が研究の成否を分ける大きなファクターとなる. 本年度は,最終的に目標とするコーパスの語彙量,約60万語のうち,約46万語分の本文データ整備が完了した. 近代の新聞は活字が大変細かいことに加え,版面の保存情報が良くないことから,入力作業が難航することが予想されたが,外部業者への本文文字入力業務の委託についても,緊密に連携を取りながら順調に進めることができた.また,精密な文字情報を付与する作業を大学生アルバイタに依頼し,明治初期の版面に見られる変体仮名活字や談話体の文章,近代文語文などの読解トレーニングも兼ねて実施したが,順調に進めることができた. 次年度へ向けて,作業を軌道に載せられたことも勘案し,概ね順調に進展していると考える.
|
Strategy for Future Research Activity |
研究の最終年度となる今年度は,新聞コーパスの完成を目指すと共に,これを用いた言語分析に取り組む. 新聞コーパスの構築については,引き続き本文の文字入力と文字情報(Unicode)付与を進めるほか,包括的・網羅的な語彙分析や表記分析を行うために,形態論情報(単語に対する読みや代表的な形式,品詞や活用語の活用形・活用型,語種などの情報)の付与を実施する.近代語の形態素解析については,既に『日本語歴史コーパス 明治・大正編』での実践経験があり,また,形態論情報付与に習熟した研究補助者を確保することができていることから,滞りなく進めることができるものと考える. また,今年度は,既に作成が進んでいる部分のデータを用いた,新聞における言語使用の実態把握にも着手し,学会・研究会等での発表を通して,研究の方向性について検証を行いながら進める.
|