2021 Fiscal Year Research-status Report
現代日本語における文法・語彙・意味の変化に関する認知言語学的研究
Project/Area Number |
21K00558
|
Research Institution | Hosei University |
Principal Investigator |
尾谷 昌則 法政大学, 文学部, 教授 (10382657)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 若者言葉 / 日本語 / 文法 / 変化 |
Outline of Annual Research Achievements |
本研究課題は、たびたび日本語の乱れだと非難される言葉の変化について研究することが主目的である。中でも、新しい言葉遣いを好んで用いる若者の言葉に焦点を当て、いわゆる「若者言葉」と呼ばれるものの中から、現代日本語の文法・語彙・意味の変化に大きな影響を及ぼしたものをいくつか取り上げ、その変化について調査・説明することを目的としている。 そのために、初年度は研究の土台となる言語データの収集が主目的であった。具体的には、若者が使用する口語に近い日本語の用例(例えば対談記事など)を収集すべく、1980~2009年の30年間に出版されたライトノベルや若者向け雑誌をスキャンし、独自コーパスを構築する予定であった。 それぞれ、ある程度の量を購入してPFUの最新型スキャナで(雑誌はカラーで)読み取り、画像データとして保存した。しかし、例えば若者向けの芸能雑誌『明星』などは雑誌がほどオールカラーで、複雑な配色のカラー写真が背景として使用されているために文字データと背景画像の切り分けがうまくいかず、文字認識(OCR)処理の精度が著しく低い結果となった。雑誌特有の複雑な段組みも文字認識精度の低下に拍車をかけたようだ。そのため、画像データとしては収集できてはいても、文字列を検索できる状態にはなっていないため、即研究に使用できる状態にはなっていない。抽出できたテキストデータは、当初予定していたデータの1割も達成できていない状況である。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
初年度は、口語に近い用例を若者向け雑誌などから収集し、研究のデータベースとなる独自コーパスを構築することが目標であった。しかし、背景がカラー写真になっていたり、複雑な段組みがなされているページが思いのほか多く、せっかく高解像度でスキャンしても文字認識(OCR)の精度が著しく低い結果となった。スキャナ業界では最も信頼性のあるPFU社の業務用スキャナーを用い、背景除去や地紋除去などの機能を有する最新のソフトウェアを使用して文字認識を行ったにもかかわらず、全く文字認識できていない部分が文章のあちこちで生じてしまい、研究データとして使用できる状態にはならなかった。そのため、当初予定していたデータの1割も達成できていない状況であり、データソースを大幅に変更し、データ収集を一からやり直しせざるをえないのが現状である。
|
Strategy for Future Research Activity |
オールカラーで印刷されている若者向け雑誌はOCR処理に向かないことが判明したため、白黒ページが多い雑誌へと切り替えて再度データ収集を試みる。具体的には、かならずしも若者向けの雑誌(例えば情報雑誌、ファッション雑誌)ではないかもしれないが、音楽系雑誌やゲーム・アニメ系雑誌などを中心にスキャンしてゆく予定である。
|
Causes of Carryover |
進捗状況の箇所でも書いたように、言語データとして収集する予定だった若者向け雑誌の文字認識がうまくいかず、抽出できるテキストデータの量が著しく少ないと判断したため、当初予定していた古雑誌の購入を一時的に停止した。そのため、その購入費用とデータ入力補助の費用(アルバイト代)が未消化のまま残ってしまった。 22年度は、文字認識が比較的容易な白黒ページが多い雑誌へと切り替えて言語データを収集する予定であり、生じた残額がそちらで使用することとする。
|