Project/Area Number |
21K00558
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | Hosei University |
Principal Investigator |
尾谷 昌則 法政大学, 文学部, 教授 (10382657)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2024: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2023: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2022: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2021: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
|
Keywords | 若者言葉 / 言葉の変化 / 流行語 / 日本語 / 文法 / 変化 / 意味の変化 / 文法の変化 / 語彙の変化 / 認知言語学 |
Outline of Research at the Start |
本研究では、昭和~令和にかけて起こった日本語の意味・文法・語彙の変化について研究する。主に口語的な表現を研究するため、通常のコーパスだけではデータが全く足りない。そこで、若者向け雑誌やライトノベルなどをスキャンし、OCR処理を施して簡易のオリジナルコーパスを作成する。これにより、どの言葉が、いつ、どのように変化していったのかを実証的に記述・分析する。例えば、「ふつうに美味しい」のような表現における副詞「ふつうに」の用法や、「綺麗(だ)と思う」のようなダ抜き言葉などを取り上げる予定である。
|
Outline of Annual Research Achievements |
本研究課題は、「日本語の乱れ」だと非難されるものも含めて、昭和~平成時代にかけて進行した言葉の変化について研究することが主目的である。とりわけ、若者の間で頻繁に使用される言葉(いわゆる「若者言葉」と呼ばれるもの)の中から、現代日本語の文法・語彙・意味の変化に大きな影響を及ぼしたものをいくつか取り上げ、その変化について調査・説明することを目的としている。 初年度は、研究の土台となる言語データの収集が主目的であった。できるだけ口語に近い日本語の用例ということで、例えば対談記事などを多く収録した1980~2009年(約30年間)に出版された若者向け雑誌をスキャンし、独自コーパスを構築する予定であった。中でも本研究が注目したのは、若者向けの芸能雑誌の中でも比較的安価に購入できる『明星』であるが、記事の背景として使用されている画像が複雑であるため、文字データと背景画像の切り分けがうまくいかず、文字認識(OCR)処理の精度が著しく低い結果となった。そのため、研究に使用できる量のテキストデータが得られなかった。 2年目である2022年度は、『明星』だけでなく『Myojo』『POPEYE』『SEVENTEEN』『中学一年コース』『中学二年コース』などの若者向け雑誌のスキャン・OCR認識を試みたが、やはり認識率は20%に満たない数字であり、研究に必要なデータが十分に収集・蓄積できたとは言えない現状である。 唯一成功したと言えるのは、ロックインタビュー評論集『路傍の石』(1989年刊)である。23年度は、背景に写真を多用するアイドル誌やファッション誌ではなく、音楽雑誌などのインタビュー記事を掲載したものからのデータ収集を試みることにしたい。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
大きく遅れている理由は2つある。1つ目は、データ収集元として利用した若者向けファッション雑誌やアイドル雑誌が、ページ背景に写真を多用していることで、OCRソフトがテキストデータを背景とうまく切り離して認識できていないことにある。認識できるものは、背景が単色の場合に偏っているが、上記のような雑誌ではそのようなページが非常に少なく、1冊あたりから得られるテキストデータの量が非常に少ない。 もう1つの理由は、古雑誌の購入価格が非常に高額であるという点である。昭和の古雑誌は1冊あたり3000円もする場合があり、まとまった量を購入できていない。古書店などでは、「19〇〇年〇月号」などが1冊で売られているのが現状であり、20年分をまとめて購入することがほぼ不可能な状態である。ヤフオクなどを見ると、ある程度まとまった量の古雑誌が売られている場合もあるが、領収証が発行されない個人売買をベースとしているため購入できないという問題にも直面した。
|
Strategy for Future Research Activity |
上記に示した2つの問題点について、ある程度の打開策はすでに考えてある。 1つ目に挙げた低識字率の問題は、ページ背景にあまり写真を使用していない音楽雑誌などへ切り替えるなどして、データの大量収集を試みる。インタビューで使用されている日本語は、ファッション誌やアイドル誌と同じく非常に口語的であり、言語研究のデータとしては問題ないと思われる。 2つ目の問題については、研究費の残額も決まっているため根本的な解決は望めないが、「19〇〇年〇月号」として1冊単位で売られているものを地道に購入・収集してゆくしかない。できるだけ、まとまった量を一括購入できる古雑誌を選定したいが、なるべく背景画像を使用していない雑誌を優先させたいため、1冊単位でコツコツと購入・収集せざるを得ないと思われる。
|