研究課題/領域番号 |
21K00558
|
研究機関 | 法政大学 |
研究代表者 |
尾谷 昌則 法政大学, 文学部, 教授 (10382657)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 若者言葉 / 言葉の変化 / 流行語 |
研究実績の概要 |
本研究課題は、「日本語の乱れ」だと非難されるものも含めて、昭和~平成時代にかけて進行した言葉の変化について研究することが主目的である。とりわけ、若者の間で頻繁に使用される言葉(いわゆる「若者言葉」と呼ばれるもの)の中から、現代日本語の文法・語彙・意味の変化に大きな影響を及ぼしたものをいくつか取り上げ、その変化について調査・説明することを目的としている。 初年度は、研究の土台となる言語データの収集が主目的であった。できるだけ口語に近い日本語の用例ということで、例えば対談記事などを多く収録した1980~2009年(約30年間)に出版された若者向け雑誌をスキャンし、独自コーパスを構築する予定であった。中でも本研究が注目したのは、若者向けの芸能雑誌の中でも比較的安価に購入できる『明星』であるが、記事の背景として使用されている画像が複雑であるため、文字データと背景画像の切り分けがうまくいかず、文字認識(OCR)処理の精度が著しく低い結果となった。そのため、研究に使用できる量のテキストデータが得られなかった。 2年目である2022年度は、『明星』だけでなく『Myojo』『POPEYE』『SEVENTEEN』『中学一年コース』『中学二年コース』などの若者向け雑誌のスキャン・OCR認識を試みたが、やはり認識率は20%に満たない数字であり、研究に必要なデータが十分に収集・蓄積できたとは言えない現状である。 唯一成功したと言えるのは、ロックインタビュー評論集『路傍の石』(1989年刊)である。23年度は、背景に写真を多用するアイドル誌やファッション誌ではなく、音楽雑誌などのインタビュー記事を掲載したものからのデータ収集を試みることにしたい。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
大きく遅れている理由は2つある。1つ目は、データ収集元として利用した若者向けファッション雑誌やアイドル雑誌が、ページ背景に写真を多用していることで、OCRソフトがテキストデータを背景とうまく切り離して認識できていないことにある。認識できるものは、背景が単色の場合に偏っているが、上記のような雑誌ではそのようなページが非常に少なく、1冊あたりから得られるテキストデータの量が非常に少ない。 もう1つの理由は、古雑誌の購入価格が非常に高額であるという点である。昭和の古雑誌は1冊あたり3000円もする場合があり、まとまった量を購入できていない。古書店などでは、「19〇〇年〇月号」などが1冊で売られているのが現状であり、20年分をまとめて購入することがほぼ不可能な状態である。ヤフオクなどを見ると、ある程度まとまった量の古雑誌が売られている場合もあるが、領収証が発行されない個人売買をベースとしているため購入できないという問題にも直面した。
|
今後の研究の推進方策 |
上記に示した2つの問題点について、ある程度の打開策はすでに考えてある。 1つ目に挙げた低識字率の問題は、ページ背景にあまり写真を使用していない音楽雑誌などへ切り替えるなどして、データの大量収集を試みる。インタビューで使用されている日本語は、ファッション誌やアイドル誌と同じく非常に口語的であり、言語研究のデータとしては問題ないと思われる。 2つ目の問題については、研究費の残額も決まっているため根本的な解決は望めないが、「19〇〇年〇月号」として1冊単位で売られているものを地道に購入・収集してゆくしかない。できるだけ、まとまった量を一括購入できる古雑誌を選定したいが、なるべく背景画像を使用していない雑誌を優先させたいため、1冊単位でコツコツと購入・収集せざるを得ないと思われる。
|
次年度使用額が生じた理由 |
『明星』や『POPEYE』といった若者向け雑誌では、ページ背景に写真が多く使用されているため、誌面に掲載されている文字データを正確に抽出できないという問題点があった。そこで、できるだけ正確に文字データを抽出できそうな雑誌を探すために、各誌2,3冊ずつ購入して、OCR精度の実験・確認をしていた。その結果、古雑誌を大量購入することが無く、予算を余らせてしまった。 しかし、23年度は、ファッション誌やアイドル誌に限らず、音楽誌など他分野の雑誌も試してみて、データ収集に最適な雑誌を選定する予定である。選定がうまくいえば、その古雑誌を大量に購入する予定であるため、22年度に未消化だった予算は確実に消化されることが見込まれる。
|