研究課題/領域番号 |
21K00558
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 法政大学 |
研究代表者 |
尾谷 昌則 法政大学, 文学部, 教授 (10382657)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2024年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2023年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2022年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2021年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
|
キーワード | 若者言葉 / 言葉の変化 / ダ抜き言葉 / 流行語 / 日本語 / 文法 / 変化 / 意味の変化 / 文法の変化 / 語彙の変化 / 認知言語学 |
研究開始時の研究の概要 |
本研究では、昭和~令和にかけて起こった日本語の意味・文法・語彙の変化について研究する。主に口語的な表現を研究するため、通常のコーパスだけではデータが全く足りない。そこで、若者向け雑誌やライトノベルなどをスキャンし、OCR処理を施して簡易のオリジナルコーパスを作成する。これにより、どの言葉が、いつ、どのように変化していったのかを実証的に記述・分析する。例えば、「ふつうに美味しい」のような表現における副詞「ふつうに」の用法や、「綺麗(だ)と思う」のようなダ抜き言葉などを取り上げる予定である。
|
研究実績の概要 |
本研究課題は、「日本語の乱れ」だと非難されるような日本語表現も含め、昭和~平成時代にかけて進行した言葉の変化について調査・研究することが主目的である。とりわけ、若者の間で頻繁に使用される言葉(いわゆる「若者言葉」と呼ばれるもの)の中から、現代日本語の文法・語彙・意味の変化に大きな影響を及ぼしたものをいくつか取り上げ、その変化について調査・説明することを目的としている。 初年度は、研究の土台となる言語データを収集するため、若者向けの芸能雑誌の中でも比較的安価に購入できる『明星』のバックナンバー(古雑誌)を中心に購入し、文字データを文字認識(OCR)処理にて抽出する作業を行ったが、文字データと背景画像の切り分けがうまくいかず、研究資料としてはデータ量・認識精度ともに不十分であった。 2年目である2022年度は、『明星』だけでなく『Myojo』『POPEYE』『SEVENTEEN』『中学一年コース』『中学二年コース』などの若者向け雑誌にも手を広げたが、写真付き雑誌であるがゆえに認識精度は改善しなかった。しかし、インタビュー・対談集のように、写真と活字が重なっていない書籍からは十分な認識精度を保ったテクストデータを抽出できた。 3年目である2023年度は、大幅に遅れているデータ収集を引き続き行った。認識精度が悪いとはいえ、比較的安価で購入できる『明星』の古雑誌を追加購入してOCR処理を施すとともに、対談集・インタビュー集などからもテキストデータを抽出した。また、パイロット調査として、これまで得られたデータから「ダ抜き言葉」や「普通に」などの表現を収集してみたが、研究に資するほどデータ量が得られなかったため、現有データでも十分に調査ができそうな別表現にターゲットを変更することを検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本来であれば、1,2年目でテキストデータの収集は完了し、本年度(3年目)は特定の表現に狙いを絞ってデータ整理と分析をしているはずであったが、上述のとおり、雑誌(特に若者向けの雑誌)には写真が多く、テキストデータのみを正確に抽出することができなかった。そのため、1冊あたりから得られるテキストデータの量が思いのほか少なく、研究に必要なデータ量を収集するのに予定外の時間を要してしまったことが最大の遅滞要因である。 それでも、大量の雑誌をスキャンすればそれなりのデータ量を収集できたと思われるが、昭和期~平成前期の古雑誌は意外に高価であり、むやみに購入する訳にはいかなかった。しかも10年分・20年分といったまとまった巻号で販売されておらず、古本市場に出回っているものを1冊ごとに個別購入する必要があったため、データ収集以前の段階で作業が立ち後れることになった。 それに拍車をかけたのが校務負担である。1,2年目は学科主任であったが、本年度(3年目)が学部教授会主任に就いたため、エフォート率が大幅に下がってしまった。これらの役職就任は、研究課題開始時には予想できなかったため、研究計画にも大幅な遅滞が生じてしまった。
|
今後の研究の推進方策 |
OCR認識率の低さと1冊あたりから収集できるテキストデータ量の少なさについては、最早改善できないため、今年度はこれまで収集できたデータの範囲内である程度の変遷が追えるような言語表現を探すことを第一の目的とする。そのためには、昭和後期~平成初期に発生・変化したと思われる言語表現に当たりをつけ、それらをしらみつぶしに検索してゆくことになる。 その中で、ある程度まとまったデータ量が取れそうな言語表現を見つけたら、そのデータを元に表現の変遷を追うと同時にその変化の原因について考察する予定である。現時点では、ダ抜き言葉が有力な候補であるが、いくら形態素解析を施したデータで検索するといっても、ある程度のノイズデータが混じるため、それを目視で除去するには時間がかかると思われる。そういった時間はなかなか読めないため、今年度中に論文化できるかどうかは判断できないが、できるだけ論文化する方向で作業を進める。
|