研究課題/領域番号 |
21K00558
|
研究機関 | 法政大学 |
研究代表者 |
尾谷 昌則 法政大学, 文学部, 教授 (10382657)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 若者言葉 / 日本語 / 文法 / 変化 |
研究実績の概要 |
本研究課題は、たびたび日本語の乱れだと非難される言葉の変化について研究することが主目的である。中でも、新しい言葉遣いを好んで用いる若者の言葉に焦点を当て、いわゆる「若者言葉」と呼ばれるものの中から、現代日本語の文法・語彙・意味の変化に大きな影響を及ぼしたものをいくつか取り上げ、その変化について調査・説明することを目的としている。 そのために、初年度は研究の土台となる言語データの収集が主目的であった。具体的には、若者が使用する口語に近い日本語の用例(例えば対談記事など)を収集すべく、1980~2009年の30年間に出版されたライトノベルや若者向け雑誌をスキャンし、独自コーパスを構築する予定であった。 それぞれ、ある程度の量を購入してPFUの最新型スキャナで(雑誌はカラーで)読み取り、画像データとして保存した。しかし、例えば若者向けの芸能雑誌『明星』などは雑誌がほどオールカラーで、複雑な配色のカラー写真が背景として使用されているために文字データと背景画像の切り分けがうまくいかず、文字認識(OCR)処理の精度が著しく低い結果となった。雑誌特有の複雑な段組みも文字認識精度の低下に拍車をかけたようだ。そのため、画像データとしては収集できてはいても、文字列を検索できる状態にはなっていないため、即研究に使用できる状態にはなっていない。抽出できたテキストデータは、当初予定していたデータの1割も達成できていない状況である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
初年度は、口語に近い用例を若者向け雑誌などから収集し、研究のデータベースとなる独自コーパスを構築することが目標であった。しかし、背景がカラー写真になっていたり、複雑な段組みがなされているページが思いのほか多く、せっかく高解像度でスキャンしても文字認識(OCR)の精度が著しく低い結果となった。スキャナ業界では最も信頼性のあるPFU社の業務用スキャナーを用い、背景除去や地紋除去などの機能を有する最新のソフトウェアを使用して文字認識を行ったにもかかわらず、全く文字認識できていない部分が文章のあちこちで生じてしまい、研究データとして使用できる状態にはならなかった。そのため、当初予定していたデータの1割も達成できていない状況であり、データソースを大幅に変更し、データ収集を一からやり直しせざるをえないのが現状である。
|
今後の研究の推進方策 |
オールカラーで印刷されている若者向け雑誌はOCR処理に向かないことが判明したため、白黒ページが多い雑誌へと切り替えて再度データ収集を試みる。具体的には、かならずしも若者向けの雑誌(例えば情報雑誌、ファッション雑誌)ではないかもしれないが、音楽系雑誌やゲーム・アニメ系雑誌などを中心にスキャンしてゆく予定である。
|
次年度使用額が生じた理由 |
進捗状況の箇所でも書いたように、言語データとして収集する予定だった若者向け雑誌の文字認識がうまくいかず、抽出できるテキストデータの量が著しく少ないと判断したため、当初予定していた古雑誌の購入を一時的に停止した。そのため、その購入費用とデータ入力補助の費用(アルバイト代)が未消化のまま残ってしまった。 22年度は、文字認識が比較的容易な白黒ページが多い雑誌へと切り替えて言語データを収集する予定であり、生じた残額がそちらで使用することとする。
|