2012 Fiscal Year Research-status Report
類推ネットワーク・モデルを用いた日本語文法の変化に関する認知言語学的研究
Project/Area Number |
24720211
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Hosei University |
Principal Investigator |
尾谷 昌則 法政大学, 文学部, 准教授 (10382657)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 日本語学 / 若者言葉 / 文法の変化 / 言語変化 |
Research Abstract |
今年は初年度ということで、小説テキスト・データベース構築作業の準備を行った。 まず、言語データとして取込むための文庫本を購入。請求予算額より少なかったため新品購入を断念、ブックオフにて中古本3500冊を購入。在庫リストを取り寄せ、その中から発行年度ごとに100冊を選定する作業に膨大な時間を要したが、概ね満足いくものが揃えられた。通常の文庫とは別に、ライトノベルと呼ばれる若者向け小説も10年分、計500冊ほど購入した。若者ことばの変遷を辿る上で重要な資料になることは間違いない。 次に、業務用スキャナを購入し、OCR処理に最適なスキャン設定を検証するために試行錯誤を重ねた。ある程度の精度を達成するためには、業務用スキャナでも1時間あたり15冊が限界と判明。書籍の断裁作業、不要ページの除去、スキャン後の廃棄作業なども同時平行で行うため、予想以上に時間をとられてしまい、年度末までに800冊をスキャンするのが精一杯であった。 また、本データベースはテキストの認識精度が生命線であるため、OCR処理の精度向上についても慎重に検討を重ねた。市販OCRソフトを比較し、学習機能を利用して認識精度の向上に努めた。その結果、特殊文字・記号・促音を除けば、約99%以上の精度でテキストデータ化できるようになった。長音記号や促音の認識が向上しないのは極めて残念ではあるが、研究対象とする基本的な文法事項にはさほど影響しないため、まずは上々の結果と言えよう。 当初の研究計画からみれば、文庫本のスキャン作業が大幅に遅れているが、テキストデータ化までの予備作業がうまくいっているため、あとは時間と人手の問題である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
4年計画のうち、初年度は文庫のスキャンとOCR化を目標にしていた。しかし、中古書籍の選定に手間どり、スキャン作業にも予想以上の時間を要したため、入力は4分の1しか終了していない。ライトノベルを中心に、ここ20年のデータだけに絞るということで軌道修正したが、それでもまだ半分程度である。
|
Strategy for Future Research Activity |
過去40年分の文庫をテキストデータ化するのは困難であるため、計画を変更し、ここ20年分のみ取込むことにする。分析対象の表現はどれもここ10~20年ほどで急速にその使用頻度が高くなったものばかりであるため、語源などの特定には至らないかもしれないが、さしあたって使用実態を調査するには支障がないと思われる。 データベースが完成しないことには、検索による定量的な分析が行えないが、次年度以降に分析する予定であった表現(「~ないです」など)についての文献調査を先取りすることで、帳尻を合わせたい。
|
Expenditure Plans for the Next FY Research Funding |
データ入力補助の人件費として使用する予定であるが、業務用OCRソフト(市価30万円)の存在も明らかになったので、そちらの購入も検討したい。
|
Research Products
(3 results)