平成26年度は方言分布の問題、平成27年度は表記のゆれの問題を扱った。 平成28年度は、新語の普及の問題を調べることができた。もともと WWW の検索エンジンを使う方法で、日付などを指定して検索することができるのだが、実際にやってみると、WWW の検索件数に大きな誤差が生じて、信頼できるデータにならないことがわかった。そこで、別の方法を開発することになった。 第1に、twitter における新語用法の調査である。WWW 検索の要領では、twitter のデータは一切調べることができない。そこで、twitter.com から検索語を入力していろいろな新語を調べる形にならざるを得ない。ところが、このやり方では、検索件数(ヒット件数)が簡単にわかるわけではなく、つまりは使用例数を調べることができない。twitter では、期間を指定して、その期間内に使われた言語表現を検索することはできる。そこで、そのような検索をした上で、一部の(50件ないし100件)の用例を調べ、それが当該期間のどのくらいの範囲から検索されたものかを数え、当該期間内の用例数を推定する方法を開発した。この方法で、新語の使用度などがかなりわかるようになったが、twitter の検索が完全に行われているという保証がなく、この方法がどれくらい信頼できるかは今のところ確定的でない。 第2に、Yahoo!知恵袋の利用である。Yahoo!知恵袋は、ユーザが書き込むスタイルの質問応答サイトであるが、書き込まれた日付がファイル中に記録されている。そこで、これを用いてさまざまな新語がどんな期間にどれくらい使われるか、使用頻度を確認してみた。その結果、大まかではあるが、Yahoo!知恵袋をコーパスとして使うと、新語の普及過程がある程度確認できることがわかった。
|