2016 Fiscal Year Research-status Report
大規模コーパスに基づく日本語機能語の基礎研究と機能語検索ツールへの応用
Project/Area Number |
16K13228
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
|
Co-Investigator(Kenkyū-buntansha) |
砂川 有里子 筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
今井 新悟 筑波大学, 人文社会系, 教授 (50346582)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機能語 / 機能表現 / 文法パターン / コーパス / プロファイリング |
Outline of Annual Research Achievements |
初年度(28年度)では、機能語・機能表現プロファイリング作成のための基礎研究となる次の2つの課題に取り込んだ。一つ目は、機能語・機能表現の選定である。複数の文献を参照しながら、初中級に相当する約220項目の機能語・機能表現の整理分類を行った。 二つ目は、BCCWJ(現代日本語書き言葉均衡コーパス)から機能語・機能表現を抽出するための文法パターンファイルの作成である。初年度は、上記の初中級の機能語・機能表現のうち、約半数にあたる110項目あまりの文法パターンを作成した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
まず、機能語・機能表現の選定については、初中級に該当する表現を整理分類し、機能語・機能表現初中級分類リスト(以下、分類リスト)を作成した。分類にあたっては、グループジャマシイ 1998、国立国語研究所 2001、友松悦子ほか 2013などを参照し、上位分類の下に86項目の下位分類を設け、初中級レベルの機能語・機能表現を整理した。上位分類には、「時」、「範囲」、「比較」、「対比」、「程度」などの全31項目を設定した。下位分類については、例えば、「時」の場合、「時点」、「前」、「後」、「起点」、「終点」、[期間]の5つの下位分類を設定した。これら上位分類と下位分類の下に、216項目の機能語・機能表現が分類されている。各表現には、コーパスからその表現を抽出するときに必要になる接続情報が付与されている。接続情報は、直前にくる用言(動詞、イ形容詞、ナ形容詞)や名詞が来るかどうか、来るとすればどのような形が出現するかを示している。 次に、文法パターンファイルの作成については、分類リストの216項目のうち、その半数余りに当たる111項目のパターンを作成した。パターンファイルでは、分類リストの接続情報にある直前にくる品詞ごとに抽出パターンを記述している。例えば、「時-時点」に分類される「~とき」という表現については、動詞、イ形容詞、ナ形容詞、名詞が先行するが、これらそれぞれについて抽出パターンを作成している。動詞が先行する場合、「普通形+とき」の接続になるが、このパターンを機械的に抽出するには、「行くとき」、「行かないとき」、「行ったとき」、「行かなかったとき」の4つに分割して抽出する必要がある。また、抽出の際は表記の違いを吸収する必要があるため、「行くとき」だけでなく「行く時」も同時に抽出できるように、抽出パターンを作成した。
|
Strategy for Future Research Activity |
初年度については、当初の計画通り、上記2つの課題を完了することができた。第2年度については、計画通り、以下の3つの課題を取り組む。一つ目は、文法パターンファイルの作成の継続である。具体的には、初年度で作成できなかった残り105項目のパターンの作成を行うことである。これで、初中級レベルの機能語・機能表現のパターンファイルが完成する。二つ目は、でき上がった文法パターンファイルを使って、コーパスから実際に機能語・機能表現のサンプルを抽出し、言語学および日本語教育の観点から、その評価を行うことである。三つ目は、その評価を取り入れた上で、文法パターンファイルを一部改良するなどして、コーパスから抽出された機能語・機能表現を格納するためのデータベースを設計し構築することである。
|
Causes of Carryover |
平成28年度中に研究代表者、分担者とデータベース開発の三者で集まって打ち合わせを開催する予定でしたが、日程が合わず、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
平成29年度に大津で開発業者と打ち合わせを行い、執行する予定である。
|
Research Products
(2 results)