2016 Fiscal Year Annual Research Report
Information Extraction from Corpus and its Application for Creating Japanese Collocation Teaching Materials for Intermediate and Advanced Level
Project/Area Number |
26370611
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
長谷川 守寿 首都大学東京, 人文科学研究科, 准教授 (50272125)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | コロケーション / コーパス / 幼稚園 / 配布文書 |
Outline of Annual Research Achievements |
中上級者向けの日本語コロケーション教材の開発には、特定のコーパスを用いて分野を限定した方が、より教材の評価が明確となる。なぜなら、習得が求められるコロケーションは、分野によって、またレベルによって大きな違いがあるため、特定分野のコロケーション抽出は大きな意味がある。 そこで、中上級者が多く、実際に教材が必要な分野として、幼稚園の保護者を選定した。現在、多くの幼稚園では日本語を母語としない保護者(NonNativeSpeaker保護者、以下NNS保護者)が見られる。彼らは日本への滞在経験とそれに伴う実生活での日本語使用から少なくとも日本語初級のレベルは終えているが、日本語学習の体系的習得の機会がなく、超級には達していない。このように、日本語学習の機会が少なく日本語が十分に理解できない場合、幼稚園の配布文書が正しく理解されず、情報伝達がうまくいかずに保育活動に支障をきたすこともある。そのため、将来的に教師とNNS保護者を結ぶ「保護者に伝わるやさしい日本語」のテキスト化をめざし、その中で必要となるコロケーションを抽出するために『幼稚園の配布文書コーパス』を作成している。 コーパスの作成では、より精度の高い語彙・文型調査が行えるよう、OCRソフトの認識誤りを人手だけで修正するのではなく、形態素解析システム(unidic-mecab2.1.2)も活用して誤りを発見して修正し、さらに正確に語に区切れない場合は表記の変更・記号の追加を行っている。今後は、そのコーパスを元にコロケーションの抽出を行う予定である。
|
Research Products
(2 results)