本研究は、日本語を外国語ないし第二言語として学ぶ学習者がふれる日本語に見られる、通常の辞書では検索が困難であるような文中表現、文末表現などを収集し、データベース化することを目的としている。そのため、特に従来の辞書の記述対象範囲から外れがちである「柔らかめ」な文章をネットワークで収集するとともに、留学生向け日本語授業の担当者や受講者への調査を行なっている。 ネットワーク上の文章収集については、rssフィードを用いた自動巡回と不必要なhtmlタグの除去などの自動化をperlスクリプトを開発して行なった。当初は、形態素解析を行なってデータベース化する語の選定を進める予定であったが、「柔らかめ」な文章に対して既存の形態素解析システムがあまり有効に機能しないことが分かったため、語の選定抽出においては、主に人手による作業を行なっている。 申請を行なった時点と勤務先が変わった(2005年春に名古屋大学から立命館大学に移った)ため、当初予定していた体系的な聞き取り調査は残念ながら行なえていない。 選定抽出した表現に対して、見出し語、意味記述、文例などの情報をデータベース化(postgreを用いている)する作業を開始した。
|