研究課題/領域番号 |
18H03575
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分2:文学、言語学およびその関連分野
|
研究機関 | 早稲田大学 |
研究代表者 |
今井 新悟 早稲田大学, 日本語教育研究センター, 教授 (50346582)
|
研究分担者 |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子 筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達 佐賀大学, 国際交流推進センター, 講師 (70599985)
家根橋 伸子 東亜大学, 人間科学部, 教授 (80609652)
今村 泰也 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 研究員 (80535542)
|
研究期間 (年度) |
2018-04-01 – 2020-03-31
|
研究課題ステータス |
中途終了 (2019年度)
|
配分額 *注記 |
43,290千円 (直接経費: 33,300千円、間接経費: 9,990千円)
2019年度: 9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円)
2018年度: 15,210千円 (直接経費: 11,700千円、間接経費: 3,510千円)
|
キーワード | コーパス / 超大規模 / アノテーション / 機能語 / レキシカル・プロファイリング / 日本語 / 日本語教育 / 準均衡コーパス / 超巨大コーパス / 検索ツール / 機能句 / レキシカルプロファイリング |
研究実績の概要 |
超大規模コーパス構築のため、前年度に作成したクローラーを用いて、ウェブページの収集を継続して行った。その結果、約8100万ファイルのウェブページの収集を行うことができた。当初予定の1億ファイルには届かなかったものの、それに近い数の収集ができた。 続いて、データクリーニングを行った。収集したデータには、head要素、script要素、タグなどの、コーパスには不要な情報が含まれているので、それらの情報を削除した。その上でテキストを抽出し、エンコーディングをすべてUTF-8にした。さらにテキストには、広告やリンクなどの当該ウエブページの本文とは言えない情報が含まれているので、それらを除去した。 得られたテキストに対して、UniDic(辞書)を使用して形態素分析を行い、その結果得られた形態素(語彙素)に対して、品詞や活用などの情報を付与するアノテーション作業を実施した。 コーパスの検索時に用いる、機能語・機能表現のリストを作成した。既存の機能語を扱った複数の辞書やリスト(機能語用例データベース「はごろも」、『日本語文型辞典』など)を用い、それらで扱われている見出し項目をすべて収集することによって、第一次候補としての機能語・機能表現の項目が最大になるリストを準備した。このリストを精査して、最終的なリストにしていく作業が残されている。この作業を通して得られた成果・知見は、『日本語文型バンク』(国立国語研究所)に提供され、その構築に寄与した。また、その成果を教科書開発に生かす方法についても考察した。
|
現在までの達成度 (段落) |
令和元年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和元年度が最終年度であるため、記入しない。
|