研究課題/領域番号 |
18K18519
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
研究分担者 |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
|
研究期間 (年度) |
2018-06-29 – 2021-03-31
|
キーワード | コーパス / 比喩表現 |
研究実績の概要 |
指標比喩については『現代日本語書き言葉コーパス』(BCCWJ) コアデータ(Yahoo! 知恵袋、白書、Yahoo! ブログ、書籍、雑誌、新聞)全体に言語学の専門家によるタグ付け作業が完了した。同研究は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、クラウドソーシングに基づく質問紙調査により非専門家の評定値を取得した。具体的には比喩性・新奇性・わかりやすさなどの観点について6件法による調査を行った。さらに、同調査を中村(1977)の用例および IPAL 辞書中の動詞・形容詞の結合についても調査を行った。今後対照分析を進める。 結合比喩については、BCCWJ 新聞データに対する作業が 90% 完了した。同研究の計画は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、BCCWJ の書籍・雑誌データの結合比喩アノテーションについても着手した。 語義の距離を数値化する手法として、自然言語処理に基づく事前学習モデル BERT に基づく文脈化単語埋め込みモデルを導入した。具体的には『国語研日本語ウェブコーパス』250億語規模訓練した NWJC-BERT を構築し、BCCWJ に対する文脈化単語埋め込み情報を BERTed-BCCWJ として整備した。同データの構築により NLP2020 言語資源賞(言語資源協会・言語処理学会)を受賞した。今後、同データを用いた語義の類似度の検証を進める。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
指標比喩データベースについては BCCWJ コアデータ全体に対する作業が完了した。 結合比喩データベースについても順調に作業が進んでおり、2020年度中に新聞記事データの整備が完了することが見込まれる。
|
今後の研究の推進方策 |
2020年度は結合比喩データベースの整備をさらに進める。 また指標比喩データベースに関する論文を執筆する。
|
次年度使用額が生じた理由 |
人件費・クラウドソーシング調査費が当初予定より少なく済んだため。
|