2019 Fiscal Year Research-status Report
Figurative Expression Extraction from Corpora and Analysis
Project/Area Number |
18K18519
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | コーパス / 比喩表現 |
Outline of Annual Research Achievements |
指標比喩については『現代日本語書き言葉コーパス』(BCCWJ) コアデータ(Yahoo! 知恵袋、白書、Yahoo! ブログ、書籍、雑誌、新聞)全体に言語学の専門家によるタグ付け作業が完了した。同研究は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、クラウドソーシングに基づく質問紙調査により非専門家の評定値を取得した。具体的には比喩性・新奇性・わかりやすさなどの観点について6件法による調査を行った。さらに、同調査を中村(1977)の用例および IPAL 辞書中の動詞・形容詞の結合についても調査を行った。今後対照分析を進める。 結合比喩については、BCCWJ 新聞データに対する作業が 90% 完了した。同研究の計画は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、BCCWJ の書籍・雑誌データの結合比喩アノテーションについても着手した。 語義の距離を数値化する手法として、自然言語処理に基づく事前学習モデル BERT に基づく文脈化単語埋め込みモデルを導入した。具体的には『国語研日本語ウェブコーパス』250億語規模訓練した NWJC-BERT を構築し、BCCWJ に対する文脈化単語埋め込み情報を BERTed-BCCWJ として整備した。同データの構築により NLP2020 言語資源賞(言語資源協会・言語処理学会)を受賞した。今後、同データを用いた語義の類似度の検証を進める。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
指標比喩データベースについては BCCWJ コアデータ全体に対する作業が完了した。 結合比喩データベースについても順調に作業が進んでおり、2020年度中に新聞記事データの整備が完了することが見込まれる。
|
Strategy for Future Research Activity |
2020年度は結合比喩データベースの整備をさらに進める。 また指標比喩データベースに関する論文を執筆する。
|
Causes of Carryover |
人件費・クラウドソーシング調査費が当初予定より少なく済んだため。
|