2022 Fiscal Year Annual Research Report
日本語コーパスに対する単語心象性情報付与とその利用
Project/Area Number |
22H00663
|
Allocation Type | Single-year Grants |
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | コーパス / 印象評定 |
Outline of Annual Research Achievements |
準備段階で計算機用日本語基本辞書IPALに含まれる用言(形容詞・形容動詞・最重要動詞、計530語)の全文型の例文 5125例を刺激として印象評定情報(自然さ・わかりやすさ・古さ・新しさ・比喩性)のデータを収集した。印象評定は 0(まったく違う)-5(そう思う) の6段階評定で、Yahoo! クラウドソーシングにより大規模に収集した。同内容は、計量国語学会論文誌「計量国語学」に論文発表を行った。 さらに『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌・教科書を刺激として印象評定情報のデータを短単位動詞(38,004表現)・長単位(122,173表現)・文節単位(135,342表現)で収集した。同内容を言語処理学会年次大会にて発表した。2022年度は同内容の論文執筆を進めた。 日本経済新聞社と交渉した結果、日本経済新聞社より2013年1-2月の96記事からなる『日本経済新聞社オープンコーパス』が2023年3月に公開された。公開に際しては、形態論情報・文節係り受け情報・Universal Dependencies に基づく単語係り受け情報の整備について協力した。同データに対する印象評定情報収集(文節10,627表現・長単位自立語11,074表現・各表現20人・異なり3499人・延べ434,160人)を収集した。さらに自己ペース読文法による文節読み時間収集を2023年3月に実施した(異なり 585人・延べ 6828人)。印象評定情報と読み時間の対照分析により、自然さ・わかりやすさ・比喩性の高い表現において読み時間が短くなることを確認し、同内容の国内会議発表準備を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
科研費採択前の準備段階においてIPAL辞書例文・『現代日本語書き言葉均衡コーパス』の収集が進められたため。さらに科研費採択後、追加で『日本経済新聞記事オープンコーパス』を刺激としたデータについても収集できたため。
|
Strategy for Future Research Activity |
収集されたデータの統計分析を進め、国際会議や論文誌における発表を進める。
|