研究課題/領域番号 |
17H00917
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
日本語学
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
研究分担者 |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
市村 太郎 京都府立大学, 文学部, 准教授 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 教授 (30508502)
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
近藤 明日子 東京大学, 人文社会系研究科, 助教 (30425722)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
42,900千円 (直接経費: 33,000千円、間接経費: 9,900千円)
2021年度: 8,580千円 (直接経費: 6,600千円、間接経費: 1,980千円)
2020年度: 8,580千円 (直接経費: 6,600千円、間接経費: 1,980千円)
2019年度: 8,970千円 (直接経費: 6,900千円、間接経費: 2,070千円)
2018年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2017年度: 7,150千円 (直接経費: 5,500千円、間接経費: 1,650千円)
|
キーワード | 分類語彙表 / Universal Dependencies / 日本語学 / 言語学 / 情報図書館学 / 認知科学 / 自然言語処理 / コーパス / アノテーション / 国語学 / 情報工学 / 係り受け |
研究成果の概要 |
本研究では『日本語歴史コーパス』の平安~明治初期の資料に対して分類語彙表番号アノテーションを進め、64万語規模のデータを構築した。『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌に対する分類語彙表番号アノテーションデータ 34万語とともに合わせて、おおよそ 100万語規模の語義ラベルつきデータをを構築した。 さらに日本語の統語構造データの基準として Universal Dependencies の言語資源の整備をつづけた。Universal Dependencies の団体との基準の協議を進めるとともに、日本語分かち書きの問題について新しい基準を提案した。
|
研究成果の学術的意義や社会的意義 |
本研究の意義は、既存の形態論情報タグつきデータに対して『分類語彙表』体系に基づいて単語の意味ラベルを付与したことにある。海外の取り組みをみても、古典-現代を通して 98万語規模の単語の意味ラベルがついたデータは類を見ない。 さらに統語的な研究として、日本語 Universal Dependencies の基準の検討を進めた。特に日本語の分かち書きの問題について取り組み、新しい分かち書きの基準について提案を行い、国際会議にて発表した。
|