研究課題/領域番号 |
19K00655
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
研究分担者 |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | シソーラス / 分類語違表 / 分類基準 / オープンデータ |
研究実績の概要 |
(1)『分類語彙表』の体系の見直しのための基本的な考えを整理した。現在の『分類語彙表』には、体系上の制約から番号を付与出来ない語がある。代表的なものは助詞・助動詞などの機能語である。機能語は複合辞を含めるとかなりの量になり、分類項目として適切に位置付ける必要がある。また、多くの固有名詞が収録されていないが、固有名詞を収録するとしたら、どのような処置が適切かなどを検討した。結果は、言語資源活用ワークショップ2020で発表した。(2)分類項目間の重複について。見出しと読みが一致するものを同語と考え、どの2つ分類項目によく現れるかを調査したところ、10語以上が重複する分類項目のペアが78組見つかった。これらのうち、どちらかの収録語をけずっても問題ないものがあるかを検討した。(3)語種情報の付与。見出し語9181項目に語種(和語、漢語、外来語、混種語、固有名詞、記号)の情報を付与した。一部の語は、「分類語彙表-LemmaID対応表」により、形態素解析用電子辞書UniDicの形態論情報の語種が付与できるが、『分類語彙表』には、UniDicには含まれていない長単位(以上)の語および慣用句があり、それらにも語種を付与した。(4)文体情報のための特徴語の情報を整理した。『現代日本語書き言葉均衡コーパス』、『日本語話し言葉コーパス』、『日本語日常会話コーパス』のコーパスを対象に、内山将夫他(2004)「英語教育のための分野特徴単語の選定尺度の比較」「自然言語処理」11(3),165-197で挙げられている、8つの指標(対数尤度比(LLR)、χ2値(Chi2)、イエーツ補正χ2値(Yates)、自己相互情報量(PMI)、コサイン(Cosine)、Dice係数(Dice)、補完類似度(CSM))を算出した。(5)昨年に引き続き、新語・新用法を近年発行された辞書等から抽出した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
複数の作業を同時並行で行ったため、それぞれが中途半端な状態になったため。また、研究発表の数が少なかったため。
|
今後の研究の推進方策 |
重点的に進める内容としては、新語・新用法の追加、および、意味的な差異が小さいと思われる項目について、どのような違いがあるか、場合によっては項目の整理も含めて検討することの2点である。
|
次年度使用額が生じた理由 |
情報付与作業を複数行う予定であったが、作業者の都合が付かず、発注を見送ったものがあったため。2021年度は、早い段階で作業の発注を行う。
|