研究課題/領域番号 |
17K18505
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
研究分担者 |
藤本 灯 京都府立大学, 文学部, 講師 (20733017)
大西 拓一郎 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30213797)
新野 直哉 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (30218086)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (90415612)
|
研究期間 (年度) |
2017-06-30 – 2020-03-31
|
キーワード | 古辞書 / 言語地図 / 言語記事 / 学術文献 |
研究実績の概要 |
1.データベースを構成するデータのうちの1つである古辞書のデータについては,『二十巻本和名類聚抄』の和訓に対して形態素解析用辞書のUniDicから,語彙素,語彙素読み,品詞,語種,語彙素IDの情報を付与した。形態論情報を付与する際の問題点として,以下の未登録語の問題がある。(1)UniDicに類似の語形の語がある場合。和名抄で「箒星(ハハキボシ)」だが,UniDicでは「箒星(ホウキボシ)」の場合,同一の語彙素の範囲にあるとして扱った。(2)和訓を分解すればUniDicに登録がある場合。和名抄「野分の風(ノワキノカゼ)」はこのままの形ではUniDicに登録がないが,「野分」「の」「風」に分解すれば登録されているため,分解してそれぞれの形態論情報を付与した。(3)和名抄の「奴(ツブネ)」(召使いの意味)は,UniDicになく,要素への分解も不可能のため,形態論情報が付与できなかった。和訓があっても形態論情報が付与できなかった例は,全5731レコード中約1200箇所であった(和訓の一部である場合も含む)。言語地図DBは,2019年1月時点「言語地図画像データベース」で公開している19冊の言語地図集の項目に対して形態論情報を付与した。レコード数は1654である。言語記事DBは,『読売新聞』大正2,6年,及び『文藝春秋』大正12~昭和20年に現れた言に関する記事をデータベースとしてまとめた。 2.佐藤喜代治編『語彙研究文献語別目録』(1983年明治書院刊)を著作権継承者の承諾を得て,データベース化した。今後,ウェブ上で公開する予定である。 3.上記1で整備したデータと「日本語歴史コーパス」「現代日本語書き言葉均衡コーパス」からの統計情報も検索できるようにした語誌データベースのサイトを3月に内部公開した。(https://goshidb.ninjal.ac.jp/goshidb/)
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の目的の1つである学術用語のオントロジー化が送れているため。
|
今後の研究の推進方策 |
内部公開した語誌データベースのサイトのコンテンツを充実させるとともに,学術用語のオントロジー化のための基礎作業を急ぐ。
|
次年度使用額が生じた理由 |
学術用語のオントロジー化が予定よりかなりに遅れているため,その分に予定していた作業にかかる費用が未使用になった。2019年度はその費用および試験公開を始めた語誌データベースのサイトのコンテンツの充実を図る。
|