研究課題/領域番号 |
24320086
|
研究種目 |
基盤研究(B)
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
田中 牧郎 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (90217076)
|
研究分担者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・構造研究系, 准教授 (90415612)
山本 真吾 白百合女子大学, 文学部, 教授 (70210531)
藤原 浩史 中央大学, 文学部, 教授 (00219065)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 日本語史 / 古代語 / 語彙 / 文体的変異 / コーパス |
研究概要 |
和漢の両系統を統合できるような平安・鎌倉時代語のコーパスを作成するための基本問題である、(1)文献選定、(2)電子化とタグ付け、(3)形態素解析用の電子化辞書への語彙登録、の三点について、漢文資料と和漢混清文資料を対象に重点的な研究を行った。それらと並行して、(4)コーパスを活用することで開けてくる平安・鎌倉時代の語彙論的研究の新領域について、試作中のコーパスを用いて研究した。 (1)文献選定については、『今昔物語集』『宇治拾遺物語』等、すでに日本語史資料としてよく使われてきた和漢混清文の文学作品のほか、『日本霊異記』『続日本紀宣命』『高山寺本古往来』『法華百座聞書抄』『尾張国解文』『御堂関白記』『色葉字類抄』といった、従来じゅうぶん活用されてこなかった重要資料を選定し、電子化とタグ付けのための検討を行い、順次、資料の電子化に着手した。 (2)電子化とタグ付けについては、本科研費研究以前に進めてきた和文資料にはない問題に対処するため、特に、異体字処理、返読処理、補読処理、欠字処理などについて、その実態を観察して、電子化の基準を定め、タグセットを考案する研究を実施した。 (3)電子化辞書への語彙登録については、『今昔物語集』『宇治拾遺物語』などの和漢混清文の語彙の登録を進め、和漢の両系統のテキストに対応した形態素解析を実現する準備を進めた。 (4)コーパス化が先行している『今昔物語集』『宇治拾遺物語』など一部の試作データを用いて、どのような研究領域が新たに開拓できるのかについて、語彙論的な研究を展開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)文献選定、(2)電子化とタグ付け、(3)電子化辞書への語彙登録、いずれにおいても、問題点を明確にして具体的な作業を進めることができた。(4)についても、論点を定めた研究を行うことができた。これらの成果をもとに、2年次の計画を具体化することができており、研究の進捗は順調だと言える。
|
今後の研究の推進方策 |
平成24年度に選定し、電子化とタグ付けに着手し、解析用の電子化辞書への語彙登録を開始した諸資料について、その特性を生かしたコーパス作成を具体的に進めることに重点を置く。コーパスがある程度形をなした〓のについては、これを活用した研究例を示していく。
|