Project/Area Number |
13F03303
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Japanese linguistics
|
Research Institution | Osaka University (2014) National Institute for Japanese Language and Linguistics (2013) |
Principal Investigator |
田中 牧郎 (2013) 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授
|
Co-Investigator(Kenkyū-buntansha) |
ホドシチェク ボル 大阪大学, 言語文化研究科(研究院), 講師 (10748768)
HODOSCEK Bor 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 外国人特別研究員
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Project Status |
Completed (Fiscal Year 2014)
|
Budget Amount *help |
¥1,600,000 (Direct Cost: ¥1,600,000)
Fiscal Year 2014: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2013: ¥500,000 (Direct Cost: ¥500,000)
|
Keywords | コーパス / レジスター / 通時的研究 / 近代日本語 / 現代日本語 / ジャンル / メタデータ / データマイニング |
Outline of Annual Research Achievements |
「コーパスによる日本語のレジスターモデルの研究」では、明治時代から現代までの電子化データ(コーパス)におけるレジスター(特定の場面に使用される言語変種)の実態をモデル化し、検索可能にすることを目的とした。 レジスターのモデルを確立するために(1)『現代日本語書き言葉均衡コーパス』(BCCWJ)を用いて、レジスター分析に有効なメタデータ(各テキストの書誌情報:性別、メディア、ジャンルなど)を検出するデータマイニング手法を提案した。その結果、従来研究でよくレジスター比較のベースとなる書籍、雑誌、掲示板などといったメディアのラベル以外にもトピックや出版対象を表すメタデータが有効であることを確認した。また、(2)レジスターの言語特徴を通時的に研究するための中間語彙層に基づいたコーパス比較の手法を提案した。中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。すなわち、特有のトピックに依存せず機能語でもない「中位語」を採用することで、この手法はより多くの通時的データに当てることができた。さらに、(3)日本語の複雑な表記システムにおけるレジスターの差異を計算可能にできる日本語の語彙特徴のオントロジー(概念大系)を試作した。 レジスターを通時と共時の側面から分析できるウエブベースのシステムは、上記の手法・モデルをBCCWJと『太陽コーパス』『明六雑誌コーパス』など明治時代を表すコーパスに当てて開発を行い、時代とレジスターを加味した検索方法が可能となった。
|
Research Progress Status |
26年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
26年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(7 results)