2015 Fiscal Year Research-status Report
近代語コーパスに対する統語情報アノテーションの基準策定
Project/Area Number |
15K12888
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 准教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
中田 節子 (有田節子) 立命館大学, 言語教育情報研究科, 教授 (70263994)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | 近代語 |
Outline of Annual Research Achievements |
H27年度は明六雑誌データ6記事に対して、係り受けアノテーションおよび述語項構造アノテーションを試行的に実施した。係り受けにおいては、新たに「係り結び」ラベルを規定した。述語項構造アノテーションについては、近代語の格表示なしのものに対して、ガ・ヲ・ニを付与することを行った。 また、より難解なテキストとして、西田幾多郎「善の研究」の入力作業(旧字旧仮名)を実施し、形態論情報(UniDic 品詞体系・短単位)を付与した。 節境界情報として、鳥バンク互換のアノテーションを「現代日本語書き言葉均衡コーパス」の新聞記事データに付与して、基準の検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
小規模ではあるが、形態論情報・係り受け・述語項構造・節境界の情報を横断的に付与し、問題点について明らかにした。
|
Strategy for Future Research Activity |
係り受け・述語項構造アノテーションについては、コーパスコンコーダンサ「ChaKi.NET」を用いて可視化して配布する。 節境界については、現代語から近代語コーパスへの拡張を進める。 また統語情報については一定の目途が立ったために、分類語彙表の通時的アノテーションなど、意味情報アノテーションも視野に入れて作業を進める。
|
Causes of Carryover |
近代語作業に精通した有能な作業者を確保できたために想定より低コストでアノテーション作業が済んだため。
|
Expenditure Plan for Carryover Budget |
統語論情報のみならず、意味論情報も含めたアノテーションを進める。 具体的には分類語彙票番号アノテーションなどを進める。
|
-
[Presentation] Universal Dependencies for Japanese2016
Author(s)
Takaaki TanakaYusuke MiyaoMasayuki ASAHARASumire Uematsu, Hiroshi Kanayama, Shinsuke Mori, Yuji Matsumoto
Organizer
Proceedings of LREC 2016
Place of Presentation
Portorož (Slovenia)
Year and Date
2016-05-25
Int'l Joint Research
-
-
-