2003 Fiscal Year Annual Research Report
自発音声データに対する多元的アノテーション情報のXML化に関する研究
Project/Area Number |
14510638
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門第2領域, 領域長 (20173693)
|
Co-Investigator(Kenkyū-buntansha) |
塚原 渉 電気通信大学, 大学院・情報システム学研究科, 助手
菊池 英明 早稲田大学, 人間科学部, 講師 (70308261)
小磯 花絵 独立行政法人国立国語研究所, 研究開発部門第2領域, 研究員 (30312200)
籠宮 隆之 独立行政法人国立国語研究所, 研究開発部門第2領域, 特別奨励研究員
米山 聖子 大東文化大学, 外国語学部, 講師 (60365856)
|
Keywords | XML / 日本語話し言葉コーパス / 自発音声 |
Research Abstract |
自然言語は「談話>文句>語>音節>モーラ>音素」の様な階層構造をなしているというのが現代言語学の基本的な仮定である。この仮定は書き言葉にはよくあてはまる。しかし、自発音声(自然な話し言葉)においては,様々な理由によって、明瞭な階層構造を認定しがたいケースが頻出する。本研究の目的は、この破綻にどのような類型が存在するかを『日本語話し言葉コーパス』に記録された膨大なデータを用いて検討し、そのような破綻を含む言語データをXML文書化する方法を考案することである。 初年度には『日本語話し言葉コーパス』の転記テキストにおいて階層構造の破綻がどのように生じているかの類型化作業をおこない、一部試験的にXML文書化を実施した。本最終年度は、昨年度の成果を継承して、XML文書の仕様を確定し、『日本語話し言葉コーパス』に含まれる752万語分の転記テキスト(音声データ661時間分に該当)と形態素解析結果をXML文書化した。そのうち約50万語(44時間相当)に関しては、上記に加えて分節音とイントネーションの両面にわたる音声ラベルもXML文書中にとりこんだ。 このようにして作成されたXML文書は、複雑な構造(最大で10階層、17要素、208属性)を有しているので、その検索は容易でない。そこで『日本語話し言葉コーパス』用のXML文書検索ツールを開発した。このツールは、GUIを介して検索式(XPathないしX-Query)を生成する機能とともに、検索結果をXSLでフォーマットしてユーザーが望む形式で出力する機能を有している。本ツールはJAVAで開発されているので、主要なOS上で利用できる。 本研究の成果である『日本語話し言葉コーパス』のXML文書と検索ツールは『日本語話し言葉コーパス』公開版の一部として2004年6月上旬に一般公開する予定である。
|
Research Products
(7 results)
-
[Publications] 菊池英明, 前川喜久雄, 五十嵐陽介, 米山聖子, 藤本雅子: "『日本語話し言葉コーパス』の音声ラベリング"音声研究. 7(3). 16-26 (2003)
-
[Publications] 菊池英明: "XMLを利用した『日本語話し言葉コーパス』の検証と検索"平成15年度国立国語研究所公開研究発表会予稿集. 15-20 (2003)
-
[Publications] H.Kikuch, K.Maekawa: "Evaluation of the effectiveness of "X-JToBI" : A new prosodic labeling scheme for spontaneous Japanese speech."Proceedings of the 15^<th> International Congress of Phonetic Sciences. 1. 579-582 (2003)
-
[Publications] 菊池英明, 塚原渉, 前川喜久雄: "XMLを利用した『日本語話し言葉コーパス』(CSJ)の整合性検証"第3回話し言葉の科学と工学ワークショップ講演予稿集. 27-32 (2004)
-
[Publications] 塚原渉, 菊池英明, 前川喜久雄: "『日本語話し言葉コーパス』のXML検索環境"第3回話し言葉の科学と工学ワークショップ講演予稿集. 33-38 (2004)
-
[Publications] K.Maekawa, H.Kikuchi, W.Tsukahara: "Corpus of Spontaneous Japanese : Design, Annotation and XML Representation"Proceedings of the International Symposium on Large-scale Knowledge Resources(LKR2004). 19-24 (2004)
-
[Publications] K.Maekawa, H.Kikuchi: "Corpus-based analysis of vowel devoicing in spontaneous Japanese -An interim report-"J.van de Weijer, K.Nanjo, and T.Nishihara(eds.) Voicing in Japanese. The Hague : Mouton. (in press). (2004)