2002 Fiscal Year Annual Research Report
自発音声データに対する多元的アノテーション情報のXML化に関する研究
Project/Area Number |
14510638
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門・第2領域, 領域長 (20173693)
|
Co-Investigator(Kenkyū-buntansha) |
籠宮 隆之 独立行政法人国立国語研究所, 研究開発部門・第2領域, 特別奨励研究員
菊池 英明 早稲田大学, 人間科学部(H14年9月以降), 専任講師
小磯 花絵 独立行政法人国立国語研究所, 研究開発部門・第2領域, 研究員 (30312200)
|
Keywords | XML / コーパス / 自発音声 / 話し言葉 / 『日本語話し言葉コーパス』 |
Research Abstract |
自然言語は「談話>文句>語>音節>モーラ>音素」の様な階層構造をなしているというのが現代言語学の基本的な仮定である。この仮定は書き言葉にはよくあてはまる。しかし、自発音声には、様々な理由によって、明瞭な階層構造を認定しがたいケースが頻出する。本研究にとって最重要であるのは、この破綻にどのような類型が存在するかを、データに基づいて検討することである。計画初年度にあたる本年は、1999年以来我々が開発を進めてきている『日本語話し言葉コーパス』に含まれるデータを利用して、この検討をおこなった。また、その成果に立脚して、『日本語話し言葉コーパス』に含まれる種々の研究用付加情報をXMLによって効率的に検索するための、実装方式の概念設計をおこない、一部試験的に情報検索実験を実施した。 その結果、話し言葉の音声、種々のタグを含む書き起こしテキスト、分節音ラベル、イントネーションラベルを、一括してXMLによって表現することが可能となった。しかし、複雑な検索を実施すると検索に要する時間が著しく増大することも判明した。その原因の一部は検索に利用したJavaプログラムにあると考えられるが、今回使用したXMLの設計自体にも改良の余地があると思われる。 来年度は、より効率的な検索を可能にするXML実装方式を検討し、『日本語話し言葉コーパス』のデータを実際にXML化する作業を実施する。
|
Research Products
(6 results)
-
[Publications] K.Maekawa: "Design, compilation, and preliminary analyses of the Corpus of Spontaneous Japanese"Proceedings of the NTT-Stanford workshop on concept and language processing. 1. 13-14 (2002)
-
[Publications] K.Maekawa, H.Kikuchi, Y.Igarashi,, J.Venditti: "X-JToBI: An extended J ToBI for spontaneous speech"Proceedings of the 7th International Conference on Spoken Language Processing (ICSLP2002), Denver, Colorado USA. 3. 1545-1548 (2002)
-
[Publications] 前川喜久雄: "話し言葉コーパスの利用可能性"日本研究的深化与拓展. 1. 46-47 (2002)
-
[Publications] 菊池英明, 前川喜久雄: "自発音声韻律ラベリングスキームX-JToBIによるラベリング精度の検証"日本音響学会2002年秋季研究発表会講演論文集. 1. 259-260 (2002)
-
[Publications] 菊池英明, 前川喜久雄: "自発音声韻律ラベリングスキームX-JTbBIの能力検証"人口知能学会研究会SIG-SLUD. A-202-06. 33-36 (2002)
-
[Publications] 前川喜久雄: "『日本語話し言葉コーパス』を用いた言語変異研究"音声研究. 6・3. 48-59 (2002)