研究課題/領域番号 |
14510638
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
言語学・音声学
|
研究機関 | 独立行政法人国立国語研究所 |
研究代表者 |
前川 喜久雄 独立行政法人国立国語研究所, 研究開発部門・第2領域, 領域長 (20173693)
|
研究分担者 |
塚原 渉 電気通信大学, 大学院・情報システム学研究科, 助手
菊池 英明 早稲田大学, 人間科学部, 講師 (70308261)
小磯 花絵 独立行政法人国立国語研究所, 研究開発部門・第2領域, 研究員 (30312200)
米山 聖子 大東文化大学, 外国語学部, 講師 (60365856)
籠宮 隆之 独立行政法人国立国語研究所, 研究開発部門第2領域, 特別奨励研究員
|
研究期間 (年度) |
2002 – 2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,900千円)
2003年度: 1,200千円 (直接経費: 1,200千円)
2002年度: 2,700千円 (直接経費: 2,700千円)
|
キーワード | XML / 日本語話し言葉コーパス / 自発音声 / コーパス / 話し言葉 / 『日本語話し言葉コーパス』 |
研究概要 |
自然言語は「談話>文句>語>音節>モーラ>音素」の様な階層構造をなしているというのが現代言語学の基本的な仮定である。この仮定は書き言葉にはよくあてはまる。しかし、自発音声(自然な話し言葉)においては、様々な理由によって、明瞭な階層構造を認定しがたいケースが頻出する。本研究の目的は、この破綻にどのような類型が存在するかを『日本語話し言葉コーパス』に記録された膨大なデータを用いて検討し、そのような破綻を含む言語データをXML文書化する方法を考案することである。 初年度には『日本語話し言葉コーパス』の転記テキストにおいて階層構造の破綻がどのように生じているかの類型化作業をおこない、一部試験的にXML文書化を実施した。本最終年度は、昨年度の成果を継承して、XML文書の仕様を確定し、『日本語話し言葉コーパス』に含まれる752万語分の転記テキスト(音声データ661時間分に該当)と形態素解析結果をXML文書化した。そのうち約50万語(44時間相当)に関しては、上記に加えて分節音とイントネーションの両面にわたる音声ラベルもXML文書中にとりこんだ。 このようにして作成されたXML文書は、複雑な構造(最大で10階層、17要素、208属性)を有しているので、その検索は容易でない。そこで『日本語話し言葉コーパス』用のXML文書検索ツールを開発した。このツールは、GUIを介して検索式(XPathないしX-Query)を生成する機能とともに、検索結果をXSLでフォーマットしてユーザーが望む形式で出力する機能を有している。本ツールはJAVAで開発されているので、主要なOS上で利用できる。 本研究の成果である『日本語話し言葉コーパス』のXML文書と検索ツールは『日本語話し言葉コーパス』公開版の一部として2004年6月上旬に一般公開する予定である。
|