2002 Fiscal Year Annual Research Report
自然言語処理におけるインターネットコーパスの応用に関する研究
Project/Area Number |
14580411
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古郡 廷治 電気通信大学, 電気通信学部, 教授 (80114932)
|
Keywords | 自然言語処理 / インターネットコーパス / 統計量 |
Research Abstract |
言語資源をもとにしたデータ主導型の言語処理は,特定の言語に依存することなく,普遍的な方法論を提供する。その一方で,統計的な処理をすることからデータの稀薄性の問題が生ずる。言語現象を解明するに十分なデータが得られなければ処理結果の信頼性は失われる。 本研究では,第一に,インターネット上のハイパーテキスト(インターネット・コーパス)を言語資源として使い,その内包する言語情報を抽出し,計量的な言語処理を行う言語解析モデルを提案した。第二に,実験を通し,その手法の有効性を検証した。第三に,言語資源としての通常のコーパスとインターネット・コーパスの比較優位性の評価をした。 日本語の複合語の構造分析,中国語の単語分割上でのあいまい性の解消,英語の単語の意味のあいまい性の解消等のモデル,実験結果では,インターネット・コーパスの言語資源としての有効性,有意性が明らかになった。
|
Research Products
(4 results)
-
[Publications] Han, D., Ito, T., Furugori, T.: "Structural Analysis of Compound Words in Japanese Using Semantic Dependency Relations"Journal of Quantitative Linguistics. Vol.9,No.1. 1-17 (2002)
-
[Publications] Han, D., Ito, T., Furugori, T.: "A Deterministic Method for Structural Analysis of Compound Words in Japanese"The 16th Pacific-Asia Conference on Language, Information, and Computation. 79-91 (2002)
-
[Publications] Peng, Q., Wu, H., Furugori, T.: "A Method for Similarity-based Lexical Disambiguation"Journal of Natural Language Processing. Vol.9,No.2. (2002)
-
[Publications] Han, D., Ito, T., Furugori, T.: "Rewriting Japanese Compound Nouns into Expressions Usable Effectively in Machine Translation Systems"IEEE SMC '02. (2002)