2003 Fiscal Year Annual Research Report
自然言語処理におけるインターネットコーパスの応用に関する研究
Project/Area Number |
14580411
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古郡 廷治 電気通信大学, 電気通信学部, 教授 (80114932)
|
Keywords | 自然言語処理 / インターネットコーパス / 情報抽出 / 複合語処理 / 自動要約 |
Research Abstract |
インターネット上には情報が氾濫している。ネット上の情報(テキスト情報)は、統計や例示に基づく自然言語処理をするとき、有用な言語資となり得る。 本研究は、機械翻訳支援、自動要約、情報抽出などの言語情報処理に必要な文や単語の意味分析、構造分析にネット上のテキスト情報を利用する実験を行い、その有用性の検証を試みたものである。ここでは、機械翻訳の支援システムをつくる研究に、ネット上にある類例(文)を検索して使い、より自然な翻訳文をつくるための実験を行った。一方、情報検索、自動要約などで不可欠となる複合語の単位語(構成要素)への分割とその構造分析に、統計的に単語の結合度を測って要素間の依存関係を明らかにするために、インターネットコーパスを使った。いずれの研究においても、インターネット上のテキストデータの有効性が認められた。 言語の統計処理には常にデータの希薄性の問題がある。信頼性の高い処理結果を得るには、特定の言語現象が例外ではなく規則であることを証明する必要がある。我々の実験は、インターネット上にある"無限"のテキストデータの利用価値が高いことを証明したが、同時に、精度の高い言語分析をするうえでは、インターネットコーパスにも問題点のあることも浮き彫りにしている。実験結果には、テキストに定型性がないことや、データの質に問題があることからくると思われる難点も見受けられた。その点で、インターネットコーパスの利用には、ノイズデータを除去する技術も必要である。
|
-
[Publications] Dongli Han, Takeshi Ito, Teiji Furugori: "Structural Analysis of Compound Words in Japanese Using Semantic Dependency Releations"Journal of Quantitative Linguistics. Vol.9, No.1. 1-17 (2002)
-
[Publications] Teiji Furugori, Lin Rihua, Takeshi Ito, Dongli Han: "Information Extraction and Summarization for Newspaper Articles on Sassho-Jiken"IEICE Trans.. Vol..E86-D, No.9. 1728-1735 (2003)
-
[Publications] 韓東力, 伊藤毅志, 古郡廷治: "要素間の依存関係に基づく複合語の構造分析"電子情報通信学会論文誌. Vol.J86-D-(監), No.5. 706-714 (2003)
-
[Publications] Dongli Han, Takeshi Ito, Teiji Furugori: "A deterministic method for structural analysis of compound words in Japanese"Proc.of the 16th Pacific Asia Conference on Language, Information and Computation. 79-91 (2002)
-
[Publications] Dongli Han, Takeshi Ito, Teiji Furugori: "Rewriting Japanese compound nouns into expressions useable effectively in machine translation system"Proc.of 2002 IEEE International Conference on System, Man and Cybernetics. (CD-ROM)WA2E4. 6 (2002)
-
[Publications] Sawa Takakura, Takeshi Ito, Teiji Furugori: "TransAid : a writer's aid system for translating Japanese into English"Proc.of 2002 IEEE International Conference on System, Man and Cybernetics. (CD-ROM)WA2E3. 6 (2002)
-
[Publications] Sawa Takakura, Dongli Han, Teiji Furugori: "An experiment for determining semantic relations between main and subordinate clauses in complex sentences"Proc.of Winter International Symposium on Information and Comunication Technolog. (2004)