本研究では、自然言語のもつ語義的曖昧性と構造的曖昧性の解消手法を提案し、その有効性を実験によって検証した。対象とした言語は、日本語、中国語、英語である。日本語では助詞「の」を複数回使うことによってできる名詞句の構造的曖昧性、中国語では単語分割の際に遭遇する分割上の曖昧性、英語では語義(word senses)的曖昧性の解消実験を行った。 曖昧性解消の手法は、単語の共起性や類似性にもとづいている。たとえば、I go to the bank to get money.には、bank(「銀行」と「土手」)は、「銀行」の意味をもつが、この文での特定の意味は、この文と類似の文脈(bankがmoneyやdepositやinterest companyなど一緒に使われたとき)で、bankがもつ意味と同じになると考えられる。この考えは、構造上の曖昧性を解く場合にも通じる。たとえば、「川の上流の村落」は、(川の(上流の(村落)))ではなく、(川の((上流の(村落))である。「川」は「村落」より、「上流」と強い共起性がある。 人間は、共起性や類似性に関する知識(常識)をもっている。しかし、その知識をコンピュータに与え、処理するのはむずかしい。ここでは、知識源を大規模なコーパスに求め、その中にみる単語の共起性や文脈の類似性を統計量にてつかむことにより曖昧性の解消を試みた。当該単語(構造)の意味(構造)は、それが使われている文脈と同様の文脈で与えられている意味(構造)と同じである。 本研究の成果はいくつかの雑誌論文と研究会論文として発表されている。
|