2000 Fiscal Year Annual Research Report
大規模テキストデータに基づく名詞意味辞書の構築及び自然言語理解における利用
Project/Area Number |
12780282
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
宇津呂 武仁 豊橋技術科学大学, 工学部, 講師 (90263433)
|
Keywords | 自然言語処理 / 意味辞書 / コーパス / 語彙知識獲得 / 自然言語理解 / 固有表現 / 名詞の意味表現 / 意味的曖昧性解消 |
Research Abstract |
本研究では,実用的規模の言語テキストに対して,これまでよりも深いレベルの意味理解を高性能に行うことを目的として,名詞の意味・用法をより深いレベルで記述した意味辞書を,大規模テキストデータから半自動的に構築する手法の研究を行った.本年度の研究項目は次の2点である. 1.実際の言語テキストデータにおける語の用法を計算機で解析し,人間は意味辞書記述のために必要な最小限の判断を下すにとどめるというアプローチにより,辞書記述者の作業コスト及び主観の混入をできるだけ抑えた名詞意味辞書構築手法を開発した. 2.名詞意味辞書の利用法の一つとして,構築された名詞意味辞書を用いて名詞固有表現の意味表現を付与する手法を開発した. まず,第1点については,名詞意味辞書の種となる初期意味知識を与え,その初期意味知識,および,大規模テキスト中から抽出された統計的共起情報を用いて,ブートストラップ的に名詞意味辞書を拡張していく方式について研究を行なった.名詞意味辞書構築において有用と考えられる共起関係としては,i)名詞と動詞・形容詞との共起,及び,ii)複合名詞,名詞-助詞相当句-名詞(「名詞_1の名詞_2」,「名詞_1のための名詞_2」,「名詞_1による名詞_2」など)といった名詞二語の共起に着目し,これらの共起情報を最大限に活用して名詞意味辞書を効率よく構築する方式の調査を行なった.また,種として与える初期意味知識の量・質と意味辞書構築の効率の相関関係の分析を行なった. 第2点については,教師あり学習により名詞固有表現を抽出するプログラムを学習する際に,第1点において構築された名詞意味辞書を有効に活用することにより,抽出される固有表現の豊富な意味表現を同時に付与する方式について研究を行なった.
|
Research Products
(11 results)
-
[Publications] Takehito Utsuro: "Analyzing Dependencies of Japanese Subordinate Clauses based on Statistics of Scope Embedding Preference"Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics. 110-117 (2000)
-
[Publications] Takehito Utsuro: "Learning Preference of Dependency between Japanese Subordinate Clauses and Its Evaluation in Parsing"Proceedings of the 2nd International Conference on Language Resources and Evaluation. 583-590 (2000)
-
[Publications] Takehito Utsuro: "Minimally Supervised Japanese Named Entity Recognition : Resources and Evaluation"Proceedings of the 2nd International Conference on Language Resources and Evaluation. 1229-1236 (2000)
-
[Publications] 宇津呂武仁: "言語コーパスをより有効に使うために"情報処理. 41・7. 787-792 (2000)
-
[Publications] Manabu Sassano: "Named Entity Chunking Techniques in Supervised Learning for Japanese Named Entity Recognition"Proceedings of the 18th International Conference on Computational Linguistics. 705-711 (2000)
-
[Publications] 颯々野学: "統計的日本語固有表現抽出における固有表現まとめ上げ手法とその評価"情報処理学会研究報告. 2000-NL-139. 1-8 (2000)
-
[Publications] 宇津呂武仁: "ブートストラップによる低人手コスト日本語固有表現抽出"情報処理学会研究報告. 2000-NL-139. 9-16 (2000)
-
[Publications] 小玉康広: "複数の音声認識システムの出力の共通部分を利用した確信度"日本音響学会2001年春季研究発表会講演論文集. I. (2001)
-
[Publications] 小玉康広: "複数の音声認識システムの出力の共通部分を用いた認識誤り検出"言語処理学会第7回年次大会論文集. (2001)
-
[Publications] 黒川和也: "コーパスを利用した日本語機能表現学習教材作成支援"言語処理学会第7回年次大会論文集. (2001)
-
[Publications] Robert Dale: "Handbook of Natural Language Processing"Marcel Dekker Inc.. 943 (2000)