Supervised Word Sense Disambiguation Using Sense-definition Expansion and Sense Hierarchy
Project/Area Number |
22K12161
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Ibaraki University |
Principal Investigator |
佐々木 稔 茨城大学, 理工学研究科(工学野), 准教授 (60344834)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 自然言語処理 / 語義曖昧性解消 / 機械学習 / 知識表現 |
Outline of Research at the Start |
多義語に対して最も適切な語義を割り当てる語義曖昧性解消システムにおいて、辞書の語義定義文やシソーラスの情報を組み合わせた教師あり学習モデルが注目されている。しかし、既存手法では低頻度語義の識別精度が低いことや日本語辞書の短い語義定義文が課題であった。そこで、語義定義文に補足する文を追加することで語義の特徴を捉えられるのではないか、訓練データの用例文不足と不均衡な状況下でも語義階層の利用で精度改善可能ではないかとして、国語辞典とシソーラスの情報を統合した語義曖昧性解消システムの開発を行う。これにより、語義の階層性情報の活用と語義定義文の拡張による日本語語義曖昧性解消システムの精度向上を実証する。
|
Outline of Annual Research Achievements |
語義曖昧性解消において、教師あり学習モデルにシソーラスの情報と国語辞典の情報を両方組み込んだ効果的な語義曖昧性解消システムの開発を目的としている。そのシステムの開発に向け、国語辞典で記述される語義の定義文やシソーラスを用いて、ベクトルで表現された語義の識別に有効な特徴の抽出を行う。今年度はそのために必要な3件の研究、語義間関係判定、語義定義文の分析、語義曖昧性解消システムの改善について実施した。 日本語辞書における語義の階層関係や類義関係を判定することができるモデルの開発を行なった。国語辞典の定義文と語義間関係を記述した知識データを利用して、判定モデルの学習を行ったところ、語義や類義関係を効果的に判定するモデルを構築することができた。 英語の辞書では、同じ接尾辞を持つ単語の語義定義文は接尾辞の説明文が同じパターンで記述されるため、接尾辞の影響が強いベクトルを生成する傾向がある。その問題に対処するために、単語の語義定義文に含まれる語基をその語基の定義文に置き換えて得られた語義ベクトルの性質を分析した。分析の結果、定義文を書き換えて得られた語義ベクトルは、用例文中の同じ単語のベクトルとの類似度が高い傾向があったため、定義文を修正することが有効であることが明らかとなった。 語義曖昧性解消モデルについても英語辞書であるWordNet3.0に記述されている語義の用例文を効果的に使用するための手法を開発した。実験の結果、語義の用例文を用いて語義の埋め込み表現を学習した場合、ひとつの評価データセットにおいて僅かな精度向上を確認することができた。しかし、開発セットを含む5つの評価セットではF値が低下した。この結果より、語義曖昧性解消において語義の用例文を使用することはそれほど効果的ではないことが明らかになった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
語義曖昧性解消において、教師あり学習モデルにシソーラスの情報と国語辞典の情報を両方組み込んだ効果的な語義曖昧性解消システムの開発は概ね順調に進展している。このシステムを実現するために、語義間関係判定、語義定義文の分析、語義曖昧性解消システムの改善という3つのプロジェクトを実施し、多くの知見を得ることができたことが要因である。以下に3つのプロジェクトで得られた具体的な知見を説明する。 日本語辞書における語義の階層関係や類義関係を判定することができるモデルの開発を行なった。国語辞典の定義文と語義間関係を記述した知識データを利用して、判定モデルの学習を行ったところ、語義や類義関係を効果的に判定するモデルを構築することができた。 英語の辞書では、同じ接尾辞を持つ単語の語義定義文は接尾辞の説明文が同じパターンで記述されるため、接尾辞の影響が強いベクトルを生成する傾向がある。その問題に対処するために、単語の語義定義文に含まれる語基をその語基の定義文に置き換えて得られた語義ベクトルの性質を分析した。分析の結果、定義文を書き換えて得られた語義ベクトルは、用例文中の同じ単語のベクトルとの類似度が高い傾向があったため、定義文を修正することが有効であることが明らかとなった。 語義曖昧性解消モデルについても英語辞書であるWordNet3.0に記述されている語義の用例文を効果的に使用するための手法を開発した。実験の結果、語義の用例文を用いて語義の埋め込み表現を学習した場合、ひとつの評価データセットにおいて僅かな精度向上を確認することができた。しかし、開発セットを含む5つの評価セットではF値が低下した。この結果より、語義曖昧性解消において語義の用例文を使用することはそれほど効果的ではないことが明らかになった。
|
Strategy for Future Research Activity |
語義曖昧性解消において、教師あり学習モデルにシソーラスの情報と国語辞典の情報を両方組み込んだ効果的な語義曖昧性解消システムの開発は概ね順調に進展している。今後も引き続き、語義間関係判定、語義定義文の分析、語義曖昧性解消システムの改善という3つのプロジェクトを進めて、特徴抽出や語義識別などといった語義曖昧性解消に有効な手法を開発し、更に高い性能を持つ語義曖昧性解消システムの開発を推進する予定である。具体的には、辞書において効果的に記述を拡張した語義定義文の有効性を示すことが挙げられる。既存研究では語義定義文を記述内容のまま使用しており、短い語義定義文に対して類義語の語義定義文などを追加するなどの手法が有効かどうかを検証する。また、訓練データにおいて出現頻度の少ない語義の識別精度を改善するために、国語辞典における語義の階層情報を利用することで、語義曖昧性解消を高い精度で識別できるかを検証する。構築した語義曖昧性解消システムに対し、国語辞典における語義の階層情報が有効であることを検証する予定である。
|
Report
(1 results)
Research Products
(5 results)