2014 Fiscal Year Annual Research Report
意味の対応付けによる辞書資源群の多言語セマンティックWeb化
Project/Area Number |
25280117
|
Research Institution | Waseda University |
Principal Investigator |
林 良彦 早稲田大学, 理工学術院, 教授 (80379156)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 恒昭 東京大学, 総合文化研究科, 教授 (60334299)
岩根 久 大阪大学, 言語文化研究科(研究院), 教授 (50176559)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | j情報資源の構築・管理 / 意味属性 / 意味的類似度 / セマンティックWeb / リンクデータ |
Outline of Annual Research Achievements |
本研究課題の2年目の平成26年度は,主に以下の課題に取り組んだ. (1) 異言語間の概念対応付けの基本方式の評価と対応関係分類のためのデータ作成: 昨年度に実現した基本方式 (概念を規定する同義語集合間の翻訳的対応付けを確率的に評価した類似度と概念の定義・説明文の言語横断的類似度を重み付き和として統合する)の評価を大規模に進めるため,また,得られた対応関係をさらに分類するための学習データとして,評価・評定データを作成した.この過程では,作業者との密なディスカッションにより,評定基準および分類体系を定めた. (2) 異言語間の概念対応付けの他言語展開: これまでは,日本語概念から英語語彙概念への対応づけを研究してきたが,これを他言語に展開する方法について検討を進めた.まず,上記の逆方向(英語から日本語)の対応付けの実装を行い,概ね良好な結果を得ることができたが,語尾や複合語などの言語固有の問題が明らかっとなった.一方で,フランス語言語学を専門とする分担者(岩根・大阪大)の協力を得て,フランス語の意味資源(Wolf)に関する調査・分析を進めた. (3) 異言語文間の意味的類似度の検討: 上記の概念の定義・説明文間の類似度を高度化するために必要となる異言語文間の意味的類似度の検討を進めた.機械翻訳の影響のほか,各種の言語属性の有効性を評価した.また,文における総合的な単語の対応付け(アライメント)を求めることにより,単言語の場合と比べてデグレードが比較的少ない手法を得ることができた.(国内会議発表2件) (4) 動詞概念の対応付けに関する基礎検討: 動詞概念の分析に関して知見を有する分担者(加藤・東大)とともに,EDR電子化辞書における動詞概念の記述や構造上の配置に関する課題を明らかにした.この結果をもとに,加藤を代表者とする新たな研究課題を提案した(挑戦的萌芽研究採択).
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題の計画書においては,初年度~2年度目(平成25~26年度)には,(1) 対応付けの機械学習の基盤の確立,(2) 心理的な意味属性の拡張方式の高度化,(3) RDFによる情報構造化の基本方針を確立する予定と記述していた.これらのうち,(1)については学習データの整備,および,サポートベクトル回帰による基本性能の確認にとどまり,(2)については,基本方式の検討にとどまっている.その一方,(3) については基本方針の策定まで終わっており,さらには,従来は独立した課題とはしていなかった「異言語文間の意味的類似度の高度化」であるが,方式全体における重要性に鑑みて,集中的に検討を進めた結果,良好な結果を得ることができた.よって,総合的には,「やや遅れている」程度と自己評価する.
|
Strategy for Future Research Activity |
本年度は以下の4項目を推進する. (1) 機械学習による対応付け関係の分類: 昨年度構築した日本語(EDR電子化辞書)から英語(Princeton WordNet)への対応付けの評定・分類データをもとに,対応付けの関係(同義,類義,上位・全体,下位・部分,述語項構造)を推定する方法を具体化する.ここでは,本年度に一定の成果を得た異言語文間の意味的類似度の計算方式の適用評価も合わせて行う.よって,実験データの整理・評価のために人件費・謝金の支出を見込む. (2) 心理学的意味属性の拡張に関する検討: これまでの成果である意味的類似度の計算手法を適用し,さらに画像などの非言語的な情報をも統合することにより,被験者実験により得られている既存の心理学的な意味属性を拡張する方法論について研究を進める.このため,基本データや実験結果の整理・評価のために人件費・謝金の支出を見込む. (3) 言語ペアに依存する対応付けの差異の分析と多言語化: 日本語,英語を対象としたこれまでの結果から,特に動詞的概念の対応付けが困難であることが分かった.分担者(加藤・東大)と協力し,特に動詞の態やアスペクトに注目して,言語間の共通性と差異を明らかにする属性を検討する.フランス語の意味資源(Wolf)を対象に加える件について,分担者(岩根・阪大)の協力を得つつ,まず同義語集合の翻訳的適合度の計算手法の検討を進める. (4) 対応付けデータのLinked Data化の試行: 以上により,得られた・得られる対応付けのデータをLinked Data化として公開(publish)する方式を試行する.すでに,情報構造についての基本検討は終えているが,今後の普及・展開が予想されるlemonへの準拠を詳細化する.本作業はセマンティックWeb技術,プログラミングに精通した協力者(学生を想定)の協力を仰ぐため,その謝金を計上する.
|
Causes of Carryover |
平成26年度は,日本語から英語への対応付けに関して,対応の関係分類を含めて評定データの作成を進めた.この作業においては,対応付けの成否の基準だけでなく,実際に作業可能な関係タイプの体系を作業者と密に議論しながら進める必要があったため,当初の予定よりも少ない作業量となった.また,心理学的な意味属性の展開については,基本検討に予想以上の時間を要したため,評価・評定を行うべき実験結果データを生成することができなかった.
|
Expenditure Plan for Carryover Budget |
平成26年度までの経験により,作業基準はある程度定まったので,平成27年度はより大規模,かつ,日本語・英語以外の言語へ展開した実験データの生成が可能であると考えている.これに応じて,評価・評定の対象となるデータの量も大幅に増加するため,そのための人件費・謝金の使用を見込む.また,これらの過程を通して,品質的に確認できた対応付けについては,実際にLinked Dataを作成し,公開 (publish) するための準備を進めていく.このためのプログラミングやデータ精錬作業のために謝金の使用を見込む.
|