2015 Fiscal Year Annual Research Report
分散表現と構成的意味計算に基づくテキストと知識ベースの頑健なグランディング
Project/Area Number |
15H05318
|
Research Institution | Tohoku University |
Principal Investigator |
岡崎 直観 東北大学, 情報科学研究科, 准教授 (50601118)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / 言語資源 / 知識ベース |
Outline of Annual Research Achievements |
コンピュータが自然言語を理解・推論するには,与えられたテキストを計算機が蓄積している知識にグラウンディング(対応付ける)仕組みが不可欠である.今年度は,実体・概念や関係をグランディングするためのコーパスを構築し(研究項目③),そのコーパスを使った予備実験を行った(研究項目②). 実体・概念を知識ベースにグランディングするコーパスとして,BCCWJの新聞記事コーパスに含まれる固有表現をWikipedia記事に対応付けた正解データを構築した.このコーパスでは,340件の新聞記事に出現する約26,000件の実体・概念への言及の中で,対応するWikipedia記事が存在する約22,000件に対し,そのWikipedia記事IDを付与した.このコーパスを使った予備実験として,Wikipedia内リンク確率を用いた曖昧性解消器を開発したところ,約8割の正解率でグラウンディングできることを確認した.英語では同様のコーパスがすでに存在するが,日本語に対するコーパスを構築したのは本研究が初めてである.本コーパスが日本語の実体・概念の曖昧性解消器の開発に役立つのは勿論であるが,本タスクにおける言語や文化による差異の検証が深まると期待される. 関係を知識ベースにグランディングするためのコーパスとして,「increase the risk of」―「cause」など,関係パタンのペアの類似度に関するデータを作成した.このコーパスでは,5,555ペアの関係パタンに対して,人間が7段階の類似性スコアを付与した.なお,このコーパスの構築にはクラウドソーシングを活用し,比較的安価に質の高いデータを構築した.このコーパスに含まれる関係パタンは,関係パタンの意味を語の意味の合成として計算できる可能性が高いため,深層ニューラルネットワークによる意味合成モデルのベンチマークデータとしても有用である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
交付申請書では,本年度の研究実施計画として,③グランディングのためのコーパス構築,②関係パタンの曖昧性解消を挙げていた.研究項目③では,実体・概念と関係の両方に対してコーパスを構築して,予備実験を進めることができた.研究成果は言語処理分野で国内最大の言語処理学会で発表し,国際会議への投稿に向けて準備を進めている.研究項目③では,先ほど述べた言語処理学会に加えて,国際会議での発表や,国際ジャーナルの採択決定などの成果を生み出している.また,研究に関連して,3件の招待講演,3件の解説記事,4件の受賞があった.
|
Strategy for Future Research Activity |
昨年度に作成したコーパスを活用し,グラウンディングのための計算モデルの研究を加速させる.体外発表を活発的に行うとともに,作成したコーパスや解析器の改良を続けながら,これらの成果をウェブサイト上で公開し,研究者や社会に還元する.
|
Research Products
(17 results)