研究課題/領域番号 |
16K16109
|
研究機関 | 東京大学 |
研究代表者 |
吉永 直樹 東京大学, 生産技術研究所, 准教授 (90773961)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 自然言語処理 / ソーシャル・ビッグデータ / 知識獲得 |
研究実績の概要 |
(1) 本年度はソーシャル・ビッグデータ(特に、マイクロブログ)を適応的に言語解析する手法に関する研究開発を行った。具体的には、基礎解析において参照する知識を動的にソーシャル・メディアから獲得する研究を行い、リアルタイムで実世界イベントの話題が投稿される Twitter から Wikipedia に登録されていない未知エンティティを自動的に発見して収集する手法の開発を行った。提案手法では、エンティティが新たに発生して普及・認知される過程で、エンティティの新規性を示唆する表現が多く観測されることに注目し、未知エンティティ候補の文字列の周辺の言語表現を手がかりとして用いて、投稿から未知エンティティを収集する。既知エンティティと未知エンティティに関する投稿を混合した投稿から未知エンティティを検出する予備実験において、F1値 0.79(ベースライン0.66)で未知エンティティを検出できることを確認した。 (2) 本研究で開発する基礎解析器においては、タスクベースの数値評価を必ずしも重要視せず、実際のアプリケーションでの効果を意識して手法の研究開発を行う。そこで具体的なアプリケーションとして、係り受け解析等の基礎解析を利用してソーシャル・メディアから大衆の価値観を獲得する手法、及びリアルタイムで Twitter から大衆の価値観を獲得するシステムの開発を行った。また、(1) で獲得した知識自体の外的評価を行うため、発話状況を考慮した対話応答システムの研究開発を行った。 (3)_大規模評価用のマイクロブログコーパスの収集については、Twitter の投稿を API を利用して継続的に収集を進めており、1日あたり数千万件の収集体制を確立している。収集している投稿には、日本語に限らず多言語の投稿が含まれており、言語横断で実世界知識を収集することも可能な状態となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の研究開発により、マイクロブログを適応的に基礎解析する際に必要となる新情報(未知エンティティ)を収集する手法の開発が完了している。提案する知識獲得手法の有効性については、基礎解析での内的評価、及び応用での評価を通じて今後、確認を行う。 また、平成29年度に研究開発する基礎解析手法を評価するための基盤についても、基礎解析の内的評価を行う係り受け解析コーパスを除き、概ね整備された。 ソーシャルメディアを対象とした適応的な基礎解析手法については当初予定ほどの進展は見られなかったが、評価基盤については平成29年度に開発を予定していた実証評価のための基盤が整備できており、全体としては順調に進展している。
|
今後の研究の推進方策 |
平成29年度は、平成28年度に開発したマイクロブログからの未知エンティティ検出手法を元に獲得された知識を利用し、適応的に言語解析する手法の研究開発を行う。一方で、基礎解析(係り受け解析)の正解の付与されたマイクロブログコーパスを整備し、基礎解析手法の内的評価を行うとともに、平成28年度に開発したアプリケーションでの有効性を確認する。 なお、マイクロブログから得られた未知エンティティに関する知識は、単語分割や係り受け解析と言った基礎言語解析に限らず、機械翻訳や対話応答システムなど、広範な言語応用で直接的に活用できるものと期待できる。そこで、開発対象を単語分割や係り受け解析と言った基礎解析に必ずしも限定せず、広範な言語アプリケーションで活用できないかも合わせて検討を行う。
|