2009 Fiscal Year Annual Research Report
Project/Area Number |
20240008
|
Research Institution | The University of Tokyo |
Principal Investigator |
石井 久美子 (田中 久美子) The University of Tokyo, 大学院・情報理工学系研究科, 准教授 (10323528)
|
Keywords | ユーザーインターフェース / 自然言語処理 / web情報処理 / 情報抽出 / 情報分類 |
Research Abstract |
web文書を閲覧する際、語学能力や知識の不足により、文書の内容を完全には理解することができなかったり、解釈判断に困ることがある。本研究の目的は、昨今研究がさかんなweb mash upの技術を用いて、ユーザのこのような閲覧上の問題に対する支援を行うことである。研究は、web mash upのためのクライアントならびに自然言語処理を用いた各種応用サーバの研究の二つの側面がある。前者については、初年度に共に研究してきた学生が起業したことにより、クライアンはフリーダウンロードできる状況となっている。後者については、研究課題採択当初の提案の新規性に問題があることが明らかとなり、二年目は研究の方向性を再考して課題を推進した。具体的には、語学学習やセキュリティなどといった分野別の応用の軸でweb mash upを捉えるのではなく、web mash upを行うために必要な基本的機能とは何かに焦点を当て、その観点で問題を捉え直した。Web mash upとは「異種の文書を動的に有効に扱う方法の研究」であり、この観点で、以下の三つの軸を立てている。 ●多言語文書処理:1.異なる言語の文書を含む文書集合から、同じ内容の文書を抽出する方法:ある新聞記事を読んでいる際に、別言語で同じ内容の記事を提示したい。このためには「異言語文書集合を内容別に分類する」ことが必要となり、このための基礎研究を行う。2.文書内の異言語を動的に検出する方法:昨今のweb文書は、異なる言語が入り乱れている。たとえば、アフリカの言語で記述されたwikipediaはその中に英語が多く混じっている。現在の言語処理手法は言語別に構築されているので文書内のある一部分が何語であるかを動的に判定することが必要となる。 ●言語汎用の言語解析手法の基礎的研究:現在の言語処理手法は言語別に構築されており、これがweb mash upを行う上で大きな問題となる。なぜなら、文書がまずどのような種類かを特定しなければ、どの解析器を用いるべきかが決まらないからである。そこで、さまざまな解析器を言語汎用のものとして構築する基礎研究を行っている。この点、言語汎用の形態素解析器の研究では研究上の成果が申請者の手によりすでにあるため、本課題では、言語汎用の構文解析器の研究に取り組む。 ●「今ここ」の情報抽出と処理:web mash upなどの動的な処理において、最重要の情報とは「今ここ」に関するものである。昨今のTwitterの人気などは、この点を如実に反映している。本研究では、「今ここ」を現す情報を抽出し、効果的に提示する方法を研究し、提案する。 なお、この軸の変更は、研究をより活発にするためのweb mashp upの捉え方の変更に過ぎず、研究の目的は当初より変更はない。 最後になるが、代表者は、初年度に引き続き二年目も健康上の問題に対処しながら課題を推進せざるを得なかった。このため、代表者自身は一度も国際会議に参加することができず、その分の旅費を返納した。とはいえ、研究は計画どおりに進んでおり、特に問題はない。
|