2010 Fiscal Year Annual Research Report
Project/Area Number |
20240008
|
Research Institution | The University of Tokyo |
Principal Investigator |
石井 久美子 (田中 久美子) 東京大学, 大学院・情報理工学系研究科, 准教授 (10323528)
|
Keywords | ユーザーインターフェース / 自然言語処理 / Web情報処理 / 情報抽出 / 情報分類 |
Research Abstract |
文書を閲覧する際、語学能力や知識の不足により、文書の内容を完全には理解することができなかったり、解釈判断に困ることがある。本研究の目的は、動的な文書処理を用いて、ユーザの文書閲覧上の支援を行う言語技術を構築することである。本研究目的には、クライアントとしてのユーザインターフェースからの研究と、サーバとしての自然言語処理に基づくソフトウエアの研究の二つの側面がある。クライアントに関しては、初年度に共に研究した修士学生が2年目に起業し、web mash upのための汎用クライアントは現在その会社より無料でダウンロードの上、利用できる状況にある。このため、本科研では他の点に注力している。 今年度の成果としては、サーバと要素技術についての二種類のものがある。まず、サーバについては、翻訳と有害文書判定の二つのサービスを研究している。翻訳に関しては、ユーザインターフェースと翻訳サーバを組み合わせ、スマートフォンやiPadでコミュニケーション支援を行うソフトウエアを、NICTとの共同で開発している(資金的には独立)。本アイデアは現在はブラウザで動作するものではないが、そのようなものとしての応用も可能である。本年度の成果として英日翻訳のプロトタイプが国際会議IUIでBest Paper Awardを得た。有害性判定については、大学では、文書の有害性として、剽窃や捏造が問題となっている。そこで、ユーザが論文など閲覧する際に、剽窃が疑われる部分を動的に指摘するサービスの構築に向けて、当初よりねらいを変更したとはいえ、研究方向は当初と目指す技術は本質的には変わらない。今年は機械学習の観点からの従来研究の追試を行い国内大会で発表した。 要素技術としては二つのものに着眼している。翻訳や語学学習などに際して閲覧時に構文の観点からの動的な支援を行う目的で、動的な言語汎用の構文解析器を研究している。提案方法では、文のうち、解析しやすい部位から、徐々に解析するため、構文の途中結果をユーザインタフェースから動的に利用することができる。今年度はその基礎となる部分について夏の国際会議発表を行った上で、手法を拡張し検証を行った。文書分割処理に関しては、現在のweb上の文書には、一つの文書に異なる言語部分や、異なる著者が書いた文書が入り乱れたものとなっており、これを原因として閲覧が困難となったり、剽窃などの問題につながる。このため、本研究の目的を遂行するには、文書の「切り分け」が必要となる。昨年度から取り組み、未だ国内大会の成果のみではあるが、圧縮による提案手法に目処が付き、現在実験を行いつつ雑誌論文を執筆中である。
|
Research Products
(4 results)