2012 Fiscal Year Research-status Report
Project/Area Number |
24650065
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | Kyushu University |
Principal Investigator |
石井 久美子(田中久美子) 九州大学, システム情報科学研究科(研究院, 教授 (10323528)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 自然言語処理 / 形態素解析 / 文書分割 / 教師なし機械学習 |
Research Abstract |
昨今のインターネットなど電子文書は、複数の異なる言語が混じって記載されていることがある。このように言語が混交する文書を、言語ごとの単位に分割する研究を行った。つまり、英語やフランス語など言語を範疇と捉え、テキストを範疇の単位ごと分割し、範疇としての言語を判定する。これを行うには、文書に対して、分割の境界の判定と、各部分の言語の判定を行う必要がある。具体的な方法としては、情報理論におけるMinimum Description Length (MDL)を用い、200を超える言語に対して、境界と言語の判定を高性能に行う事に成功した。その成果は自然言語処理・計算言語学分野の最難関国際会議のAnnual Conference for Computational Linguistics (ACL) 2012にて査読を経てfull paperとして採録となり発表を行った。その後、代表者が出産につき研究を一時中断した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の成果は、粗い範疇としての「言語」での、文書の分割に関するものであった。この問題は、文内に異種言語部分が埋め込まれている文書をも対象とすることができることから、形態素解析と同様に、本質的に範疇単位ごとに文を分割するものである。このため、本研究課題の一部とみなすことができる。このように、初年度は、研究目的を遂行する上で一つの基礎となる成果が挙がった。 本申請以前に、教師なしの単語分割については、ペンシルバニア大学のHarrisが提案した方法を情報理論的に再解釈したBranching Entropyに基づく分割手法に関して、研究代表者が行ったまとまった成果がある。一方で、計算言語学分野において、これまでに教師無し文分割手法、ならびに各言語要素の範疇の教師無し判定の手法が、さまざまに提案されており、現在サーベイを行っている。 以上から、現在までの達成度としては、これまでに提案されてきた方法の全貌が見えてきており、本研究目的の達成に必要な代表者による研究成果も着実に上がりつつある状況にある。
|
Strategy for Future Research Activity |
今後は、分野内で提案されている他の既存の研究成果を追試する事を通して、また、これまでの関連する研究成果をふまえて、新規手法を模索する。研究二年目は、教師なし範疇化を行う既存の方法の追試をまず行う。たとえば無限HMMや、構文解析結果も特徴量として用いるモデルなどに基づく手法を、日本語や英語、また中国語に適用し、形態素の正解データと比較する。解析性能を調べ、また解析速度も調査する。その上で、言語に普遍の範疇を捉える事を目的として、多言語文書に既存手法を適用することを試みる。具体的には、異なる言語で同じ内容を表現している文書集合であるaligned corporaに対し、既存手法を拡張して適用する。解析性能を調査し、この時点での学会発表など目指す。最終年度は、範疇化の方法に、文分割を同時に行う方法を探究する。さらに、初年度に成果が挙がったMDLなど、文書全体で最適化を行う方法を組み合わせ、性能向上を目指す。
|
Expenditure Plans for the Next FY Research Funding |
初年度(平成24年度)に申請者が出産した事から、産休期間中は研究を中断した。このため、研究期間の延長申請を現在行っている段階にある。研究費は、当初の計画どおり、延長期間を含めた全4年の研究期間の中で使用する。
|