研究課題/領域番号 |
17KK0002
|
研究機関 | 茨城大学 |
研究代表者 |
古宮 嘉那子 茨城大学, 理工学研究科(工学野), 講師 (10592339)
|
研究期間 (年度) |
2018 – 2020
|
キーワード | コーパス / 語義曖昧性解消 / 問題抽出 / コーパス作成 / アノテーション |
研究実績の概要 |
本研究は、英語の論文から問題(problem)を抽出するというタスクを使って、英語の知見やコーパス、または深層学習の重みを再利用することにより、日本語の論文から問題を抽出するタスクを実現する研究である。 2019年度は、日本語の論文に、問題部分のアノテーションを行うにあたり、試行錯誤を行ったが、まだ本格的なアノテーションには至っていない。 代わりに、コーパスが作成されたのちに、日英のコーパスを用いて転移学習を行うために使える手法について研究を行った。ひとつめは、バイリンガルの分散表現(Bilingual Word Embeddings)の研究である。同一言語の二つの辞書の意味をマッピングする研究と、同一言語の単語区切りが異なる際に、より小さい単語の複数の分散表現から、より長い単語の分散表現を合成するタスクである。 ふたつめは、マルチタスク学習である。これも、同一言語の単語区切りが異なる際に、より小さい単語の複数の分散表現から、より長い単語の分散表現を合成するタスクを例に実験を行った。また、Fine-tuningとニューラル機械翻訳についても、日本語の語義曖昧性解消や、日本語の翻訳など、別のタスクを使った研究を行った。それぞれ、英日の機械翻訳による転移学習、英日のコーパスによるFine-tuningを行う際に、その知見を利用できると考えている。 結果として、関連論文をジャーナルに1本、国際会議に1本、国内の研究会に6本発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
サバティカルから帰国後、不在時の埋め合わせの仕事があったのと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れている。 一年目は、イギリスに滞在して、基礎研究を行った。一年目の終わりに、日本語版のアノテーションの対象コーパスを、『言語処理学会論文誌LaTeXコーパス』とすることを決定した。 二年目(2019年度)に、英語版の論文を参考にして、このコーパスにアノテーション作業を試行したところ、作業者三名にかなりのずれがあることが分かった。problemを抽出するにあたり、problematicなもののみをアノテーションして、taskについては除外する必要があるが、この定義が難解であり、また英語と日本語で少々意味が異なるため、作業者間で揺らぎが生じたと思われる。そのため、二年目の9月中旬に英語版のアノテーションのルーブリックを入手し、その定義にさかのぼって日本語版をどうつけるかについて議論を行った。また、9月後半に元論文の著者であるSimone Teufel教授と直接お話して、taskとproblemが紛らわしい事例についてどのようにしているか議論した。その結果、自動化するために、ある程度の難解な部分はルールありきの分類となっていることが判明した。研究室の学生の卒論修論としては時間がかかりすぎること、またルールベースのシステムだと工学部の卒論修論にはしづらいと判断し、2020年から本格的にコーパスのアノテーションを行うこととした。 2020年3月に、ルーブリックについて研究室で共有し、4月現在、ルールを自動化しつつある。
|
今後の研究の推進方策 |
2020年4月現在、英語のルーブリックを参考にしながら、日本語のアノテーションルールを自動化しつつある。英語の論文に比べて、日本語の論文は、問題部分の書き方のバリエーションが多い印象がある。また、構文についても、パターン化しにくい構文が多いと感じている。しかし、まずは英語の論文と同様の手法でアノテーションを行う予定である。そのうえで、日本語の論文は量が少ないことから、人手によるアノテーションの精緻化についても考慮する予定である。 2020年4月に、ケンブリッジ大学の共同研究者を日本に招いて議論する予定であったが、新型コロナウイルスの影響で延期となり、場合によっては実現が難しいのではないかと考えている。また、年内にケンブリッジ大学を訪問する予定もあったが、これに関しても実現が難しいのではないかと考えている。そのため、オンラインミーティングを併用したうえで、日本語版のアノテーションおよびそのコーパス単体を利用した研究を中心に今後の研究を進める可能性が高い。具体的には、日本語のコーパスの作成と、そのコーパスを用いた語義曖昧性解消、問題抽出を先に行い、英語コーパスを用いた転移学習については、そのあととなる可能性が高いと考えている。 また、英語版は分類器を用いてtaskとproblemを分けているが、日本語ではproblemの表現パターンのバリエーションが多いことから、分類器による抽出ではなく、系列ラベリングを用いて抽出する可能性が出てきたと考えている。
|