研究課題/領域番号 |
15H02794
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 |
研究実績の概要 |
本研究では計画段階の3億3千万語、5万3千時間分のテレビ字幕データから、6億5千万語、10万5千時間分、16万8千番組分に拡張したこれまでに存在していなかった規模の大規模会話コーパスを構築している。このコーパスから、文を抽出し、文の組み合わせから談話セグメントを抽出するプログラムを作成した。また、MpaReduce型アルゴリズムのプログラムを開発し、単語のNグラムの組み合わせパターンを作成し、頻度統計を計算した。コーパス内の約6千500万文に出現するこのNグラムパターンの中から、出現文が完全一致するパターン群で最長のパターンを残すアルゴリズムにより、Formulaic Sequencesの重要候補として5千8百65万パターンを取り出すことができた。また、複数文の結合から談話セグメントを抽出するプログラムの実装も行いセグメントの抽出も行った。また、FSをデータとして用いることによってword2vecを拡張したFS2vecの実装にとりかかっている。この過程で、27年度は、テキストをword単位でなく、FS単位で分割するアルゴリズムの開発が必要となり、こちらに取り組んだ。また、日本語Can-doリストの記述内に出現する語句を拡張し、実際のコーパスデータ内の語句と結びつけるための表現拡張に取り組んだ。FS2vecのデータに先立ち、全コーパスからword2vecを作成し、特定の単語と関連の強い語がどのように取得できるかの調査も行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
字幕データ取得システムは安定運用が行えており、構築を続けているテレビ字幕コーパスも順調に規模を拡大している。これまでのところ、およそテレビ字幕3年分、約6千5百万文のコーパスからFormuaic Sequenceの重要候補として約5千万パターンを取り出すことができている。 MapReduce型のアルゴリズムによって単語単位n-gramの出現数を数え上げ、16万ファイルに出現する各n-gramのマージおよびソートも順調に行うことができている。また、字幕放送の提示時間に基づいて各字幕データを談話セグメントに分割することも行った。
|
今後の研究の推進方策 |
27年度に開発したMapReduce型のアルゴリズムを効率化し、より大規模なデータが扱えるように拡張する。また5単語Nグラムよりも多い単語数でのパターン抽出も可能な拡張を合わせて行う。拡張した全組み合わせパターンの中からFSとして有効なパターンを抽出するアルゴリズムを洗練させる。会話セグメント内の記述と抽出されたFSを調査し、話題を表す表現、場面を表す表現、目的を表す表現をリストアップする。 Word2vecのFS2vecへの拡張を実現するために、形態素データをFS単位に変換するデータ整備を進める。Can-doの定義文、会話例を整備する。FS2vecを使ってCan-doと適合する会話セグメントを対応付けるアルゴリズムを開発する。適合性の判定を行い、日本語教材を整備する。適合しなかった会話パターン、FSとCan-doとの間の謝り分析を行い、フィードバック資料を作成する。
|