研究課題/領域番号 |
23682006
|
研究機関 | 立命館大学 |
研究代表者 |
田中 省作 立命館大学, 文学部, 教授 (00325549)
|
研究期間 (年度) |
2011-04-01 – 2014-03-31
|
キーワード | 連語項目 / 言語処理 / チャンキング / コーパス |
研究概要 |
今年度は,昨年度の研究資源・環境整備を受け,主に次の2テーマを推進した. 1. 統語情報を活用した可変長で不連続性を許したMWE(Multi-Words Expression)抽出法の実装:コーパス研究で頻繁に用いられるn-gramでは捉え切れない“take ~ into account”のような不連続なMWEを抽出するための方法の模索とその実装を行った.具体的には,松原他(2010)の手法((1)コーパス内の各文をチャンキング,(2)チャンクを考慮してn-gramを計数,(3)n-gramの頻度・大きさ・前後のばらつきを勘案しスコア化,(4)いくつかの条件を課しフィルタリングする)を簡易化したものを実装した.また,次項でも述べるような,組織や分野の階層的な構造を反映した抽出に活用した. 2. 組織・分野の階層情報を考慮したMWEリストの試作:別課題で取り扱っている機関リポジトリから収集した英語科学論文を対象とし,前項で実装した抽出法をベースに組織内の階層関係を反映したMWEリストの試作を行った.「中高英語→大学→各部局」という階層を仮定し,各レベルにおいてMWEリストを整備する.また,階層上上位レベル(α→βでいえばα側)のMWEリストで上位に位置づけられるMWEについてはβのそれからは排除する.この処理によって,一つ一つのMWEリストが当該組織・部局に強く依拠したものとなり,意味付けも明確化される.2012年7月時点の九州大学機関リポジトリと中高英語の基礎データとして中高英語教科書を加え,既述のようなMWEリストを試作した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「平成24年度の研究実施計画」で掲げた項目全て計画通り検討・実施することができ,概ね期待通り研究が進展した.ただし,今年度「中高英語→学術→工学→情報工学」といった一般的な分野階層に基づいたMWEリストの試作は未達成である.他課題との関係から対象とした言語資源単体では,このような分野を捉えることが困難であった.
|
今後の研究の推進方策 |
基本的には申請書にあげた研究実施計画に基づいて推進することで,次年度期待される進捗状況に達するものと考えている.次年度は本課題の最終年度でもあり,次のような視点も踏まえつつ推進することを予定している. 1. 「分野」という視座:今年度未達成だった「分野」という視点は,基本的に言語資源の整備・整理の問題である.次年度は,いくつかの大学の機関リポジトリ等の資源を統合するなどして「分野」という視点を導入することを検討する.また,実際のMWEリストの活用等において普遍的な分野分類のようなものが難しい場合は,現状の「組織」という視点のまま,という選択も考え得る. 2. 英語教育等の専門家の知見:統語情報を活用した可変長で不連続性を許したMWE抽出法の精密化には,抽出したMWEに対する一定の評価プロセスが求められる.そして,言語や抽出すべきMWEに関する言語学的考察が欠かせず,それを専門家等に積極的に求める. 3. 関連プログラムの公開や活用:推進にかかわって開発したプログラム等を,Web等で公開し,本課題および周縁テーマの促進・連携を図る.
|