研究課題/領域番号 |
18650032
|
研究種目 |
萌芽研究
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 大学院・工学研究科, 教授 (30205918)
|
研究期間 (年度) |
2006 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
3,200千円 (直接経費: 3,200千円)
2007年度: 1,500千円 (直接経費: 1,500千円)
2006年度: 1,700千円 (直接経費: 1,700千円)
|
キーワード | 自然言語処理 / オンラインニュース / 見出し / 要約 / 縮退構造 |
研究概要 |
本年度は、オンラインニュースの見出しを詳細に分析し、以下のことを明らかにした。 1.日本語で、ニュース記事が伝えるような情報を短い見出しとして要約する場合、10文字台前半(12から15文字)が目安となる。この分量のテキストで、読者が記事を取捨選択できるだけの情報を伝達することができる。 2.1つのコト(事態)を伝える見出しのほとんどは、見かけ上は体言で終わる場合でも、動作性を有する述語または述語相当語を持つ。また、その末尾に、モダリティを表す特殊な表現を伴うこともある。すなわち、見出しは、短くするために特殊な形式を取っているが、通常の文とほぼ同じ構造を有する。 3.見出しを構成する文節数は2から4である。文節の平均文字数は、前から単調減少する。たとえば、3文節であれば、最初の文節の文字数が多く、最後の文節(述語)の文字数が少ない。これは、情報量の多い文節を前方に配置する原則が働いているものと見なすことができる。 4.見出しの短さは、つぎの4つの合わせ技で達成されている。 (1)単文要約:複雑な内容の情報も、その中核的内容は単文に要約できる。 (2)プロトコル化:比較的よく現れる情報タイプに対しては、見出しの定型化(プロトコル化)が進む。 (3)省略:重要な要素を優先して残し、それ以外は思い切って省略する。 (4)縮約:述語、連用修飾語、補足語、連体修飾語のそれそれに対して、長さを短くする(縮約する)ための機構が存在する。
|