phrase
[freiz]
n.
短语, 习语, 惯用语, 成语, 措词。
vt.
用短语表达
phrase
phrase
AHD:[fr³z]
D.J.[fre!z]
K.K.[frez]
n.Abbr. phr.(名词)缩写 phr.。
A sequence of words intended to have meaning.。
话语:具有意义的一系列词语
A characteristic way or mode of expression.。
用语,说法:具有特点的方法或方式的表达。
A brief, apt, and cogent expression.。
简洁的语句,警句:简洁贴切且令人信服的表达。
A word or group of words read or spoken as a unit and separated by pauses or other junctures.。
片语:作为读和说的词或词组的单位,并通过暂停或其他连音隔开。
Grammar Two or more words in sequence that form a syntactic unit that is less than a complete sentence.。
【语法】 短语,词组:形成一个句法单位的有顺序的两个或更多的词语,它比一个完整句子要小。
Music A segment of a composition, usually consisting of four or eight measures.。
【音乐】 短句,乐句:乐曲的一部分,通常包括四或八个拍子。
A series of dance movements forming a unit in a choreographic pattern.。
舞句:在舞蹈形式中形成一个单位的一系列舞蹈动作。
v.(动词)
phrased,phras.ing,phras.es 。
v.tr.(及物动词)
To express orally or in writing:。
措辞,表意:口头或书面表达:
The speaker phrased several opinions.。
讲话者谈了几个观点
To pace or mark off (something read aloud or spoken) by pauses.。
将文章断句:用暂停来为(朗读或讲的东西)定节奏或划出分隔。
Music
【音乐】
To divide (a passage) into phrases.。
把(一段作品)分成短句
To combine (notes) in a phrase.。
连接短句中的音符
v.intr.(不及物动词)
To make or render phrases, as in reading aloud.。
措辞,念辞:制造或说出短语,如朗读时。
Music To perform a passage with the correct phrasing.。
【音乐】 用正确的分句来表演一段作品。
Latin phrasis [diction] 。
拉丁语 phrasis [词语] 。
from Greek [speech, diction, phrase] 。
源自 希腊语 [言语;词语,短语] 。
from phrazein [to point out, show] * see g whren- 。
源自 phrazein [指出,显示] *参见 g whren- 。
phras“al
adj.(形容词)
phras“ally
adv.(副词)
phrase
[freiz]
n.
【语】短语, 片语, 词组
惯用语, 成语
警句, 格言
措词, 用语
[pl. ]空话, 废话
【音】短句
an adjective [a noun, a verb] phrase。
形容词[名词, 动词]短语
phrases and idioms。
习语和成语
mere phrases
空洞词句
phrase book
成语集
be expressed in simple phrase。
用简单话表达
He is fond of using high-sounding phrases.。
他爱用夸大的词句。
We have had enough of phrases.。
我们已经听够了废话。
phrase
[freiz]
vt.
用话表示, 用短语描述; 用措词表达。
[苏]奉承, 恭维
【音】把...分成短句
a neatly phrased compliment。
措词简洁的贺词
The passage is badly phrased.。
这段话措词很糟。
I phrased my request very carefully.。
我小心翼翼地说出我的请求。
She phrased her excuse politely.。
她客气地说出她的借口。
phrasemaker
n.
擅长创造警句者
phrasemonger
[`freIz9mQN^E(r),-9mCN-]。
n.
爱用漂亮词语的人
phrasemongering。
n.
空淡, 讲漂亮话-sal
phrase
[freiz]
adj.
短语的, 片语的
catch phrase
警句, 妙句
sans phrase
干脆, 直截了当地
set phrase
固定词组
客套话
well-rounded phrase。
措词优美而得体的话
well-rounded sentences。
措词优美而得体的话
well-turned phrase。
措词优美而得体的话
well-turned sentences。
措词优美而得体的话
appositive phrase。
同位短语
endocentric phrase。
内向短语
exocentric phrase。
外向短语
fixed phrase
固定短语
genitive phrase。
所有短语, 领属短语
infinitive phrase。
不定式短语
nominal phrase
名词性短语
noun phrase
名词短语
prepositional phrase。
前置词短语, 介词短语
restrictive phrase。
限制性短语
resultative phrase。
结果短语
specific noun phrase。
特定名词短语
verb phrase
动词短语
phrase
phrase
AHD:[fr³z]
D.J.[fre!z]
K.K.[frez]
n.Abbr. phr.
A sequence of words intended to have meaning.。
A characteristic way or mode of expression.。
A brief, apt, and cogent expression.。
A word or group of words read or spoken as a unit and separated by pauses or other junctures.。
Grammar Two or more words in sequence that form a syntactic unit that is less than a complete sentence.。
Music A segment of a composition, usually consisting of four or eight measures.。
A series of dance movements forming a unit in a choreographic pattern.。
v.
phrased,phras.ing,phras.es 。
v.tr.
To express orally or in writing:。
The speaker phrased several opinions.。
To pace or mark off (something read aloud or spoken) by pauses.。
Music
To divide (a passage) into phrases.。
To combine (notes) in a phrase.。
v.intr.
To make or render phrases, as in reading aloud.。
Music To perform a passage with the correct phrasing.。
Latin phrasis [diction] 。
from Greek [speech, diction, phrase] 。
from phrazein [to point out, show] * see g whren- 。
phras“al
adj.
phras“ally
adv.
phrase
拉丁语 phrasis<希腊语phrasis<phrazein说。
phrase
clausepartpassagesection。
你好,要想学好英语,必须从课文和单词抓起 学好英语,首先要培养对英语的兴趣。“兴趣是最好的老师”,兴趣是学习英语的巨大动力,有了兴趣,学习就会事半功倍。我们都有这样的经验:喜欢的事,就容易坚持下去;不喜欢的事,是很难坚持下去的。而兴趣不是与生俱来的,需要培养。有的同学说:“我一看到英语就头疼,怎么能培养对英语的兴趣呢?”还有的同学说:“英语单词我今天记了明天忘,我太笨了,唉,我算没治了。”这都是缺乏信心的表现。初学英语时,没有掌握正确的学习方法,没有树立必胜的信心,缺乏了克服困难的勇气,丧失了上进的动力,稍遇失败,就会向挫折缴枪,向困难低头。你就会感到英语是一门枯燥无味的学科,学了一段时间之后,学习积极性也逐渐降低,自然也就不会取得好成绩。但是,只要在老师的帮助下,认识到学英语的必要性,用正确的态度对待英语学习,用科学的方法指导学习。开始时多参加一些英语方面的活动,比如 ,唱英文歌、做英语游戏、读英语幽默短文、练习口头对话等。时间长了,懂得多了,就有了兴趣,当然,学习起来就有了动力和欲望。然后,就要像农民一样勤勤恳恳,不辞辛苦,付出辛勤的劳动和汗水,一定会取得成功,收获丰硕的成果。毕竟是No pains, no gains吗。 。
练好基本功是学好英语的必要条件,没有扎实的英语基础,就谈不上继续学习,更谈不上有所成就。要想基本功扎实,必须全神贯注地认真听讲,上好每一节课,提高课堂效率,脚踏实地、一步一个脚印地,做到以下“五到”: 。
一、“心到”。在课堂上应聚精会神,一刻也不能懈怠,大脑要始终处于积极状态,思维要活跃、思路要开阔,心随老师走,听懂每一句话,抓住每一个环节,理解每一个知识点,多联想、多思考,做到心领神会。 。
二、“手到”。学英语,一定要做课堂笔记。因为人的记忆力是有限的,人不可能都过目不忘,记忆本身就是不断与遗忘作斗争的过程。常言说,“好脑筋不如烂笔头”。老师讲的知识可能在课堂上记住了,可是过了一段时间,就会忘记,所以,做好笔记很有必要。英语知识也是一点点积累起来的,学到的每一个单词、词组以及句型结构,都记在笔记本上,甚至是书的空白处或字里行间,这对以后的复习巩固都是非常方便的。 。
三、“耳到”。在课堂上,认真听讲是十分必要的,不但要专心听老师对知识的讲解,而且要认真听老师说英语的语音、语调、重音、连读、失去爆破、断句等发音要领,以便培养自己纯正地道的英语口语。听见听懂老师传授的每一个知识点,在头脑里形成反馈以帮助记忆;理解领会老师提出的问题,以便迅速作答,对比同学对问题的回答,以加深对问题的理解而取别人之长补自己之短。 。
四、“眼到”。在认真听讲的同时,还要双眼紧随老师观察老师的动作、口形、表情、板书、绘图、教具展示等。大脑里形成的视觉信息和听觉信息相结合,印象就会更加深刻。 。
五、“口到”。学习语言,不张嘴不动口是学不好的,同学们最大的毛病是读书不出声,害羞不敢张嘴。尤其是早读课,同学们只是用眼看或默读,这样就只有视觉信息,而没有听觉信息在大脑里的反馈,当然记忆也不会太深刻,口部肌肉也得不到锻炼,也就很难练就一口纯正的英语。所以,要充分利用早晨头脑清醒的时间,大声朗读;课堂上要勇跃回答老师提问、积极参与同学间讨论和辩论,课下对不清楚的问题及时提出,要克服害羞心理,不耻下问。对学过的课文要多读、勤读、苦读,可以跟录音机读,竭力模仿其语音语调以纠正发音,要读得抑扬顿挫朗朗上口,一些精典文章最好能背得滚爪烂熟。利用一切可能的机会,练习英语口语,比如,与外教交流、参加“英语角”活动、与同学进行对话、讲英语故事、唱英文 歌曲、演英语短剧、进行诗歌朗诵等。除了对课本中的范文要细读精读之外,还要多看些适合我们中学生的课外读物,既可增长知识,又开阔了我们的视野,也提高了我们的阅读水平。 。
学英语,词汇的记忆是必不可少的,词汇是学好英语的基础,没有了词汇,也就谈不上句子,更谈不上文章,所以记单词对我们就显得极其重要。记忆单词关键有二: 。
一是持之以恒:每天坚持记忆一定量的词汇,过几天再回头复习一次,这样周期循环,反复记忆,经常使用,就会变短时记忆为长时记忆并牢固掌握。需要注意的是,一旦开始,就要坚持下来,千万不能半途而废,切不可三天打鱼,两天晒网。 。
二是良好的记忆方法:记忆单词的方法很多,学无定法,但学有良法。我认为,张思中的“集中识词,分类记忆”不失为一种适合中学生的好方法。把中学生应掌握的3500个单词集中汇总,分门别类,先过单词关,然后再学教材,在课本中使用和巩固它们的用法。分类的方法有多种,同一元音或元音字母组合发音相同的单词归为一类;根据词形词性、同义词反义词等集中记忆;把相同词根、前缀、后缀、合成、转化、派生等构词法相同的单词或词组列在一起集中识记印象比较深刻,记忆效果也比较明显。这样每天记40-80个单词,坚持不懈。
swallow up
1. PHRASAL VERB 吞并;侵吞;把…并入其中 If one thing is swallowed up by another, it becomes part of the first thing and no longer has a separate identity of its own. 。
During the 1980s monster publishing houses started to swallow up smaller companies.。
20 世纪 80 年代,一些出版巨头开始吞并一些较小的公司。
2. PHRASAL VERB 用尽,耗光(金钱、资源) If something swallows up money or resources, it uses them entirely while giving very little in return. 。
A seven-day TV ad campaign could swallow up the best part of £50,000...。
7 天的电视广告宣传可能会耗费约 5 万英镑。
3. PHRASAL VERB 吞没;淹没 If a person or thing is swallowed up by something, they disappear into it so that you cannot see them any more. 。
He headed back towards the flea market and was quickly swallowed up in the crowd...。
他转身朝跳蚤市场走去,很快淹没在人群中。
其实最主要的是你缺乏做阅读和听力的考试技巧;还有你可能是假读懂,没有掌握文章的细节,英语阅读考试很多是考试细节问题。掌握了做阅读的技巧了,再多做题目才有帮助!你考什么考试 就做什么真题 才是正确的方法。
推荐: www.ewsou.cn 21世纪 中国日报 英语沙龙 。
1.认真背单词,掌握5000个单词左右,就差不多了;背单词有很多方法,联想记忆,死记硬背各有其好处;我推荐你用电脑记忆单词,这样能掌握单词正确的读音,这对听力是非常有帮助的。推荐你一个背单词的软件《新东方单词通》
2.如果想参加考试获得证书,你在好好背单词的基础上,参加新东方的一些考试培训,在短期里你能有一个分数的飞跃,能掌握很多考试的技巧。
3。如果你想在英语能力上有提高,以下几点应注意,A多读,有时间和毅力的话,把新概念的三四册被下来;B多听,可以听广播,听英语的有声读物,有一个好办法也很有效果,就是多看英语电影,可以先从简单的看起,慢慢来,一般爱情片的语言和语速非常适合。C多写,可以用英文记日记,结交英文笔友,这里推荐你一个网站www.aj.cz/penfriends,可以结交很多朋友。D多说,有条件的话,认识一个外国人,不仅可以和他们练习口语,还可以了解外国人的思维模式和生活习惯以及文化等方面的知识;没有条件的可以自己在脑子里模拟情景自己和自己练习,多学电影中的说法!我刚开始是从英文骂人的话开始学起的。呵呵。时间有限,我只想到这么多,目前www.hjbbs.com这个论坛非常好,你可以多去看看。也可以找英语好的人一起共同探讨共同进步!其实我自己悟出的一个道理:学习英语不是一个脑力劳动,而是一个体力劳动的过程。只要刻苦没有办不到的。方法只能自己悟出来,只有自己的方法才是最适合自己的。希望我的一点点不成熟的意见能给你点帮助。
下面是我在网上找的方法资料,他山之石或许可以攻玉 。
怎样学好英语
想学好英语,首先要培养对英语的兴趣。“兴趣是最好的老师”,兴趣是学习英语的巨大动力,有了兴趣,学习就会事半功倍。我们都有这样的经验:喜欢的事,就容易坚持下去;不喜欢的事,是很难坚持下去的。而兴趣不是与生俱来的,需要培养。有的同学说:“我一看到英语就头疼,怎么能培养对英语的兴趣呢?”还有的同学说:“英语单词我今天记了明天忘,我太笨了,唉,我算没治了。”这都是缺乏信心的表现。初学英语时,没有掌握正确的学习方法,没有树立必胜的信心,缺乏了克服困难的勇气,丧失了上进的动力,稍遇失败,就会向挫折缴枪,向困难低头。你就会感到英语是一门枯燥无味的学科,学了一段时间之后,学习积极性也逐渐降低,自然也就不会取得好成绩。但是,只要在老师的帮助下,认识到学英语的必要性,用正确的态度对待英语学习,用科学的方法指导学习。开始时多参加一些英语方面的活动,比如 ,唱英文歌、做英语游戏、读英语幽默短文、练习口头对话等。时间长了,懂得多了,就有了兴趣,当然,学习起来就有了动力和欲望。然后,就要像农民一样勤勤恳恳,不辞辛苦,付出辛勤的劳动和汗水,一定会取得成功,收获丰硕的成果。毕竟是No pains, no gains吗。
练好基本功是学好英语的必要条件,没有扎实的英语基础,就谈不上继续学习,更谈不上有所成就。要想基本功扎实,必须全神贯注地认真听讲,上好每一节课,提高课堂效率,脚踏实地、一步一个脚印地,做到以下“五到”:
一、“心到”。在课堂上应聚精会神,一刻也不能懈怠,大脑要始终处于积极状态,思维要活跃、思路要开阔,心随老师走,听懂每一句话,抓住每一个环节,理解每一个知识点,多联想、多思考,做到心领神会。
二、“手到”。学英语,一定要做课堂笔记。因为人的记忆力是有限的,人不可能都过目不忘,记忆本身就是不断与遗忘作斗争的过程。常言说,“好脑筋不如烂笔头”。老师讲的知识可能在课堂上记住了,可是过了一段时间,就会忘记,所以,做好笔记很有必要。英语知识也是一点点积累起来的,学到的每一个单词、词组以及句型结构,都记在笔记本上,甚至是书的空白处或字里行间,这对以后的复习巩固都是非常方便的。
三、“耳到”。在课堂上,认真听讲是十分必要的,不但要专心听老师对知识的讲解,而且要认真听老师说英语的语音、语调、重音、连读、失去爆破、断句等发音要领,以便培养自己纯正地道的英语口语。听见听懂老师传授的每一个知识点,在头脑里形成反馈以帮助记忆;理解领会老师提出的问题,以便迅速作答,对比同学对问题的回答,以加深对问题的理解而取别人之长补自己之短。
四、“眼到”。在认真听讲的同时,还要双眼紧随老师观察老师的动作、口形、表情、板书、绘图、教具展示等。大脑里形成的视觉信息和听觉信息相结合,印象就会更加深刻。
五、“口到”。学习语言,不张嘴不动口是学不好的,同学们最大的毛病是读书不出声,害羞不敢张嘴。尤其是早读课,同学们只是用眼看或默读,这样就只有视觉信息,而没有听觉信息在大脑里的反馈,当然记忆也不会太深刻,口部肌肉也得不到锻炼,也就很难练就一口纯正的英语。所以,要充分利用早晨头脑清醒的时间,大声朗读;课堂上要勇跃回答老师提问、积极参与同学间讨论和辩论,课下对不清楚的问题及时提出,要克服害羞心理,不耻下问。对学过的课文要多读、勤读、苦读,可以跟录音机读,竭力模仿其语音语调以纠正发音,要读得抑扬顿挫朗朗上口,一些精典文章最好能背得滚爪烂熟。利用一切可能的机会,练习英语口语,比如,与外教交流、参加“英语角”活动、与同学进行对话、讲英语故事、唱英文歌曲、演英语短剧、进行诗歌朗诵等。除了对课本中的范文要细读精读之外,还要多看些适合我们中学生的课外读物,既可增长知识,又开阔了我们的视野,也提高了我们的阅读水平。
学英语,词汇的记忆是必不可少的,词汇是学好英语的基础,没有了词汇,也就谈不上句子,更谈不上文章,所以记单词对我们就显得极其重要。记忆单词关键有二:
一是持之以恒:每天坚持记忆一定量的词汇,过几天再回头复习一次,这样周期循环,反复记忆,经常使用,就会变短时记忆为长时记忆并牢固掌握。需要注意的是,一旦开始,就要坚持下来,千万不能半途而废,切不可三天打鱼,两天晒网。
二是良好的记忆方法:记忆单词的方法很多,学无定法,但学有良法。我认为,张思中的“集中识词,分类记忆”不失为一种适合中学生的好方法。把中学生应掌握的3500个单词集中汇总,分门别类,先过单词关,然后再学教材,在课本中使用和巩固它们的用法。分类的方法有多种,同一元音或元音字母组合发音相同的单词归为一类;根据词形词性、同义词反义词等集中记忆;把相同词根、前缀、后缀、合成、转化、派生等构词法相同的单词或词组列在一起集中识记印象比较深刻,记忆效果也比较明显。这样每天记40-80个单词,坚持不懈,多联想,多思考,多使用,词汇问题不就解决了吗?在学习的过程中多注视单词的用法和词组的搭配,牢记老师讲过的单词惯用法和句型,这样不仅有助于我们解题,而且在写作时也会信手拈来,运用自如。
把单词记住,了解词性、词义,掌握其固定搭配与习惯用法,背会时态、从句的各种用法,工作只是完成了一半,我们还得将它们应用到实践中去。就像学游泳,光学理论,不下水应用,不等于掌握了这门技术。不必要搞题海战术,但一定量的典型练习来巩固所学知识是必不可少的。先重视基础练习,如课后习题,单元同步练习,这些是针对课堂知识的巩固性练习,不能好高骛远,光想着一口吃个胖子。基础知识掌握后,有的放失地做一些语法方面的专项练习和考试题型的专题练习。特别提倡同学们准备一本“错题集”,把平时做错的具有代表性的试题或语言点记录下来,以备将来查漏补缺,这样对知识的掌握可以达到事半功倍的效果。
英语是一种语言,不是记住了单词、词组、句型和语法项目就是把它学好了,关键在于使用语言,所以在学习英语时一定要注意听、说、读、写、译全面发展。英语学习首先是一个记忆过程,然后才是实践过程。学习英语,无论如何,勤奋是不可少的,它是一个日积月累的渐进过程,是没有任何捷径可走的,也没有所谓“速成”的灵丹妙方,急于求成,不做踏实工作,是学不好英语的。任何成功的获得都要靠自己的努力,要踏踏实实、勤勤恳恳、兢兢业业、一步一个脚印地学习,端正态度,认真对待学习中的挫折和失败。失败并不可怕,可怕的是对自己丧失信心而一蹶不振。对考试的失败,冷静分析,认真思考,只要对胜利充满信心,善于总结经验教训,不断努力,不断追求,胜利一定是属于你们的。
1. 引言
从50年代的机器翻译和人工智能研究算起,NLP(Natural 。
Language Processing,自然语言处理)已有长达半个世纪的历史。 在。
这个进程中,学术界曾提出许多重要的理论和方法,取得了丰富的成果。
。笔者认为,近二十年在这一领域中堪称里程碑式的贡献有如下三个:
(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;( 3)
语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学。
和NLP研究产生深远影响。为了更好地理解这些成果的意义, 先介绍与。
此相关的两个事实。
2. 两个事实。
2.1 事实之一——短语结构语法不能有效地描写自然语言。
在自然语言处理中,为了识别一个输入句子的句法结构,首先要把。
句子中的词一个一个地切分出来,然后去查词典,给句子中的每个词指。
派一个合适的词性(part of speech);之后再用句法规则把句子里包。
含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。进。
而判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,
最终得到句子的意义表示,如逻辑语义表达式。这就是一个句法分析的。
全过程。
本文要提到的第一个事实是:短语结构语法(Phrase Structure 。
Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky语言学理。
论中占有重要地位,并且在自然语言的句法描写中担当举足轻重的角色。
。但是它有一些根本性的弱点,主要表现为,它使用的是像词类和短语。
类那样的单一标记,因而不能有效地指明和解释自然语言中的结构歧义。
问题。请看汉语中“V+N”组合。假如我们把“打击、委托、调查”等。
词指派为动词(V);把“力度、方式、盗版、 甲方”等词视为名词(
N),并同意“打击力度”、“委托方式”是名词短语(NP), “打击。
盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧。
义的句法规则:
(1)NP→VN
(2)VP→VN
换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍。
不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类。
型歧义”。例如:
·该公司正在招聘〔销售V人员N〕NP。
·地球在不断〔改变V形状N〕VP。
下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规。
则对,如:
(3)NP→NV 例:市场调查;政治影响。
(4)S→NV 例:价格攀升;局势稳定。
其中标记S代表小句。
不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚。
至不能判断它们是不是在同一个短语中。也就是说,“N+V”词类序列。
可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。 后。
面这种歧义称为“短语边界歧义”。下面是两个相关的例句:
·中国的〔铁路N建设V〕NP发展很快。
·〔中国的铁路N〕NP建设V得很快。
前一个例句中,“铁路 建设”组成一个NP;而在后一个例句中,这两。
个相邻的词却分属于两个不同的短语。 这足以说明, 基于单一标记的。
PSG不能充分地描述自然语言中的句法歧义现象。 下面再看一些这样的。
例子。
(5)NP→V N1 de N2。
(6)VP→V N1 de N2。
其中de代表结构助词“的”。例如,“〔削 苹果〕VP的刀”是NP;而。
“削〔苹果 的 皮〕NP”则是VP。这里既有短语类型歧义,又有短语。
边界歧义。比如,“削V苹果N”这两个相邻的词,可能构成一个。
VP,也可能分处于两个相邻的短语中。
(7)NP→P N1 de N2。
(8)PP→P N1 de N2。
规则中P和PP分别表示介词和介词短语。例如,“〔对 上海〕PP 的印。
象”是NP;而“对〔上海的 学生〕NP”则是PP。相邻词“对P上海N”
可能组成一个PP,也可能分处于两个短语中。
(9)NP→NumP N1 de N2。
其中NumP表示数量短语。规则(9)虽然表示的是一个NP, 但可分别代。
表两种结构意义:
(9a)NumP〔N1 de N2〕NP 如:五个〔公司的职员〕NP。
(9b)〔NumP N1〕NP de N2 如:〔五个公司〕NP的职员。
(10)NP→N1 N2 N3。
规则(10)表示的也是一个NP,但“N1+N2”先结合,还是“N2+N3”
先结合,会出现两种不同的结构方式和意义,即:
(10a)〔N1 N2〕NP N3 如:〔现代 汉语〕NP词典。
(10b)N1〔N2 N3〕NP 如:新版〔汉语词典〕NP。
以上讨论的第一个事实说明:
·由于约束力不够,单一标记的PSG 规则不能充分消解短语类型和。
短语边界的歧义。用数学的语言讲,PSG规则是必要的, 却不是充分的。
。因此,机器仅仅根据规则右边的一个词类序列来判断它是不是一个短。
语,或者是什么短语,都有某种不确定性。
·采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是。
近二十年来全球语言学界对此作出的最重要的努力。
2.2 事实之二——短语结构规则的覆盖有限。
通过大规模语料的调查,人们发现一种语言的短语规则的分布符合。
齐夫率(Zipf's Law)。Zipf是一个统计学家和语言学家。他提出,如。
果对某个语言单位(不论是字母还是词)进行统计,把这个语言单位在。
一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对。
每个单元指派一个整数的阶次(rank)R。结果发现R和F 的乘积近似为。
一个常数。即
F[*]R≈const(常数)
或者说,被观察的语言单元的阶次R与其频度F成反比关系。在词频的统。
计方面,齐夫律显示,不管被考察的语料仅仅是一本长篇小说,还是一。
个大规模的语料库,最常出现的100 个词的出现次数就会占到语料库总。
词次数(tokens)的近一半。假如语料库的规模是100万词次, 那么其。
中频度最高的100个词的累计出现次数大概是50万词次。 如果整个语料。
库含有5万词型(types),那么其中的一半(也就是2.5 万条左右)在。
该语料库中只出现过一次。即使把语料库的规模加大十倍,变成1000万。
词次,统计规律大体不变。
有趣的是,80年代Sampson对英语语料库中的PSG规则进行统计,发。
现它们的分布同样是扭曲的,大体表现为齐夫率(Aarts et al. 1990)
。也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现。
频度极高;另一方面,规则库中大约一半左右的规则在语料库中只出现。
过一次。随着语料库规模的扩大,新的规则仍不断呈现。Chomsky 曾提。
出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限。
的,而据此生成的句子数目是无限的。但语料库调查的结果不是这样。
这个发现至少说明,单纯依靠语言学家的语感来编写语法规则不可能胜。
任大规模真实文本处理的需求,我们必须寻找可以从语料库中直接获取。
大规模语言知识的新方法。
几十年来,NLP学界发表过大量灿烂成果,有词法学、语法学、 语。
义学的,有句法分析算法的,还有许多著名的自然语言应用系统。而对。
该领域影响最大的、里程碑式的成果应数下面三个。
3. 三个里程碑。
3.1 里程碑之一:复杂特征集。
复杂特征集(complex feature set)又叫多重属性(multiple 。
features)描写。在语言学里,这种描写方法最早出现在语音学中,后。
来被Chomsky学派采用来扩展PSG的描写能力。现在无论是在语言学界还。
是计算语言学界,几乎所有语法系统在词汇层的描写中均采用复杂特征。
集,并利用这些属性来强化句法规则的约束力。一个复杂特征集F 包含。
任意多个特征名f[,i]和特征值v[,i]对。其形式如:
F={…,fi=vi,…},i=1,…,n。
特征值v[,i]既可以是一个简单的数字或符号, 也可以是另外一个复杂。
特征集。这种递归式的定义使复杂特征集获得了强大的表现能力。如北。
京大学俞士汶等(1998)开发的《现代汉语语法信息词典详解》,对一。
个动词界定了约40项属性描写,对一个名词界定了约27项属性描写。
一条含有词汇和短语属性约束的句法规则具有如下的一般形式:
〈PSG规则〉:〈属性约束〉
:〈属性传递〉
一般来说,PSG 规则包括右部(条件:符号序列的匹配模式)和左部(
动作:短语归并结果)。词语的“属性约束”直接来自系统的词库,而。
短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的。
中心语(head)那里继承过来的。在Chomsky的理论中这叫做X-bar 理。
论。X-bar代表某个词类X所构成的、仍具有该词类属性的一个成分。
如果X=N,就是一个具有名词特性的N-bar。当一条PSG 规则的右部匹。
配成功,且“属性约束”部分得到满足,这条规则才能被执行。此时,
规则左部所命名的短语被生成,该短语的复杂特征集通过“属性传递”
部分动态生成。
20世纪80年代末、90年代初学术界提出了一系列新的语法,如广义。
短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功。
能语法(LFG)等等。 这些形式语法其实都是在词汇和短语的复杂特征。
集描写背景下产生的。合一(unification )算法则是针对复杂特征集。
的运算而提出来的。“合一”是实现属性匹配和赋值的一种算法,所以。
上述这些新语法又统称为“基于合一的语法”。
3.2 里程碑之二:词汇主义。
在NLP领域中,第二个里程碑式的贡献叫词汇主义(lexicalism )
。语言学家Hudson(1991)曾宣称词汇主义是当今语言学理论发展的头。
号倾向。其出现原因也同前面所观察的两个事实有关。词汇主义方法不。
仅提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知。
识递增式开发和积累的新思路。
这里首先要解释一下这样一个矛盾。一方面,语言学界一向认为,
不划分词类就无法讲语法,如前面介绍的短语结构语法。也就是说,语。
法“不可能”根据个别的词来写规则。但是另一方面,人们近来又注意。
到,任何归类都会丢失个体的某些重要信息。所以从前文提到的第一个。
事实出发,要想强化语法约束能力,词汇的描写应当深入到比词类更细。
微的词语本身上来。换句话讲,语言学呼唤在词汇层采用颗粒度更小的。
描写单元。从本质上来说,词汇主义倾向反映了语言描写的主体已经从。
句法层转移到词汇层;这也就是所谓的“小语法,大词库”的思想。下。
面我们来看与词汇主义有关的一些工作。
3.2.1 词汇语法(Lexicon-grammar)
法国巴黎大学Gross教授在20世纪60 年代就创立了一个研究中心叫。
LADL,并提出词汇语法的概念(http://www. ladl. jussieu. fr/)。
·把12,000个主要动词分成50个子类。
·每个动词都有一个特定的论元集。
·每一类动词都有一个特定的矩阵,其中每个动词都用400 个不同。
句式来逐一描写(“+”代表可进入该句式;“-”表示不能)。
·已开发英、法、德、西等欧洲语言的大规模描写。
·INTEX是一个适用于大规模语料分析的工具, 已先后被世界上五。
十多个研究中心采用。
3.2.2 框架语义学(Frame Semantics)
Fillmore是格语法(Case Grammar)的创始人,他前几年主持了美。
国自然科学基金的一个名为框架语义学的项目(http://www. icsi. 。
berkeley. edu/framenet)。该项目从WordNet上选取了2000个动词,从。
中得到75个语义框架。例如动词“categorize”的框架被定义为:
一个人(Cognizer)把某个对象(Item)视为某个类(Category)。
同原先的格框架相比, 原来一般化的动作主体被具体化为认知者。
Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增。
加了一个作为分类结果的语义角色Category。
项目组还从英国国家语料库中挑出相关句子50,000个, 通过人工。
给每个句子标注了相应的语义角色。例如:
Kim categorized the book as fiction.。
(Cog) (Itm) (Cat)
3.2.3 WordNet。
WordNet是一个描写英语词汇层语义关系的词库,1990 年由普林斯。
顿大学Miller开发(http://www.cogsci. princeton. edu:80/~wn/),
到现在已有很多个版本,全部公布在因特网上,供研究人员自由下载。
欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层。
语义关系。WordNet刻意描写的是词语之间的各种语义关系, 如同义关。
系(synonymy)、反义关系(antonymy)、上下义关系(hyponymy),
部分一整体关系(part-of)等等。 这种词汇语义学又叫做关系语义学。
。这一学派同传统的语义场理论和语义属性描写理论相比,其最大的优。
势在于第一次在一种语言的整个词汇表上实现了词汇层的语义描写。这。
是其他学派从来没有做到的。其它理论迄今仅仅停留在教科书或某些学。
术论文中,从来没有得到工程规模的应用。下面是WordNet的概况:
·95,600条实词词型(动词、名词、形容词)
·被划分成70,100个同义词集(synsets)
3.2.4 知网(How-Net)
知网是董振东和董强(1997)设计的一个汉语语义知识网(http:。
//www.keenage. com)。
·自下而上地依据概念对汉语实词进行了穷尽的分类。
·15,000个动词被划分成810类。
·定义了300个名词类,100个形容词类。
·全部概念用400个语义元语来定义。
知网的特点是既有WordNet 所描写的同一类词之间的语义关系(如。
:同义、反义、上下义、部分-整体等),又描写了不同类词之间的论。
旨关系和语义角色。
3.2.5 MindNet。
MindNet是微软研究院NLP组设计的(http://research. microsoft.。
com/nlp/)。其设计思想是试图用三元组(triple )作为全部知识的。
表示基元。一个三元组由两个节点和一条连接边组成。每个节点代表一。
个概念,连接这两个概念节点的边表示概念之间的语义依存关系。全部。
三元组通过句法分析器自动获取。具体来说,就是通过对两部英语词典。
(Longman Dictionary of Contemporary English和American Heritage 。
Dictionary)及一部百科全书(Encarta)中的全部句子进行分析, 获。
得每个句子的逻辑语义表示(logical form,简称LF)。而LF本来就是。
由三元组构成的,如(W1,V-Obj,W2)表示:W1是一个动词, W2是其。
宾语中的中心词,因此W2从属于W1,它们之间的关系是V-Obj。 比如(
play,V-Obj,basketball)便是一个具体的三元组。又如(W1,H-Mod。
,W2),W1代表一个偏正短语中的中心词(head word),W2 是其修饰。
语(modifier),因此W2从属于W1,它们之间的关系是H-Mod。
这种资源完全是自动做出来的,所得的三元组不可能没有错误。但。
是那些出现频度很高的三元组一般来说是正确的。MindNet 已经应用到。
语法检查、句法结构排歧、词义排歧、机器翻译等许多场合。
3.3 里程碑之三:统计语言模型。
第三个贡献就是语料库方法,或者叫做统计语言模型。如果用变量。
W 代表一个文本中顺序排列的n个词,即W=w[,1]w[,2]…w[,n], 则统。
计语言模型的任务是给出任意一个词序列W在文本中出现的概率P(W )
。利用概率的乘积公式,P(W)可展开为:
P(W)=P(w[,1])P(w[,2]│w[,1])P(w[,3]│w[,1]w[,2]).。
..P(w[,n]│w[,1]w[,2]…w[,n-1]) (1)
式中P(w[,1])表示第一个词w[,1]的出现概率,P(w[,2]│w[,1])表。
示在w[,1]出现的情况下第二个词w[,2]出现的条件概率,依此类推。不。
难看出,为了预测词w[,n]的出现概率, 必须已知它前面所有词的出现。
概率。从计算上来看,这太复杂了。如果近似认为任意一个词w[,i] 的。
出现概率只同它紧邻的前一个词有关,那么计算就得以大大简化。这就。
是所谓的二元模型(bigram),由(1)式得:
P(W)≈P(w[,1])Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1]) (2)
式中Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1])表示多个概率的连乘。
需要着重指出的是:这些概率参数都可以通过大规模语料库来估值。
。比如二元概率
P(w[,i]│w[,i-1])≈count(w[,i-1]w[,i])/count(w[,i- 1。
]) (3)
式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
若语料库的总词次数为N, 则任意词w[,i]在该语料库中的出现概率可估。
计如下:
P(w[,1])≈count(w[,i])/N。
同理,如果近似认为任意词w[,i]的出现只同它紧邻的前两个词有关,
就得到一个三元模型(trigram):
P(W)≈P(w[,1])P(w[,2]│w[,1])Ⅱ[,i=3,…,n]P(w[,i]。
│w[,i-2]w[,-1]) (5)
统计语言模型的方法有点像天气预报。用来估计概率参数的大规模。
语料库好比是一个地区历年积累起来的气象记录,而用三元模型来做天。
气预报,就像是根据前两天的天气情况来预测当天的天气。天气预报当。
然不可能百分之百正确。这也算是概率统计方法的一个特点。
3.3.1 语音识别。
语音识别作为计算机汉字键盘输入的一种替代方式,越来越受到信。
息界人士的青睐。所谓听写机就是这样的商品。据报道,中国的移动电。
话用户已超过一亿,随着移动电话和个人数字助理(PDA)的普及, 尤。
其是当这些随身携带的器件都可以无线上网的时候,广大用户更迫切期。
望通过语音识别或手写板而不是小键盘来输入简短的文字信息。
其实,语音识别任务可视为计算以下条件概率的极大值问题:
W[*]=argmax[,W]P(W│speech signal)
=argmax[,W]P(speech signal│W)P(W)/。
P(speech signal)
=argmax[,W]P(speech signal│W)P(W) (6)
式中数学符号argmax[,w]表示对不同的候选词序列W计算条件概率P (W。
│speech signal)的值,从而使W[*] 成为其中条件概率值最大的那个。
词序列,这也就是计算机选定的识别结果。换句话讲,通过式(6 )的。
计算,计算机找到了最适合当前输入语音信号speech signal的词串W[ 。
*]。
式(6)第二行是利用贝叶斯定律转写的结果,因为条件概率P (
speech signal│W)比较容易估值。公式的分母P(speech signal)对。
给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删。
除。在第三行所示的结果中,P(W)就是前面所讲的统计语言模型,一。
般采用式(5)所示的三元模型;P(speech signal│W)叫做声学模型。
。
到此,读者可能已经明白,汉语拼音输入法中的拼音—汉字转换任。
务其实也是用同样方法实现的,而且两者所用的汉语语言模型(即二元。
或三元模型)是同一个模型。
目前市场上的听写机产品和微软拼音输入法(3.0 版)都是用词的。
三元模型实现的,几乎完全不用句法—语义分析手段。因为据可比的评。
测结果,用三元模型实现的拼音-汉字转换系统,其出错率比其它产品。
减少约50%。
3.3.2 词性标注。
一个词库中大约14%的词型具有不止一个词性。而在一个语料库中。
,占总词次数约30%的词具有不止一个词性。所以对一个文本中的每一。
个词进行词性标注,就是通过上下文的约束,实现词性歧义的消解。历。
史上曾经先后出现过两个自动词性标注系统。一个采用上下文相关的规。
则,叫做TAGGIT(1971),另一个应用词类的二元模型,叫做CLAWS (
1987)(见Garside et al.1989)。两个系统都分别对100 万词次的英。
语非受限文本实施了词性标注。结果显示, 采用统计语言模型的CLAWS。
系统的标注正确率大大高于基于规则方法的TAGGIT系统。请看下表的对。
比:
系统名 TAGGIT(1971) CLAWS(1987)标记数 86 133方法 3000条CSG规则 隐马尔科夫模型标注精度 77% 96%测试语料 布朗 LOB。
令C和W分别代表词类标记序列和词序列,则词性标注问题可视为计。
算以下条件概率的极大值:
C[*]=argmax[,C]P(C│W)
=argmax[,C]P(W│C)P(C)/P(W)
≈argmax[,C]Ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,i。
-1]) (7)
式中P(C│W)是已知输入词序列W的情况下,出现词类标记序列C 的条。
件概率。数学符号argmax[,C] 表示通过考察不同的候选词类标记序列C。
,来寻找使条件概率取最大值的那个词类标记序列C[*]。后者应当就是。
对W的词性标注结果。
公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定。
的W是一个常数,不影响极大值的计算,可以从公式中删除。 接着对公。
式进行近似分析。首先,引入独立性假设,认为任意一个词w[,i] 的出。
现概率近似只同当前词的词类标记c[,i]有关, 而与周围(上下文)的。
词类标记无关。于是词汇概率可计算如下:
P(W│C)≈Ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)
其次,采用二元假设,即近似认为任意一个词类标记c[,i] 的出现概率。
只同它紧邻的前一个词类标记c[,i-1]有关。则。
P(C)≈P(c[,1])Ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)
P(c[,i]│c[,i-1])是词类标记的转移概率, 也叫做基于词类的二元。
模型。
上述这两个概率参数都可以通过带词性标记的语料库来分别估计:
P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i]) (
10)
P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]。
) (11)
据文献报道,采用统计语言模型方法,汉语和英语的词性标注正确。
率都可以达到96%左右(白拴虎1992)。
3.3.3 介词短语PP的依附歧义。
在英语中,介词短语究竟依附于前面的名词还是前面的动词,是句。
法分析中一种常见的结构歧义问题。下例表明怎样用语料库方法解决这。
个问题,以及这种方法究竟能达到多高的正确率。
例句:Pierre Vinken, 61 years old, joined the board as a 。
nonexecutive director.。
令A=1表示名词依附,A=0为动词依附,则上述例句的PP依附问题可表。
为:
(A=0,V=joined,N1=board,P=as,N2=director)
令V,N1,N2分别代表句中动词短语、宾语短语、介宾短语的中心词,
并在一个带有句法标注的语料库(又称树库)中统计如下四元组的概率。
P[,r]:
P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)
对输入句子进行PP依附判断的算法如下:
若P[,r]=(1│v,n1,p,n2)≥0.5,
则判定PP依附于n1,
否则判定PP依附于v。
Collins & Brooks(1995)实验使用的语料库是宾夕法尼亚大学标注的。
《华尔街日报》(WSJ)树库,其中包括:训练集20,801个四元组,测。
试集3,097个四元组。他们对PP依附自动判定精度的上下限作了如下分。
析:
一律视为名词依附(即A≡1) 59.0%。
只考虑介词p的最常见依附 72.2%。
三位专家只根据四个中心词判断 88.2%。
三位专家根据全句判断 93.2%。
很明显,自动判断精确率的下限是72.2%,因为机器不会比只考虑句中。
介词p的最常见依附做得更差;上限是88.2%, 因为机器不可能比三位。
专家根据四个中心词作出的判断更高明。
论文报告,在被测试的3,097个四元组中,系统正确判断的四元组。
为2,606个,因此平均精确率为84.1%。这与上面提到的上限值88.2%。
相比,应该说是相当不错的结果。
4. 结论。
语言学家的努力,不论是用复杂特征集和合一语法,还是词汇主义。
方法,都是在原先所谓的理性主义框架下作出的重大贡献。词汇主义方。
法特别值得推崇,因为它不仅提出了一种颗粒度更细的语言知识表示形。
式,而且体现了一种语言知识递增式开发和积累的新思路。尤其值得重。
视的是在众多词汇资源的开发过程中,语料库和统计学方法发挥了很大。
的作用。这也是经验主义方法和理性主义方法相互融合的可喜开端。笔。
者相信,语料库方法和统计语言模型是当前自然语言处理技术的主流,
它们的实用价值已在很多应用系统中得到证实。统计语言模型的研究,
尤其在结构化对象的统计建模方面,仍有广阔的发展空间。
【参考文献】:
Aarts, Jan & Willen Meijs (eds.). 1990. Corpus Linguistics: 。
Theory and Practice〔C〕. Amsterdam: Rodopi.。
Collins, M. and J. Brooks. 1995. Preposition phrase 。
attachment through a backed-off model〔P〕. In Proceedings of the 。
3rd Workshop of Very Large Corpora. Cambridge, Mass.。
Garside, R., G. Leech and G. Sampson, (eds.). 1989. The 。
Computational Analysis of English: A Corpus-Based Approach〔C〕. 。
London: Longman.。
Hudson, R. A. 1991. English Word Grammar〔M〕. Cambridge, 。
Mass.: Basil Blackwell.。
白拴虎,1992,汉语词性自动标注系统研究〔MA〕。清华大学计算。
机科学与技术系硕士学位论文。
董振东、董强,1997,知网〔J〕。《语言文字应用》第3期。
俞士汶等,1998,《现代汉语语法信息词典详解》〔M〕。 北京:
清华大学出版社。