齐普夫定律
词频分布定律
齐普夫定律是美国学者G.K.齐普夫于20世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。
起源
关于单词在文献中出现频次的齐普夫定律(Zipf's Law)。亦称省力法则。1948年由美国哈佛大学语言学教授G.K.齐普夫(George K. Zipf )对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号(r)之间存在着下述定量的关系,齐普夫认为:如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3.…),即词频分布定律最普通而又最典型的表达。
此后,许多工具书大都采用类似观点和说法 。如英国著名的语言学著作《语言与语言词典》 中的释义是:“(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C,方程式中F=频次,R=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。”但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。
· ·George Kingsley Zipf observed that the frequency of usage of any word in a corpus is approximately inversely proportional to its frequency rank:
·
-i.e., the power law fr ~ 1 / rk, where r is rank and k≈ 1.
假说
词频分布原因的假说
词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个:
①“省力法则”假说。提出这一假说的是齐普夫。他认为,在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。
②“成功产生成功”假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近, 普赖斯后来建立了一个相类似的模型,又明确地提出了“成功产生成功”的假说。
应用
巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐普夫定律(Zipf's law)进行了严格的研究。他们使用了古登堡计划(the Project Gutenberg)的数据库——古登堡计划是一项将版权过期的英语书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未有,此前的研究大多只采用几十篇文本的数据集分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完全地符合齐普夫定律,而如果考虑所有的词语,仍然有40%的文本完全符合齐夫定律。该研究的负责人科拉尔(Á.Corral)称,如果进一步忽略只出现3至5次的词语,符合齐普夫定律的文本数还会更多。
2016年,江南大学的研究者以诺贝尔文学奖得主莫言的《红高粱》《蛙》和《透明的红萝卜》为主要研究对象,采用字频统计软件和汉语词频统计软件,统计莫言作品中字频、词频,发现都能满足齐普夫定律。
齐普夫定律已经在语言学、情报学地理学、经济学、信息科学等领域有了广泛的应用,而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出:齐普夫定律是描述词频分布规律的强大数学工具,作为经验定律,它仍有不足之处,有待进一步完善。
意义
研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类自动标引的研究对象。
最新修订时间:2023-04-29 21:09
目录
概述
起源
参考资料