数学上,相似性指两个图形的形状完全相似。若存在两个点的
集,其中一个能透过放大缩小、
平移或
旋转等方式变成另一个,就说它们具有相似性。
自相似性
分形(英语:Fractal),又称碎形,通常被定义为“一个粗糙或零碎的
几何形状,可以分成数个部分,且每一部分都(至少近似地)是整体缩小后的形状”,即具有
自相似的性质。
分形思想的根源可以追溯到公元17世纪,而对分形使用严格的数学处理则始于一个世纪后
卡尔·魏尔施特拉斯、
格奥尔格·康托尔和
费利克斯·豪斯多夫对
连续而不
可微函数的研究。但是分形(fractal)一词直到1975年才由
本华·曼德博创造出,来自
拉丁文frāctus,有“零碎”、“破裂”之意。一个数学意义上分形的生成是基于一个不断
迭代的
方程式,即一种基于
递归的
反馈系统。
分形有几种类型,可以分别依据表现出的精确
自相似性、半自相似性和统计自相似性来定义。虽然分形是一个数学构造,它们同样可以在自然界中被找到,这使得它们被划入
艺术作品的范畴。分形在医学、
土力学、
地震学和
技术分析中都有应用。
分类
精确自相似
这是最强的一种自相似,分形在任一尺度下都显得一样。由
迭代函数系统定义出的分形通常会展现出精确自相似来。
半自相似
这是一种较松的自相似,分形在不同尺度下会显得大略(但非精确)相同。半自相似分形包含有整个分形扭曲及退化形式的缩小尺寸。由
递推关系式定义出的分形通常会是半自相似,但不会是精确自相似。
统计自相似
这是最弱的一种自相似,这种分形在不同尺度下都能保有固定的数值或统计测度。大多数对“分形”合理的定义自然会导致某一类型的统计自相似(
分形维数本身即是个在不同尺度下都保持固定的数值测度)。随机分形是统计自相似,但非精确及半自相似的分形的一个例子。
结构相似性
结构相似性指标(英文:structural similarityindex,
SSIMindex)是一种用以衡量两张数位影像相似程度的指标。当两张影像其中一张为无
失真影像,另一张为失真后的影像,二者的结构相似性可以看成是失真影像的影像品质衡量指标。相较于传统所使用的影像品质衡量指标,像是
峰值信噪比(英文:
PSNR),结构相似性在影像品质的衡量上更能符合人眼对影像品质的判断。
余弦相似性
余弦相似性通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。
0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,
余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为0到1之间。
值得注意的是余弦相似度可以用在任何维度的向量比较中,它尤其在高维正空间中的利用尤为频繁。例如在信息检索中,每个词条拥有不同的度,一个文档是由一个由有
权值的
特征向量表示的,权值的计算取决于词条在该文档中出现的频率。余弦相似度因此可以给出两篇文档其主题方面的相似度。
另外,它通常用于文本挖掘中的文件比较。此外,在
数据挖掘领域中,用它来衡量集群内部的凝聚力。
化学相似性
化学相似性(或称为分子相似性)是指二个元素、
分子或化合物在结构上的相似程度,或是在参与化学反应时效果的相似程度。若是探讨在生物上的效应及其相似程度,一般会使用化合物的
生物活性(biological activity),否则会使用化合物的
活性度来衡量参与化学反应时的效果。
化学相似性(或分子相似性)的概念是
化学信息学中(chemoinformatics)最重要的主题之一。在化合物性质预测或设计特定性质化合物的现代研究中,化学相似性都有重要的作用。而有些药物设计研究会利用大型化学品数据库进行筛选,也和化学相似性有关。上述研究的基础是Johnson和Maggiora的相似性质定律:“相似的化合物会有相似的性质”。
遗传相似性
学界常用某特定物种的
DNA序列共享
人类序列的百分比来表示相似性。该数字显示了两物种之间碱基对相同的百分比。这里所列的是相对于人类的遗传相似性,并列出了数据来源。
这些数据来源于不同的二级数据源,并用不同的方法获得(例如
DNA-DNA杂交或
序列比对),这可能导致相同物种间的比较得到不同的结果。因此,这些数据应该仅仅用作大致相似性。