投影寻踪是处理和分析高维数据的一类统计方法,其基本思想是将高维数据投影到低维(1~3维)子空间上,寻找出反映原高维数据的结构或特征的投影,以达到研究和分析高维数据的目的。1974年,美国Stanford大学的Friedman和Tukey首次将该方法命名为Projection Pursuit,即投影寻踪。
投影寻踪定义
投影寻踪(projection pursuit,简称PP)是国际统计界于70年代中期发展起来的一种新的、有价值的新技术,是
统计学、
应用数学和计算机技术的交叉学科。它是用来分析和处理高维观测数据,尤其是非正态非线性高维数据的一种新兴统计方法。它通过把高维数据投影到低维子空间上,寻找出能反映原高维数据的结构或特征的投影,达到研究分析高维数据的目的。它具有稳健性、抗干扰性和准确度高等优点,因而在许多领域得到广泛应用。
投影寻踪产生背景
随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要.多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大;第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用;第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定—按照一定准则寻找最优模拟—对建立的模型进行证实”这样一条证实性数据分析思维方法(简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是CDA法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。
投影寻踪分类
PP包括手工PP和机械PP两方面内容。手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。使用手工PP成功的例子是美国的Reaven和 Miller于1979年关于多尿病病理的研究。他们将145人的5项指标观察值输入PRIM-9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的.不经过中间正常状态,两者是不能相互转换的。
机械PP是模仿手工PP,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的
最优化问题的方法,自动地找出使指标达到最大的投影。
研究的主要内容
从投影寻踪的理论与应用研究来看,主要涉及三方面内容:
1.投影寻踪聚类分析;
2.投影寻踪回归;
3.投影寻踪学习网络。
投影寻踪的特点
PP的最显著特点是克服了高维点稀分布所造成的“维数祸根”困难,是对传统CDA法的突破。其次,它使用了降维手段,当维数较高时,数据结构常表现于几个投影方向上。PP法正好能找出反映数据结构的投影方向,而排除了那些与结构无关的投影方向上的数据的干扰作用,因此,它能有效地发现高维数值的结构和特征。再次,由于PP采用了EDA法,与传统的CDA法相比,它在处理数据时,无须人为假定,不会损失大量有用的偏态信息,能自动找出数据内在规律,因此稳健性较好。此外,PP虽然以数据线性投影为基础,但它寻找的是线性投影中的非线性结构,因此,它可用来解决一定程度的非线性问题。
PP的不足之处是计算量大.此外能解决的问题有限,对于具有很凹的等高线的密度或等高线是若干个同心球面的密度,效果不太好。