国家自然科学奖提名书_第1页
国家自然科学奖提名书_第2页
国家自然科学奖提名书_第3页
国家自然科学奖提名书_第4页
国家自然科学奖提名书_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 国家自然科学奖提名书( 2018年度)一:项目名称高维数据统计推断方法 任务来源: D1-国家自然科学基金: 高维数据统计建模与分析,项目编号11131002二、提名意见(适用于提名专家)姓 名鄂维南身份证 士中国科学院院士学 部数学物理学部最 高 奖 是 否年 度工作单位北京大学职 称讲席教授学科专业数学通讯地址北京市海淀区颐和园路5号 北京大学静园六院201邮政编码100871电子邮箱weinan联系电机任专家ü 是 否提名意见: 该项目以数据科学和高维数据分析中普遍存在的数据维数高于

2、有效样本个数的现状为出发点,以提出在超高维数据下有效的多元分析方法为目标,瞄准高维数据统计检验的核心问题,在超高维数据的均值检验,协方差矩阵检验和估计,回归系数检验三个方面取得了理论突破和方法创新。该项目系统地建立了一系列适用于超高维数据、基于L2范数和U统计量的统计检验方法,使得当数据维数远远大于样本个数时高维数据检验统计量仍然具有标准的极限分布,从而有效地保障了高维统计检验的构造和检验效用的分析。项目提出的检验超高维数据均值差异的陈-秦检验,突破了已有统计检验要求数据维数和样本量是同阶的限制。在陈-秦检验的基础上提出的经过阈值预处理的检验在最具挑战的信号稀疏且强度微弱的条件下,能够达到正态

3、分布数据的最优检验边界。项目首次提出了在非参数分布下的高维数据的协方差矩阵的一致最优检验,填补了高维数据协方差矩阵检验的空白。首次发现了经典的F-检验在不是很高的数据维度下已经开始蒙受检验效用损失,提出了利用U-统计量、避免使用投影阵的统计量的有效检验方法。本项目所提出的一系列高维统计检验方法,解决了传统多元分析方法不适用于高维大数据的问题,极大地推广了多元大数据分析的应用范围,在高维数据分析中得到广泛的应用。我提名该项目为国家自然科学奖 二 等奖。声明:本人遵守国家科学技术奖励条例及其实施细则,以及国家科学技术奖提名制实施办法(试行)的有关规定,承诺遵守评审工作纪律,所提供的提名材料真实有效

4、,且不存在任何违反中华人民共和国保守国家秘密法和科学技术保密规定等相关法律法规及侵犯他人知识产权的情形。本人已征求被提名者同意;作为提名者,本人同意在项目公示时向社会公布;本人承诺根据需要参加答辩,接受评审专家质询;如产生争议,保证积极调查处理。如有材料虚假或违纪行为,愿意承担相应责任并接受相应处理。 专家签名: 年 月 日三、项目简介高维数据的统计推断是目前数据科学中大数据分析的重要方法之一。本项目针对高维数据多元分析中的一系列重要问题进行了系统深入的研究,取得了具有国际影响力的创新成果。1. 系统地建立了一个适用于超高维数据、基于L2范数的高维统计检验框架。在这一框架下提出的高维统计检验方

5、法填补了经典的多元数据均值和协方差矩阵检验在数据维度p大于样本量n时无法定义所留下的空白。主要创新之处是在构造检验统计量时,使用U-统计量对L2范数进行修正,从而可以大大提高了数据维度p的发散速度,使得当p远远大于n时高维数据的检验统计量仍然具有标准的极限分布,也能保障高维统计检验的构造和检验功效的分析。本项目所给出的高维检验不需要数据具有特定的参数分布,这使得其可以被广泛地应用于超高维数据的分析。2. 提出了一系列高维统计检验方法:(1)高维均值检验。提出了适用于检测超高维数据均值差异的陈-秦检验,突破了已有检验要求p和n是同阶的限制,弥补了Hotelling T2检验在高维数据下失效所留下

6、的空白。在陈-秦检验的基础上,进一步引入thresholding的方法。此检验方法是预先对每个数据维度进行阈值过滤,去掉均值差异不显著的数据维度。经过阈值预处理的检验在信号(指有差异的均值)稀疏且强度微弱的最具挑战的检验条件下,能够达到正态分布数据的最优检验边界。(2)高维协方差矩阵检验。首次提出了在非参数分布下的高维数据的协方差矩阵的检验方法,填补了高维数据协方差矩阵检验的空白。同时给出了两母体协方差矩阵差异的检验方法和检测协方差矩阵条状结构的检验方法。研究发现基于U-统计量的高维协方差检验具有一致最优性。 (3)高维数据回归系数检验。首次发现经典的F-检验在不是很高的数据维度下,即p/nc

7、(0,1)时,已经开始蒙受检验效用损失。提出了利用U-统计量、避免使用投影阵的统计量的检验方法,并证明了该统计量的渐近正态分布及对高维回归系数检验的相合性。.应用创新方面:本项目所提出的高维统计检验方法,填补了传统多元分析方法不适用于高维数据分析的空白,极大地推广了多元大数据统计分析的应用范围,尤其在生物基因组数据的分析中得到广泛的应用。 本项目共发表SCI论文30余篇,Web of Science(WoS)他引543次。8篇代表性论文WoS他引311次,单篇最高WoS他引123次,其中3篇代表性论文入选WoS高引论文。完成人陈松蹊应邀在国际学术会议上做报告34次。自2010年起任统计学顶级期

8、刊The Annals of Statistics副主编。2009年当选美国统计学会Fellow、国际数理统计学会Fellow;2011年当选国际统计学会当选会员。目前担任国际数理统计学会常务理事,中国统计学会常务理事。四、客观评价项目取得了具有国际影响力的成果,发表SCI论文30篇。八篇代表性论文均发表在统计学统计期刊上,研究成果被Annals of Statistics, J. American Stat. Association, J. Royal Stat. Society, Biometrika等统计学顶级期刊正面引用,其中8篇代表性论文SCI他引313次,单篇最高他引124次,3篇

9、入选WoS高引论文。重要科学发现1:提出适用于一般超高维数据的均值差异的检验, 所提出的基于L2阈值过滤的检验能够达到正态数据的最优检验边界。 代表性论文提出了适用于超高维数据均值差异的基于U-统计量的陈-秦检验。其在数据维度远远大于两个样本量的情况下广泛适用,已经成为高维两样本的一个基本的检验方法。美国德克萨斯农工大学的著名统计学家、COPPS奖获得者R. Carroll和他的合作者在美国统计学会会刊上发表的代表性引文1中指出陈-秦检验(代表性论文1)在高维数据下不需要两个母体的协方差矩阵是相同的假设条件:“More recently, under a setup similar to th

10、at of Bai and Saranadasa (1996), but which accommodates unequal covariances, Chen and Qin (2010) introduced a method (hereafter called the Ch-Q test), which allows 1 2 and sidesteps covariance matrix estimation altogether.”。前Annals of Statistics 主编,美国宾州州立大学的Runze Li教授和他的合作者在美国统计学会会刊(代表性引文2)中正面引用了本项目

11、三篇代表性论文1,2,6,并指出陈-秦检验有效地放松了对数据维度和样本量的限制:“The test statistic of Bai and Saranadasa (1996) for testing (1) is based on |X|2 while the one of Chen and Qin (2010) is based on i=1nj=1,jinXiTXj. By removing the diagonal elements in the statistic of Bai and Saranadasa (1996), Chen and Qin (2010) were able

12、to considerably relax the restrictive condition on p and n.”。在由高维统计和大维随机矩阵的重量级研究者白志东教授和J. Yao、S.Zheng的高维统计专著中代表性引文3指出“Chen and Qin (2010) proposed a major improvement of the Bai-Saranadasa test. Their results do not require an explicit p n scheme and can be applied to the so-called large psmall n or

13、 p >> n scheme, where when n, p/n. Note that such a p >> n scheme is common in genetic studies.”代表性论文2提出的经过阈值信号过滤处理后使用陈-秦检验的方法,在信号稀疏和强度微弱的检测条件下能够达到正态数据下的最优检验边界的结果,著名统计学家、COPPS奖获得者、普林斯顿大学教授范剑青和他的研究团队在国际顶级经济学期刊Econometrica(代表性引文4)中指出了代表性论文2所提出的阈值信号过滤处理的重要性:“The accumulation of estimation e

14、rrors is prevented due to the threshold for sufficiently large t_N (see, Zhong, Chen, and Xu (2013).”并在文章中多次引用代表性论文1 和代表性论文2的结果。重要科学发现2:提出了适用于超高维非参数数据的协方差矩阵的检验,有效填补了固定维数据协方差矩阵检验在高维数据下所留下的空白。著名统计学家、COPPS奖获得者、宾夕法尼亚大学教授Tony Cai在所写的关于高维数据检验的综述文章(代表性引文5)中引用了本项目三篇关于高维协差阵统计推断的代表性论文3,4,5,并指出代表性论文3所提出的基于U-统计

15、量的高维协方差检验具有一致最优的检验功效函数,并且一致优于经过调整的似然比检验:“A U-statistics-based test that is similar to the one proposed by Chen et al. (2010) is shown to be rate optimal over this asymptotic regime. Moreover, the power of this test uniformly dominates that of the corrected LRT over the entire asymptotic regime under

16、 which the corrected LRT is applicable.”。另外,Tony Cai和美国青年天才奖(McCharthy Fellow)获得者Zongming Ma 的合作文章(代表性引文6)中指出代表性论文3所提出的基于U-统计量的检验可以具有最优收敛速度:“A test based on a U-statistic is introduced and is shown to be rate optimal over this asymptotic regime.。The test is motivated by the proposal in Chen et al. 7

17、.”。这在Fang Han, Shizhe Chen和 Han Liu发表在Biometrika 2017的文章中也得到响应:“Cai & Ma (2013) showed that the test of Chen et al. (2010) uniformly dominates the corrected likelihood ratio tests of Bai et al. (2009) and Jiang & Yang (2013)”。关于代表性论文4给出的两母体协方差矩阵差异的检验,Tony Cai 在代表性引文5中指出代表性论文4的在信号稠密时的优势:“Li &

18、amp; Chen (2012) proposed a test using a combination of U-statistics, which was also motivated by an unbiased estimator of the squared Frobenius norm of 1- 2. These Frobenius norm-based testing procedures perform well when 1- 2 is dense ”.关于代表性论文5给出的检测协方差矩阵条状结构的检验,宾夕法尼亚大学教授Tony Cai 和耶鲁大学统计系系主任周慧斌同合作

19、者在Electronic Journal of Statistics发表的关于高维方差矩阵结构估计的综述文章(代表性引文7)中指出了代表性论文5所提出的条状检验的优势:“Qiu and Chen (2012) constructed an unbiased estimator of $sum_|I - j| > k sigma_ij2$ via certain U-statistic to test banded covariance structure $H_0 (k)$, motivated by the Frobenius distance-based tests in Chen

20、et al. (2010). A lower bound of asymptotic power function is also established.”。 重要科学发现3:给出了高维数据回归系数检验方法,发现经典的F-检验在高维下具有检验效用损失。首次研究了在高维数据下U-统计量的Hoeffing分解的性质。美国伊利诺伊大学Xiaofen Shao教授在同合作者发表在 Annals of Statistics上的代表性引文8)中15次引用Zhong and Chen (2011) 代表性论文6,将代表性论文6的高维线性模型的检验方法和条件推广到非线性条件均值和分位数模型, 并指出“Our

21、 test for conditional mean independence can be viewed as a nonparametric model-free counterpart of Zhong and Chens test, which was developed for high dimensional linear models with homoscedastic errors.”“Our analysis of local asymptotic power shows that our test is less powerful than Zhong and Chens

22、 test when the high dimensional linear model holds, but the efficiency loss is fairly moderate.”五、代表性论文专著目录(不超过8篇)序号论文专著名称/刊名/作者影响因子年卷页码(xx年xx卷xx页)发表时间(年月 日)通讯作者(含共同)第一作者(含共同)国内作者SCI他引次数他引总次数论文署名单位是否包含国外单位1A two sample test for high-dimensional data with applications to gene-set testing. The Annals

23、of Statistics, S.X.Chen and Y. Qin2.942010年38卷808-835页2010年4月Song Xi Chen(陈松蹊)Song Xi Chen(陈松蹊)陈松蹊14(高引)250是2Tests alternative to higher criticism for high-dimensional means under sparsity and column-wise dependence. The Annals of Statistics, PS.Zhong, S.X.Chen, M. Xu.2.442013年41卷2820-2851页2013年12月S

24、ong Xi Chen(陈松蹊)Pingshou Zhong陈松蹊徐敏亚125是3Tests for high-dimensional covariance matrices. Journal of the American Statistical Association, SX Chen, L. Zhang, PS. Zhong2.062010年105卷810-819页2010年6月Song Xi Chen(陈松蹊)Song Xi Chen(陈松蹊)陈松蹊张郦馨2(高引)169是4Two Sample Tests for High-Dimensional Covariance Matrice

25、s.The Annals of Statistics, J. Li and SX Chen2.532012年40卷 908-940页2012年4月Song Xi Chen(陈松蹊)Jun Li陈松蹊(高引)82是5Test for Bandedness of High-Dimensional Covariance Matrices and Bandwidth Estimation.The Annals of Statistics, Y. Qiu and SX Chen2.532012年40卷1285-1314页2012年6月Song Xi Chen(陈松蹊)Yumou Qiu陈松蹊125是6T

26、ests for High-Dimensional Regression Coefficients with Factorial Designs. Journal of the American Statistical Association, PS Zhong and SX Chen1.992011年106卷260-274页2011年3月Song Xi Chen(陈松蹊)Pingshou Zhong陈松蹊48是7High-Dimensional Generalized Empirical Likelihood for Moment Restrictions with Dependent Da

27、ta.Journal of Econometrics, J Chang, SX Chen, X.Chen1.612014年185卷283-304页2014年11月Song Xi Chen(陈松蹊)Jinyuan Chang常晋源陈松蹊11是8Band Width Selection for High-Dimensional Covariance Matrix Estimation. Journal of the American Statistical Association, Y.Qiu and SX Chen1.732014年110卷1160-1174页201年月Song Xi Chen(陈松蹊)Yumou Qiu陈松蹊02是合 计313530 补充说明(视情填写):承诺:上述论文专著用于提名国家自然科学奖的情况,已征得未列入项目主要完成人的作者的同意。知识产权归国内所有,且不存在争议。 第一完成人签名:六、主要完成人情况表姓 名陈松蹊性别男排 名1国 籍中国出生年月1961.11.19出 生 地北京民 族汉身份证国人员是归国时间2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论