大数据下基于体积抽样的异常点诊断及估计问题
梁晋雯1,2; 田茂再1,2,3,4
2019
发表期刊数理统计与管理
期号2020-02页码:223-235
摘要处理大规模数据集时,抽样是一种很受欢迎的有效方法。体积抽样作为一种联合抽样的方法,它是按照与矩阵平方的行列式成比例进行抽样。该方法在线性回归模型背景下能得到参数的无偏估计。然而也容易受到异常点的影响,本文感兴趣的是体积抽样受异常点影响的程度。基于数据删除模型和均值漂移模型构建统计量进行异常点诊断,结果发现体积抽样方法在某些情况下极易受异常点影响。但是在给定损失的条件下,比独立同分布抽样所需的子样本量更小,在此基础上,提出样本量的自适应选择方法。作为体积抽样的扩展,杠杆值体积抽样同样可以得到普通最小二乘线性模型参数的无偏估计,一个有趣的发现是使用杠杆值体积抽样,等权最小二乘估计结果比非等权最小二乘估计效果好。
关键词大数据 体积抽样 异常点 最小二乘估计
DOI10.13860/j.cnki.sltj.20191013-003
URL查看原文
收录类别CSSCI ; CSCD
ISSN1002-1566
语种中文
来源期刊等级B类
文献类型期刊论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/10986
专题统计与数据科学学院
作者单位1.中国人民大学应用统计科学研究中心;
2.中国人民大学统计学院;
3.兰州财经大学统计学院;
4.新疆财经大学统计与信息学院
第一作者单位统计与数据科学学院
推荐引用方式
GB/T 7714
梁晋雯,田茂再. 大数据下基于体积抽样的异常点诊断及估计问题[J]. 数理统计与管理,2019(2020-02):223-235.
APA 梁晋雯,&田茂再.(2019).大数据下基于体积抽样的异常点诊断及估计问题.数理统计与管理(2020-02),223-235.
MLA 梁晋雯,et al."大数据下基于体积抽样的异常点诊断及估计问题".数理统计与管理 .2020-02(2019):223-235.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
31534.pdf(1875KB)期刊论文出版稿暂不开放CC BY-NC-SA请求全文
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[梁晋雯]的文章
[田茂再]的文章
百度学术
百度学术中相似的文章
[梁晋雯]的文章
[田茂再]的文章
必应学术
必应学术中相似的文章
[梁晋雯]的文章
[田茂再]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。