您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

数据抽样

数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。

数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。

算法描述

数据抽样是从总体样本数据中按一定的方法抽取部分的数据;能够实现对任意数据进行抽样。

数据抽样经常用到的算法有:取近似记录的百分之几;取前N个样本的抽样方法;系统抽样法,即每隔N条记录选取一条;按比例抽样等数据抽样方法。

相关应用

数据抽样的应用领域不限;如果原数据量太大,且有些数据重复或者分析时不太需要用到;则可以利用数据抽样算法,选择适量的数据进行分析。

参考资料

1 数据抽样—百度百科

2 马克威分析系统使用教程,http://www.tenly.com

实例

示例数据为某年上海市各区的人口数,人口密度及暂住人口数据。现要分析这些数据的规律,希望选取适量的数据进行分析。

地区 人口数 人口密度 暂住数
浦东新区 3274276 6264 1362726
闵行 2067612 5563 1181777
杨浦 1214846 20004 134225
闸北 827945 28296 132803
宝山 1302059 3135 471498
徐汇 1061120 19378 169298
长宁 754343 19696 143002
普陀 1155735 21079 292786
虹口 923784 39343 134225
松江 1305862 2159 763153
嘉定 1201177 2618 663246
黄浦 719071 57943 113463
青浦 939272 1390 252749
金山 773710 1320 252749
南汇 1176278 1711 442257
奉贤 908895 1322 393248
卢湾 373463 46393 61931
崇明 792084 761 94983
静安 346399 45459 36538

1)选取前5条记录,即得到如下数据:

地区 人口数 人口密度 暂住数
浦东新区 3274276 6264 1362726
闵行 2067612 5563 1181777
杨浦 1214846 20004 134225
闸北 827945 28296 132803
宝山 1302059 3135 471498

2)每隔三条记录选取一条,得到的数据如下:

地区 人口数 人口密度 暂住数
浦东新区 3274276 6264 1362726
宝山 1302059 3135 471498
虹口 923784 39343 134225
青浦 939272 1390 252749
卢湾 373463 46393 61931

其他的不同种抽样方法,可以按实际的应用数据需求类型为依据,选取合适的抽样方法。

输入输出

输入变量类型:任意类型数据

输出结果:给出经过抽样后的数据结果

相关条目

随机抽样、分层抽样

优缺点

优点:减少了数据记录,提升了分析速度。

缺点:容易丢失部分数据信息,影响结果的准确性。

确定