您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

重新编码

数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。

数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。

算法描述

重新编码用于把各式各样的数据进行分组,一般可分为对数值型变量和字符型变量编码。

对于数值型变量,有两种不同的编码方式:等距离划分和不等距离划分。1)等距离划分:根据指定的起点和步长对数据进行分组,并从0开始为各组编码。因为每组的组距相等,故称等距离划分法。2)不等距离划分:根据指定的上限和下限对数据进行分组,并根据新的编码值为数据编码。因为指定各组的组距一般不相等,故称不等距划分法。

对于字符型变量则需要指定编码规则进行编码。如需要用户自定义替代的新值。

相关应用

对数据进行重新编码,即用简单的数字对原始数据进行标记,便于统计分析。

参考资料

马克威分析系统使用教程,http://www.tenly.com

实例

示例为某银行对客户的不同信用评分数据;具体数据如下所示:


编号 性别 年龄 级别 信用评分
1 1 45 1 65.8
2 2 35 1 70.4
3 1 64 1 71.4
4 2 22 1 74
5 2 32 1 75.2
6 1 29 1 76.6
7 1 31 1 78.2
8 1 55 1 79.8
9 2 45 2 80.2
10 1 45 2 80.2
11 1 37 2 80.4
12 1 58 2 82.4
13 1 32 2 82.8
14 2 45 2 84.5
15 2 36 3 85.4
16 1 37 3 85.6
17 1 40 3 86.8
18 1 67 3 87.2

假设现在要对客户按年龄进行等距划分的重新编码,计算过程如下:设编码的初始点为10,步长间隔为10,故编号为1的顾客重新编码结果为:(45-10)/10=3.5;取整,即编号1的顾客重新编码为3。同理可计算其他客户,最终的结果为:

编号 性别 年龄 级别 信用评分 年龄重新编码
1 1 45 1 65.8 3
2 2 35 1 70.4 2
3 1 64 1 71.4 5
4 2 22 1 74 1
5 2 32 1 75.2 2
6 1 29 1 76.6 1
7 1 31 1 78.2 2
8 1 55 1 79.8 4
9 2 45 2 80.2 3
10 1 45 2 80.2 3
11 1 37 2 80.4 2
12 1 58 2 82.4 4
13 1 32 2 82.8 2
14 2 45 2 84.5 3
15 2 36 3 85.4 2
16 1 37 3 85.6 2
17 1 40 2 86.8 3
18 1 67 3 87.2 5

同理,可根据需要对其他变量进行重新编码,如对用户评分进行处理。

相关条目

编码方式、分组

优缺点

优点:数据的重新编码对数据重新分组特别有用,尤其是它用简单的数字对原始数据进行划分,非常便于进行统计分析。

确定