2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析

X1

A1

特征类型:类别特征

缺失率:91.9869%

训练集与测试集中每个类别的个数分布

训练集测试集总和
A9504364868
A1281947
A55611
A4134

复购频率的分布

A1

意见:不宜采用自然数编码;缺失严重

A2

特征类型:类别特征, M / W

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
M452234067928
W219215943786

复购频率的分布

A2

意见:性别特征

A3

特征类型:字符串,X + 6 位数字

缺失率:0%

意见:较为稀疏,意义不明,用户归属地特征?(存疑)

A4

特征类型:字符串,6 位数字

缺失率:0%

意见:邮政编码特征

A5

特征类型:数值特征,整数

缺失率:0%

复购频率的分布

A5

意见:年龄特征

A6

特征类型:数值特征,整数

缺失率:1.9660%

意见:较为稀疏,1 的个数较多,意义不明

A7

特征类型:数值特征,整数

缺失率:0.0149%

复购频率的分布

A7

意见:99 的个数较多;某种分箱特征?(存疑)

A8

特征类型:类别特征,XW + 1 位数字

缺失率:0.0894%

训练集与测试集中每个类别的个数分布:

训练集测试集总和
XW9385928786737
XW0243818334271
XW4385275660
XW314822
XW112416
XW2011

复购频率的分布

A8

意见:不宜采用自然数编码

A9

特征类型:类别特征,X + 1 位数字

缺失率:48.3021%

训练集与测试集中每个类别的个数分布

训练集测试集总和
X1345225826034
X419928
X2011

复购频率的分布

A9

意见:不宜采用自然数编码;缺失严重

A10

特征类型:字符串,6 位数字

缺失率:99.9255%

意见:身份证前 6 位;缺失严重

A11

特征类型:类别特征,B / J

缺失率:87.9357%

训练集与测试集中每个类别的个数分布

训练集测试集总和
B7945761370
J16521

复购频率的分布

A11

意见:缺失严重

A12

特征类型:年份特征,整数含特殊标记 1

缺失率:0%

意见:1 的个数较多,意义不明

A13

特征类型:类别特征,T + 1 位数字

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
T0401429576971
T2149511722667
T111848452029
T4202646
T3101

复购频率的分布

A13

意见:意义不明

A14

特征类型:类别特征,1 位数字 / M / N

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
0191142333
17605371297
3133210102342
46514831134
510227501772
6133010242354
M13922
N141510452460

复购频率的分布

A14

意见:意义不明

A15

特征类型:类别特征,ZC + 1 位数字

缺失率:23.2648%

训练集与测试集中每个类别的个数分布

训练集测试集总和
ZC05634431006
ZC16748115
ZC29469163
ZC3483369852
ZC4387272659
ZC9355826836241

复购频率的分布

A15

意见:意义不明

A16

特征类型:数值特征,浮点数

缺失率:0%

意见:较为稀疏,-0.173260 的个数较多,意义不明

A17

特征类型:日期特征,4 位数字 + days

缺失率:0%

复购频率的分布

A17

意见:开户时间?(存疑)

A18

特征类型:字符串,字母 (+ 数字)

缺失率:99.4936%

意见:国民经济行业代码;缺失严重

A19

特征类型:类别特征,3 个字母

缺失率:0%

意见:全为 CHN,国家代码

A20

特征类型:类别特征,A + 1 位数字

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
A0533184
A1101
A26660496911629

复购频率的分布

A20

意见:意义不明

X2

B1

特征类型:日期特征,4 位数字 + days

缺失率:0%

复购频率的分布

B1

意见:产品买入时间(存疑)

B2

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B2

意见:意义不明;与 B7、B9 完全相同

B3

特征类型:类别特征,A - G

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
A316233549
B287626635539
C11231787019101
D176231292330546
E503693510585474
F8923670015623
G231921750640698

复购频率的分布

B3

意见:意义不明

B4

特征类型:类别特征,t1 / t2

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
t111420582782196987
t2325220545

复购频率的分布

B4

意见:意义不明

B5

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B5

意见:意义不明;与 B13、B14 强相关

B6

特征类型:类别特征,M1 / M2

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
M111452182998197519
M29413

复购频率的分布

B6

意见:意义不明

B7

特征类型:数值特征,浮点数

缺失率:0%

意见:意义不明;与 B2、B9 完全相同

B8

特征类型:日期特征,4 位数字 + days

缺失率:34.6224%

复购频率的分布

B8

意见:产品卖出时间(存疑)

B9

特征类型:数值特征,浮点数

缺失率:0%

意见:意义不明;与 B2、B7 完全相同

B10

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B10

意见:意义不明;与 B11 完全相同

B11

特征类型:数值特征,浮点数

缺失率:0%

意见:意义不明;与 B10 完全相同

B12

特征类型:空值

缺失率:100%

B13

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B13

意见:意义不明;与 B5、B14 强相关

B14

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B14

意见:意义不明;与 B5、B13 强相关

B15

特征类型:类别特征,A1 / A2

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
A111420582782196987
A2325220545

复购频率的分布

B15

意见:意义不明

B16

特征类型:类别特征,X1 / X2 / X3 / X4

缺失率:0%

训练集与测试集中每个类别的个数分布

训练集测试集总和
X111009079733189823
X2231235
X3409230377129
X4325220545

复购频率的分布

B16

意见:意义不明

B17

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

B17

意见:意义不明

B18

特征类型:空值

缺失率:100%

B19

特征类型:类别特征,X1 / X2 / X3 / X4

缺失率:50.4025%

训练集与测试集中每个类别的个数分布

训练集测试集总和
X1553193955894877
X2181230
X313269562282
X4141107248

复购频率的分布

B19

意见:意义不明


X3

C1

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C1

意见:意义不明

C2

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C2

意见:意义不明

C3

特征类型:数值特征,浮点数

缺失率:9.5025%

复购频率的分布

C3

意见:意义不明

C4

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C4

意见:意义不明

C5

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C5

意见:意义不明

C6

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C6

意见:意义不明

C7

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C7

意见:意义不明

C8

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C8

意见:意义不明

C9

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C9

意见:意义不明

C10

特征类型:数值特征,浮点数

缺失率:9.5025%

复购频率的分布

C10

意见:意义不明

C11

特征类型:数值特征,浮点数

缺失率:98.0637%

意见:缺失严重

C12

特征类型:数值特征,浮点数

缺失率:9.5025%

复购频率的分布

C12

意见:意义不明

C13

特征类型:数值特征,浮点数

缺失率:9.5025%

复购频率的分布

C13

意见:意义不明

C14

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C14

意见:意义不明

C15

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C15

意见:意义不明

C16

特征类型:数值特征,浮点数

缺失率:0.0298%

复购频率的分布

C16

意见:意义不明

C17

特征类型:数值特征,浮点数

缺失率:98.0637%

意见:缺失严重

C18

特征类型:数值特征,浮点数

缺失率:9.5025%

复购频率的分布

C18

意见:意义不明

C19

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C19

意见:意义不明

C20

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C20

意见:意义不明

C21

特征类型:数值特征,浮点数

缺失率:4.3938%

复购频率的分布

C21

意见:意义不明

C22

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

C22

意见:意义不明;只有 -0.030307 和 32.994714 两种值,且 -0.030307 的个数较多

C23

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C23

意见:意义不明

C24

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

C24

意见:意义不明

C25

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C25

意见:意义不明

C26

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C26

意见:意义不明

C27

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C27

意见:意义不明

C28

特征类型:数值特征,浮点数

缺失率:26.9139%

复购频率的分布

C28

意见:意义不明

C29

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C29

意见:意义不明

C30

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C30

意见:意义不明

C31

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C31

意见:意义不明

C32

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C32

意见:意义不明

C33

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C33

意见:意义不明

C34

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C34

意见:意义不明

C35

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C35

意见:意义不明

C36

特征类型:数值特征,浮点数

缺失率:35.5228%

复购频率的分布

C36

意见:意义不明

C37

特征类型:数值特征,浮点数

缺失率:71.8201%

复购频率的分布

C37

意见:意义不明;缺失较严重

C38

特征类型:数值特征,浮点数

缺失率:98.0637%

意见:缺失严重

C39

特征类型:数值特征,浮点数

缺失率:71.8201%

复购频率的分布

C39

意见:意义不明;缺失较严重

C40

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C40

意见:意义不明

C41

特征类型:数值特征,浮点数

缺失率:71.8201%

复购频率的分布

C41

意见:意义不明;缺失较严重

C42

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C42

意见:意义不明

C43

特征类型:数值特征,浮点数

缺失率:0.0298%

复购频率的分布

C43

意见:意义不明

C44

特征类型:数值特征,浮点数

缺失率:98.0637%

意见:缺失严重

C45

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C45

意见:意义不明

C46

特征类型:数值特征,浮点数

缺失率:0%

复购频率的分布

C46

意见:意义不明

C47

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C47

意见:意义不明

C48

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C48

意见:意义不明

C49

特征类型:数值特征,浮点数

缺失率:0.0596%

复购频率的分布

C49

意见:意义不明

y

取值范围:0、1、2

分布

y

意见:类别不平衡