方法 | 说明 | |
---|---|---|
无监督分箱 | 等宽分箱 | 将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。即每个箱的区间范围是一个常量,称为箱子宽度。 |
等频分箱 | 把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱。比如说 N=10 ,每个区间应该包含大约10%的实例。 | |
自定义分箱 | 用户可以根据需要自定义区间 | |
聚类分箱 | ||
有监督分箱 | Best-KS分箱 | 基于变量ks指标最优的划分方法 |
卡方分箱 | 有效的特征,不同箱体之间应该具有不同的类分布。卡方分箱就是自底向上,合并类分布相似的相邻箱体,即合并卡方值较小的箱体 | |
最小熵分箱 | 分箱后达到最小熵。使得总体信息的不确定性降到最低 |
-
Notifications
You must be signed in to change notification settings - Fork 0
几种常见的特征分箱与可视化的方法
License
itlubber/optimal_binning_methods
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
几种常见的特征分箱与可视化的方法
Topics
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published