特征离散化概述

文章目录

定义

连续特征离散化是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散值关联起来。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。

背景

连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力

步骤

1.对连续特征值按照某种指定的规则进行排序
2.初步确定连续属性的划分断点
3.按照某种给定的判断标准继续分割断点或合并断点
4.如果第三步得到判断标准的终止条件，则终止整个连续特征离散化的过程，否则继续按第三步执行

主要方法

等距离散

取值范围均匀划成n等份，每份的间距相等

等频离散

均匀分为n等份，每份内包含的观察点数相同

优化离散

大致有两类方法：
1. 卡方检验方法：（统计样本的实际观测值与理论推断值之间的偏离程度，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合）
– 分裂方法：找到一个分裂点看，左右2个区间，在目标值上分布是否有- 显著差异，有显著差异就分裂，否则就忽略。这个点可以每次找差异最大的点
– 合并方法：先划分如果很小单元区间，按顺序合并在目标值上分布不显著的相邻区间，直到收敛
2. 信息增益方法：
– 分裂方法：找到一个分裂点看，左右2个区间，看分裂前后信息增益变化阈值，如果差值超过阈值（正值，分列前-分裂后信息熵），则分裂。每次找差值最大的点做分裂点，直到收敛
– 合并方法：先划分如果很小单元区间，按顺序合并信息增益小于阈值的相邻区间，直到收敛

优点

1. 易于模型的快速迭代
2.稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展
3.离散化后的特征对异常数据有很强的鲁棒性
4 提升了逻辑回归模型的表达能力，加大拟合
5.模型更稳定
6.简化逻辑回归模型，降低其过拟合风险没有任何离散化算法可以适用于任何环境下，在实际应用时需要根据数据集的特点和学习环境等选择合适的离散化方法，而关联规则分析中的离散化既需要考虑各特征间的内在联系，又需要考虑在没有类信息的情况下对数据集进行有效的离散化。

参考

https://wenku.baidu.com/view/a6cffadd5122aaea998fcc22bcd126fff7055dd1.html

https://blog.csdn.net/evillist/article/details/77962435

特征离散化概述

文章目录

定义

背景

步骤

主要方法

等距离散

等频离散

优化离散

优点

参考

大模型AlpacaFarm分析

NLG文本评估任务或许并不需要真值或参考文本

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

留下评论取消回复

文章目录

定义

背景

步骤

主要方法

等距离散

等频离散

优化离散

优点

参考

相关文章

留下评论取消回复