AI人工智能之机器学习sklearn-数据预处理和划分数据集

news/2025/2/25 10:17:44

1、概要

  本篇学习AI人工智能机器学习sklearn数据预处理和划分数据集,从代码层面讲述如何进行数据的预处理和数据集划分。

2、简介

本片讲述数据预处理的标准化处理、归一化处理,以常用的两个类为例

  • 标准化处理类 StandardScaler
  • 归一化处理类 MinMaxScaler

在数据处理方面,使用train_test_split函数处理列表数据集为例

3、 数据预处理和数据集划分

3.1 安装依赖

python安装机器学习库: pip install scikit-learn

3.2、定义数据集
python">from sklearn.feature_extraction import text, DictVectorizer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split

# 示例数据集合,是一个经过处理的列表数据  X
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
print("data:", X)

# 示例打标的数据,
y = [0, 1, 0, 1]
print("tag", y)

运行上述代码,您将得到如下输出:

data: [[1, 2], [3, 4], [5, 6], [7, 8]]
tag [0, 1, 0, 1]
3.3 数据预处理 StandardScaler、MinMaxScaler
python"># 标准化处理
ss = StandardScaler()
# 将特征缩放到零均值和单位方差
X = ss.fit_transform(X)
X

运行上述代码,您将得到如下输出:

array([[-1.34164079, -1.34164079],
       [-0.4472136 , -0.4472136 ],
       [ 0.4472136 ,  0.4472136 ],
       [ 1.34164079,  1.34164079]])
python"># 归一化处理
mms = MinMaxScaler()
# 将特征缩放到一个范围(如[0,1])
X = mms.fit_transform(X) 
X

运行上述代码,您将得到如下输出:

array([[0.        , 0.        ],
       [0.33333333, 0.33333333],
       [0.66666667, 0.66666667],
       [1.        , 1.        ]])
3.4 划分数据集 train_test_split
python"># 划分训练集 _train, 测试集 _test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print(f"训练集: {X_train} - {y_train}")
print(f"测试集: {X_test} - {y_test}")

运行上述代码,您将得到如下输出:

训练集: [[1.         1.        ]
 [0.         0.        ]
 [0.66666667 0.66666667]] - [1, 0, 0]
测试集: [[0.33333333 0.33333333]] - [1]

4、 总结

本篇以自定义数据集为例,从代码视角讲述如何对数据集进行预处理和数据集的划分。


http://www.niftyadmin.cn/n/5865370.html

相关文章

【Spark+Hadoop】基于Spark大数据小说数据分析推荐系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅

目录 一、项目背景 二、项目目标 三、项目功能 四、项目优势 五、开发技术介绍 六、算法介绍 七、启动部署教程​ 八、项目展示 九、权威教学视频 需要全部项目资料(完整系统源码等资料),主页即可。 一、项目背景 随着网络小说行业…

WPF-Avalonia实践一两个页面的相关传递

文章目录 注册两个ViewModel关联-Interaction在 Avalonia 框架中的 Interaction作用目的典型的使用场景显示对话框:文件操作:定义交互属性示例代码视图层处理交互总结例子-实现两个界面信息传递Interaction注册在主VIEWModel中注册异步方法按钮主viewModel对应的显示xaml-使用…

MySQL的InnoDB引擎中的聚簇索引和非聚簇索引有什么区别?

聚簇索引:聚簇索引之所以叫聚簇索引,是因为它将数据存储与索引放到了一块。聚簇索引采用 B 树的数据结构,它的非叶子节点存储索引键值 和 指向子节点的指针,叶子节点存储 完整的数据行。一个表只能有一个聚簇索引,聚集…

Linux项目自动化构建工具-make/Makefile (linux第六课)

目录 背景 介绍 依赖关系的格式 依赖方法的格式 原理 背景 会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力一个工程中的源文件不计数,其按类型、功能、模块分别放在若干个目录中,makefile定义了一系列的规则来指定…

【杂谈】-强化学习遇见链式思维:将大型语言模型转变为自主推理代理

强化学习遇见链式思维:将大型语言模型转变为自主推理代理 文章目录 强化学习遇见链式思维:将大型语言模型转变为自主推理代理1、LLMs中自主推理的必要性1.1 传统LLMs的局限性1.2 链式思维(CoT)提示的不足1.3 推理中强化学习的必要…

sklearn中的决策树-分类树:剪枝参数

剪枝参数 在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树 往往会过拟合。为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策…

CoralStyle CLIP 技术浅析(四):多层次特征融合

CoralStyle CLIP 是一种结合了 CLIP(Contrastive Language–Image Pretraining)和 CoralStyle 多风格图像生成技术的模型。其核心在于通过多层次特征融合技术,将文本和图像的特征进行高效融合,从而实现跨模态的语义对齐和风格化生成。 1. 多层次特征提取 1.1 图像特征提取…

ELK之elasticsearch基本使用教程

文章目录 ELK包含技术elasticsearch基本介绍倒排索引正向索引倒排索引正向和倒排 es的一些概念文档和字段索引和映射mysql与elasticsearch 安装es、kibana创建网络加载镜像安装分词插件 索引库操作mapping映射属性索引库的CRUD创建索引库和映射基本语法:示例&#x…