基本概念: 人工智能 > 机器学习 > 深度学习 机器学习: 机器学习是从数据中自动分析获得规律(模型), 并利用规律对未知数据进行预测.
特征
对于人类个体而言姓名,年龄,性别,都是其自身的特征
特征值, 目标值
判定男女
样本
如果对全班学生成绩进行分析,一个学生就是一个样本
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
one-hot
from sklearn.feature_extraction.text import CountVectorizer
import jieba
# 肖申克影评
xsk_text = """
豆瓣有人问,为啥肖申克评价这么高?他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已?其实救赎是对自己的破茧成蝶,每个人眼前都有一个模版,一个完美的人的样子,很美,很有灵魂,很有姿态,得到很多人爱。为什么自己总是做不好,自己总是不美?自己总是如此多的陋习?但是最后这一个人还是只能从自己的茧里面冲破而出,或许学会了飞,或许意境忘了怎么飞,但这个速度的快慢不会影响最早的结果,最终你还是要学会怎么从丑陋变得自信和自强~ 接受一个事实,在某个层面上,在三维时空看起来,蝴蝶都是一样的美,蝴蝶其实根本上长得一样~
"""
# 中文分词
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 实例化文本特征抽取
countvec = CountVectorizer()
# 填充并转换数据
data = countvec.fit_transform(xsk_list)
# 打印抽取的特征名
print(countvec.get_feature_names())
# 将数据以类one_hot编码方式展示
print(data.toarray())
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
将某一列类型的数据,缩放到特定的范围(一般为缩放到0至1之间),相当于把满分为100分
转换成满分为1分
,原来百分制能考95分,现在只能算作0.95分
原始数据 | 归一化后 |
---|---|
0, 0, 10 | 0, 0, 0 |
3, 3, 13 | 0.3, 0.15, 0.3 |
5, 5, 15 | 0.5, 0.25, 0.5 |
8, 8, 18 | 0.8, 0.4, 0.8 |
10, 20, 20 | 1, 1, 1 |
from sklearn.preprocessing import MinMaxScaler
# 创建实例
mm = MinMaxScaler()
# 原始数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 为实例填充并转换数据
data = mm.fit_transform(lee)
# 打印转换后的结果
print(data)
缺点: 如果
最大值过大
或最小值过小
异常, 就容易影响准确性
rom sklearn.preprocessing import StandardScaler
# 标准化实例化对象
std = StandardScaler()
# 创建数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并转换数据
data = std.fit_transform(lee)
# 打印转换后的数据
print(data)
均值为0, 方差小于等于1
import numpy as np
from sklearn.preprocessing import Imputer
# 实例化填补缺失值的对象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 创建存在缺失值的数据
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并转换数据
data = imp.fit_transform(lee)
# 打印转换结果
print(data)
from sklearn.feature_selection import VarianceThreshold
def var():
"""
数据降维
"""
var_thr = VarianceThreshold()
# 第一列和第四列数据方差均为0, 会被消除
lee = [
[0, 2, 0, 10],
[0, 1, 400, 10],
[0, 1, 100, 10]]
data = var_thr.fit_transform(lee)
# 默认降维效果
print("消除方差为0的特征列之后:")
print(data)
# 实例化variancethreshold,消除方差小于10的特征列
var_thr2 = VarianceThreshold(threshold=10)
# 填充并转换数据
data2 = var_thr2.fit_transform(lee)
# 打印结果
print("消除方差小于10的特征列之后:")
print(data2)
if __name__ == '__main__':
var()
特征较多时采用
用低维度表示高维度,例如用二维的照片表现出三维世界的立体感(尽可能损失较少的信息)
from sklearn.decomposition import PCA
def my_pca():
lee = [[10, 15, 20, 25],
[11, 16, 21, 26],
[20, 25, 30, 35]]
# n_components为整数时,表示结果保留的特征数量, n_components为小数时,表示保留的特征信息的百分比
i_pca = PCA(n_components=2)
data1 = i_pca.fit_transform(lee)
print("保留两个特征的结果为:")
print(data1)
f_pca = PCA(n_components=0.95)
data2 = f_pca.fit_transform(lee)
print("保留95%信息的结果为:")
print(data2)
if __name__ == '__main__':
my_pca()
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有