前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不败给名词! 了解特征工程特征工程:2.特征预处理

不败给名词! 了解特征工程特征工程:2.特征预处理

作者头像
zhaoolee
发布于 2018-04-19 03:04:55
发布于 2018-04-19 03:04:55
1.1K00
代码可运行
举报
文章被收录于专栏:木子昭的博客木子昭的博客
运行总次数:0
代码可运行

基本概念: 人工智能 > 机器学习 > 深度学习 机器学习: 机器学习是从数据中自动分析获得规律(模型), 并利用规律对未知数据进行预测.

  • 根据用户喜好信息, 智能推荐商品(淘宝首页推荐)
  • 分析客服问答模型, 替代人工客服(JD客服)
  • 分析客户信用数据, 计算信贷额度(蚂蚁金服)

特征

对于人类个体而言姓名,年龄,性别,都是其自身的特征

特征值, 目标值

判定男女

  • 特征值(已知的): 身高, 体重, 头发长度, 体征(很多)
  • 目标值(未知的): 男, 女

样本

如果对全班学生成绩进行分析,一个学生就是一个样本


特征工程:

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性

  • 特征抽取
  • 特征预处理
  • 特征降维

1.特征抽取

1.1 字典特征抽取: 万能的0和1之字典特征抽取 (one-hot编码)

1.2 文本特征抽取: 对自然语言进行情感分析(CountVectorizer, TfidfVectorizer)

  • one-hot编码(字典,列表类型均可) 机器会将所有样本中, 出现过的特征统统列举出来,然后每个样本挨个比对所有特征,如果存在对应的特征则取1, 不存在则取0

one-hot

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 肖申克影评
xsk_text = """
豆瓣有人问,为啥肖申克评价这么高?他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已?其实救赎是对自己的破茧成蝶,每个人眼前都有一个模版,一个完美的人的样子,很美,很有灵魂,很有姿态,得到很多人爱。为什么自己总是做不好,自己总是不美?自己总是如此多的陋习?但是最后这一个人还是只能从自己的茧里面冲破而出,或许学会了飞,或许意境忘了怎么飞,但这个速度的快慢不会影响最早的结果,最终你还是要学会怎么从丑陋变得自信和自强~ 接受一个事实,在某个层面上,在三维时空看起来,蝴蝶都是一样的美,蝴蝶其实根本上长得一样~ 
"""
# 中文分词
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 实例化文本特征抽取
countvec = CountVectorizer()
# 填充并转换数据
data = countvec.fit_transform(xsk_list)
# 打印抽取的特征名
print(countvec.get_feature_names())
# 将数据以类one_hot编码方式展示
print(data.toarray())

2.特征预处理

通过特定的统计方法(数学方法)将数据转换成算法要求的数据

2.1 归一化

将某一列类型的数据,缩放到特定的范围(一般为缩放到0至1之间),相当于把满分为100分转换成满分为1分,原来百分制能考95分,现在只能算作0.95分

原始数据

归一化后

0, 0, 10

0, 0, 0

3, 3, 13

0.3, 0.15, 0.3

5, 5, 15

0.5, 0.25, 0.5

8, 8, 18

0.8, 0.4, 0.8

10, 20, 20

1, 1, 1

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.preprocessing import MinMaxScaler

# 创建实例
mm = MinMaxScaler()
# 原始数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 为实例填充并转换数据
data = mm.fit_transform(lee)
# 打印转换后的结果
print(data)

缺点: 如果最大值过大最小值过小异常, 就容易影响准确性

2.2标准化

  • 通过对原始数据进行变换,把数据变换到均值为0,方差为1范围内
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rom sklearn.preprocessing import StandardScaler

# 标准化实例化对象
std = StandardScaler()
# 创建数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并转换数据
data = std.fit_transform(lee)
# 打印转换后的数据
print(data)

均值为0, 方差小于等于1

  • 填充缺失值
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import numpy as np
from sklearn.preprocessing import Imputer

# 实例化填补缺失值的对象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 创建存在缺失值的数据
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并转换数据
data = imp.fit_transform(lee)
# 打印转换结果
print(data)

3. 数据降维

3.1 特征选择: 将某些低于特定方差的特征值过滤掉(特征较少时采用)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.feature_selection import VarianceThreshold

def var():
    """
    数据降维
    """
    
    var_thr = VarianceThreshold()

    # 第一列和第四列数据方差均为0, 会被消除
    lee = [
        [0, 2, 0, 10],
        [0, 1, 400, 10],
        [0, 1, 100, 10]]
    data = var_thr.fit_transform(lee)
    # 默认降维效果
    print("消除方差为0的特征列之后:")
    print(data)


    # 实例化variancethreshold,消除方差小于10的特征列
    var_thr2 = VarianceThreshold(threshold=10)
    # 填充并转换数据
    data2 = var_thr2.fit_transform(lee)
    # 打印结果
    print("消除方差小于10的特征列之后:")
    print(data2)

if __name__ == '__main__':
    var()

3.2主成分分析(PCA)特征较多时采用

用低维度表示高维度,例如用二维的照片表现出三维世界的立体感(尽可能损失较少的信息)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.decomposition import PCA

def my_pca():
    lee = [[10, 15, 20, 25],
           [11, 16, 21, 26],
           [20, 25, 30, 35]]
    # n_components为整数时,表示结果保留的特征数量, n_components为小数时,表示保留的特征信息的百分比
    i_pca = PCA(n_components=2)

    data1 = i_pca.fit_transform(lee)
    print("保留两个特征的结果为:")
    print(data1)

    f_pca = PCA(n_components=0.95)

    data2 = f_pca.fit_transform(lee)
    print("保留95%信息的结果为:")
    print(data2)


if __name__ == '__main__':
    my_pca()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.01.06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频监控汇聚平台EasyCVR视频监控录像的3种方式介绍
视频监控综合管理平台EasyCVR可以实现海量资源的接入、汇聚、计算、存储、处理等,平台具备轻量化接入能力,可支持多协议方式接入,包括主流标准协议GB28181、RTSP/Onvif、RTMP等,以及厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。
TSINGSEE青犀视频
2023/07/25
1K0
4G设备接入EasyGBS平台出现流量消耗异常,是什么原因?
TSINGSEE青犀视频的平台均可支持多网络类型接入,包括4G、WiFi、有线等,平台可在复杂的网络环境中,如内网、专网、公网、局域网等,将前端设备的音视频信息进行采集、传输、处理及分发等,实现全终端、全平台覆盖。
TSINGSEE青犀视频
2022/07/07
3890
安防监控市场发展6大趋势及LiteCVR视频监控技术应用方案
1)无人值守、智能化。随着人工智能技术的发展,安防监控设备不仅可以对场所进行实时监控,还可以通过图像识别、语音识别等技术实现智能化管理。
LiteMedia音视频技术
2023/12/08
3500
安防视频监控平台EasyCVR出现视频流播放卡顿情况,如何优化?
视频集中存储/云存储/视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。AI智能/大数据视频分析EasyCVR平台已经广泛应用在工地、工厂、园区、楼宇、校园、仓储等场景中。
TSINGSEE青犀视频
2023/10/18
2770
安防视频EasyCVR平台太阳能供电+4G摄像头视频监控方案的建设
在工地、光伏、风电站、水库河道等场景中,以及一些偏远地区的项目现场,会存在无网无电情况,大大制约了视频监控系统建设的效率及可行性。在这种场景中,我们也可以通过太阳能供电+4G监控摄像机的方案,满足偏远地区无网无电情况下的视频建设需求。
TSINGSEE青犀视频
2023/11/22
5310
为何4G监控设备接入LiteCVR后,阴雨天气频繁出现播放卡顿现象?
近年来,随着计算机、网络、图像处理以及传输技术的飞速发展,视频监控业务正在向其他领域加速渗透。
LiteMedia音视频技术
2023/10/12
2190
AI智能安防视频平台EasyCVR如何配置音视频同时传输?
EasyCVR支持海量视频汇聚管理,可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、智能分析等视频服务。平台支持设备通过国标GB28181、RTMP、RTSP/Onvif、海康SDK、大华SDK、Ehome等协议接入,对外可分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。
TSINGSEE青犀视频
2022/08/01
5660
安防视频监控/视频汇聚平台EasyCVR服务重启,海康SDK设备无法上线的原因排查
TSINGSEE青犀视频监控汇聚平台EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。旭帆科技平台既具备传统安防视频监控的能力,也具备接入AI智能分析的能力,包括对人、车、物、行为等事件的智能追踪与识别分析、抓拍、比对、告警上报、语音提醒等。
TSINGSEE青犀视频
2023/09/06
2540
2024年安防视频监控行业将面临4大机遇和挑战
当前安防监控市场处于快速发展的阶段,市场不仅有传统的视频监控、门禁系统等单一功能的设备,还涌现出了一系列集成多种安防功能的综合系统。随着人工智能技术的发展,安防监控设备不仅可以对场所进行实时监控,还可以通过图像识别、语音识别等技术实现智能化管理。伴随着互联网技术的进步,2024年安防监控行业将面临哪些机遇和挑战呢?
TSINGSEE青犀视频
2023/12/08
4680
科普:什么是视频监控平台?如何应用在场景中?
随着科技的发展,监控无处不在,就像一张密不透风的网,将生活中的角角落落都编织在一起。可是,你真的知道什么是安防视频监控平台吗?它可不止是一个简单的通电摄像头,如今的视频监控平台,涵盖了无数精密细致的算法与技术,是通过集成视频监控设备与软件系统,对指定区域或场所进行实时监控与数据管理的平台。下面就给大家介绍一下常见的安防视频监控平台应用方案示例:
TSINGSEE青犀视频
2023/09/21
3210
【解决方案】智慧城市:新基建风口下的智慧城市安防方案报告
随着我国城镇化水平不断提升,城镇人口密度持续增大,城市公共安全风险提升,亟需加快城市公共安全管理方式升级转变,提升城市管理精细化水平。在5G、AI、云计算、大数据、物联网等新兴技术迭代更新的驱动下,智能化已经成为安防行业的发展趋势。
TSINGSEE青犀视频
2021/03/03
2.4K0
安防监控视频融合EasyCVR平台非按需定时快照功能的设计与实现方法
EasyCVR视频融合平台基于云边端一体化架构,部署轻快、功能灵活,平台可支持多协议、多类型设备接入,包括:国标GB28181、RTMP、RTSP/Onvif、海康Ehome、海康SDK、大华SDK、宇视SDK等。在视频能力上,可实现视频直播、录像、回放、检索、云存储、告警上报、语音对讲、电子地图、集群、智能分析以及平台级联等。
TSINGSEE青犀视频
2023/07/07
1970
安防视频监控系统应该具备哪些技术?LiteCVR安防平台要点介绍
视频监控系统是现代社会中不可或缺的一部分,广泛应用于各个领域,如安全监控、交通监控、工业生产监控等。为了满足不同领域的需求,视频监控系统需要具备多种技术。
LiteMedia音视频技术
2023/12/01
3390
防溺水方案:安防监控视频/智能分析AI识别技术助力防溺水监管
溺水是造成许多人死亡的主要原因之一。无论是在游泳池、河流、湖泊还是海洋中,溺水都可能导致人们失去生命。即使没有造成死亡,溺水所引发的窒息和水下活动中的创伤等伤害,有可能引起长期甚至永久性的身体损伤,对个人和家庭造成巨大痛苦。因此,防止溺水是保护人们生命安全的关键。
TSINGSEE青犀视频
2023/08/31
5960
浅析安防监控系统/AI视频智能分析算法:河道水位超标算法应用
传统的水位水尺刻度尺位监测中,所采用的人工读数方式,效率较为低下且 人工成本较高,不利于作业流程的数字化。尽管感应器检测会自动对水位的模拟输入进行筛选,但是由于成本、使用场景要求高、后续日常维护复杂等多种因素,在一些场景下没法合理应用。
TSINGSEE青犀视频
2023/09/15
2380
浅析农场/农田区域入侵AI算法与视频监控技术的智慧农场解决方案
在我国的大江南北遍布着各种各样的农田、农场,针对这些地处偏僻的农场以及农田等环境,较为传统的安全防范方式是建立围墙,但是仅靠围墙仍然无法阻挡不法分子的有意入侵和破坏,因此为了及时发现和处理一些难以察觉的问题,则需要一套先进、科学、实用、稳定的安全防范报警系统来实现。
TSINGSEE青犀视频
2023/09/28
3200
视频监控系统EasyCVR接入国标GB28181设备无法播放设备录像,是什么原因?
安防视频监控平台EasyCVR支持将部署在监控现场的前端设备进行统一集中接入,可兼容多协议、多类型设备,管理员可选择任意一路或多路视频实时观看,视频画面支持单画面、多画面显示,视频窗口数量有1、4、9、16个可选,还能支持视频轮巡播放。视频监控平台/视频存储平台/视频智能分析平台EasyCVR可提供视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音对讲、云台控制、电子地图、H.265自动转码H.264、平台级联等视频能力。
TSINGSEE青犀视频
2023/09/12
2710
4G流量不翼而飞!EasyGBS未调阅视频播放却消耗了流量是什么原因?
一般在视频监控系统中,前端设备有三种传输方式,分别是网线、WiFi、4G传输。由于wifi传输对网络范围及网络稳定性要求较高,因此在范围较大的项目中并不太适合,一般较为常见的是网线和4G传输的摄像头。
TSINGSEE青犀视频
2021/05/19
4910
智能安防视频监控平台EasyCVR级联上级时无播放画面是什么原因?该如何解决?
视频汇聚/视频云存储/集中存储/视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、云存储、智能分析等,视频智能分析平台EasyCVR融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧工厂、智慧码头、智慧水利等场景中有着广泛的应用前景。
TSINGSEE青犀视频
2023/11/01
1880
智能分析/可视化安防监控系统EasyCVR风光互补远程视频监控方案
在一些偏远地区,也具有视频监控的需求。但是这类场景中,一般无法就近获取市电,如果要长距离拉取市电,建设的成本非常高且长距离传输有安全隐患,因此风光互补远程视频监控方案的需求也较多。利用风光电转化原理为偏远或无电区域的视频监控设备提供电力供应,从而满足偏远地区的视频监控用网用电需求。无需挖沟埋线、输变电设备、不消耗市电,并且维护费用低。
TSINGSEE青犀视频
2023/12/14
3730
推荐阅读
视频监控汇聚平台EasyCVR视频监控录像的3种方式介绍
1K0
4G设备接入EasyGBS平台出现流量消耗异常,是什么原因?
3890
安防监控市场发展6大趋势及LiteCVR视频监控技术应用方案
3500
安防视频监控平台EasyCVR出现视频流播放卡顿情况,如何优化?
2770
安防视频EasyCVR平台太阳能供电+4G摄像头视频监控方案的建设
5310
为何4G监控设备接入LiteCVR后,阴雨天气频繁出现播放卡顿现象?
2190
AI智能安防视频平台EasyCVR如何配置音视频同时传输?
5660
安防视频监控/视频汇聚平台EasyCVR服务重启,海康SDK设备无法上线的原因排查
2540
2024年安防视频监控行业将面临4大机遇和挑战
4680
科普:什么是视频监控平台?如何应用在场景中?
3210
【解决方案】智慧城市:新基建风口下的智慧城市安防方案报告
2.4K0
安防监控视频融合EasyCVR平台非按需定时快照功能的设计与实现方法
1970
安防视频监控系统应该具备哪些技术?LiteCVR安防平台要点介绍
3390
防溺水方案:安防监控视频/智能分析AI识别技术助力防溺水监管
5960
浅析安防监控系统/AI视频智能分析算法:河道水位超标算法应用
2380
浅析农场/农田区域入侵AI算法与视频监控技术的智慧农场解决方案
3200
视频监控系统EasyCVR接入国标GB28181设备无法播放设备录像,是什么原因?
2710
4G流量不翼而飞!EasyGBS未调阅视频播放却消耗了流量是什么原因?
4910
智能安防视频监控平台EasyCVR级联上级时无播放画面是什么原因?该如何解决?
1880
智能分析/可视化安防监控系统EasyCVR风光互补远程视频监控方案
3730
相关推荐
视频监控汇聚平台EasyCVR视频监控录像的3种方式介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验