Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI 重新定义 Web 安全

AI 重新定义 Web 安全

原创
作者头像
钱曙光
修改于 2017-10-12 01:29:36
修改于 2017-10-12 01:29:36
1.3K0
举报
文章被收录于专栏:钱曙光的专栏钱曙光的专栏

作者:丛磊,白山合伙人兼工程副总裁。2016年加入白山,主要负责云聚合产品的研发管理和云链产品体系构建等。2006年至2015年就职于新浪,原SAE(SinaAppEngine)创始人,曾任总负责人兼首席架构师,2010年起,带领新浪云计算团队从事云相关领域的技术研发工作。(注:SAE是国内最大的公有云PaaS平台,拥有70万用户)拥有10项发明专利,现任工信部可信云服务认证评委。

云给安全带来的影响

距离2006年Amazon发布EC2服务已经过去了11年,在这11年里,发生的不仅仅是AWS收入从几十万美金上涨到100多亿美金,更重要的是云计算已经走进每一家企业。根据信通院发布的“2016云计算白皮书”,目前近90%的企业都已经开始使用云计算(包括公有云、私有云等),这说明大规模云化对于企业而言已经不只是趋势,更是确凿的既成事实。

云化普及的同时也给安全带来很多挑战,主要包括:

云化导致以硬件设备为主的传统安全方式失效。我在跟企业交流时,不止一家企业提出了这样的担心:在上公有云的过程中,因为无法把已购买的硬件防护搬到云上,所以非常担心业务安全性。有趣的是,他们对于上云后的流量层攻击反倒不担心,因为他们认为云上的高防IP等产品可以解决大部分问题。云化导致了业务层的安全空白,这不仅发生在公有云环境,在私有云环境也时有发生,以OpenStack Icehouse版本为例,至今仍缺少能够有效横向扩展的Web安全组件。

云化导致攻击/作恶成本大大降低。云是IT领域里“共享经济”的再升级,从最早的IDC租用升级进化到Linux kernel namespace租用,但这种“共享经济”在给企业带来成本降低、使用便利等益处的同时,也顺便给攻击者带来了同样的好处。按目前市场行情,攻击者租用一个公网弹性IP的成本可低至1元/天,租用一个IaaS平台的hypervisor层的计算环境,每日成本也只有几元,如果是container层的计算环境,成本还要更低。如此低的成本,致使攻击者不再像过去那样花大力气挖掘培养肉机,而是可以在瞬间轻松拥有用于攻击的计算网络资源。以白山服务的某著名互联网招聘领域客户为例,攻击者最多可以在一天内动用上万个IP以极低的频率爬取核心用户简历。

云化导致业务可控性降低,遭遇攻击的风险大大提高。实际上云客观造成了业务的复杂性和不可控性:大量自身或合作方的业务都跑在同一个云上,其中任何一个业务被攻击,都有可能对其他部分造成影响。不可否认,现有的hypervisor隔离技术很成熟,以CPU为例,通过计算时间片分配进而在执行指令间插入各种自旋锁可以精确控制执行体的CPU分配,其他资源包括内存、IO也都可以恰当的控制。但在所有资源里,隔离性最脆弱的就是网络,尤其是公网,毕竟NAT出口、域名等很难被隔离。

所以,我们不得不面对这样的现实:在享受云计算时代红利的同时,面临的业务层安全问题也越来越严重。

安全产品需要变革

遗憾的是,很多传统安全产品并没有跟上这个时代。最明显的例子,15年前的防火墙就依靠着在命令行设定各种各样的policy工作;而15年后的今天,一切的变化只是由命令行设定policy变成了界面设置policy,这不得不说是一种悲哀!

对于传统安全产品,设定policy是一种痛苦

我曾经听某著名安全厂商的布道师演讲,“买了我们的产品不代表你的业务就安全了,你必须学会怎么配置!”,这话听起来有道理,但遗憾的是,大多数公司的安全人员并不是公司的业务开发者,他们不知道业务页面应该从哪个referer过来、不应该接受哪个user-agent的请求,也不知道某个接口应该接受哪些参数,甚至不知道业务对于单个用户的合理访问频率区间。更遗憾的是,这些传统安全产品价值不菲,在你花了上百万银子后,很可能毫无作用,而最悲哀之处在于“你以为它在起作用!”

传统的安全产品因为必须要串接到业务中间,这带来了极大的不稳定性。虽然某些先进的硬件机制可以通过技术降低这个风险,但仍不可避免的是:串接会带来性能延迟+带宽瓶颈。有些企业一开始购买了100Mbps吞吐量的硬件安全产品,但当业务突增时,硬件却无法自由横向扩容。更麻烦的是,串行模式一旦分析的维度变得复杂(如策略变多时),就注定会造成业务的访问延迟;而分析维度一旦少,如退化为只做固定时间内访问频率限制,又会造成识别错误率上升。这是传统安全产品无法解决的永恒矛盾体。

不幸的是,虽然传统安全产品存在诸多问题,但很多用户仍在默默忍受,甚至习惯了每天配置策略的工作。但这并不意味着合理。

在不便中,一直蕴藏着技术革新的机会!这时,机器学习来了!

机器学习是解决安全问题的金钥匙

机器学习发展史

机器学习其实早已到来。由上图中可以看出,目前大红大紫的深度学习,其源头-神经网络,早在上世纪70年代就已经被提出。从上世纪80年代到本世纪,机器学习本身经历了几次平淡期和爆发期,随着大数据的发展和一些热点事件(如AlphaGo战胜李世石)机器学习又一次进入爆发期。

那么大数据和机器学习具有什么关系呢?这还要和深度学习挂钩,从理论上讲,深度学习本质上是利用多层的神经网络计算,代替传统特征工程的特征选取,从而达到媲美甚至超越传统特征工程进行分类算法的效果。基于这个逻辑,当标注样本足够多时(即所谓“大数据”),通过深度学习就可以构造出非常强大的分类器,如判断一个围棋的棋局对哪方有利。

AI随着目前深度学习的火爆看似非常强大,但不幸的是,坦白讲目前AI的发展成熟度远没有达到可以取代人脑抑或接近人脑的水平。根据图灵测试理论,AI本身要解决的问题无外乎:识别、理解、反馈。

这三个问题逐步递进,真正智能的机器人最终可以跟人脑一样反馈,从而在图灵测试中无法区分它是人还是机器。

按当前AI发展情况,“识别”的进展目前效果最好,无论是图像、语音还是视频,目前很多厂商都可以做到很高的识别率;但“理解”就差强人意了,大家都用过苹果的Siri,它还未能达到与人真正对话的程度;而反馈就更难了,这要求在理解的基础上不断地应变,同一个问题可能因对方身份、心情、交流场合不同,以不同的语气语调做出不同反应。

所以,目前应用机器学习效果非常好的领域,几乎都是某个特定领域内的识别问题,并非通用领域,如人脸识别、人机对弈(人机对弈本质上也是某个棋种领域的识别问题:机器通过学习成千上万的棋局后,就可以自动识别某一棋局在一方走的情况下对谁有利。)

非常幸运的是,安全领域中问题大多是特定场景下的识别问题,而非通用场景,也并未涉及理解和反馈,你只需要把相关数据交给机器学习系统,让它做出识别判断即可:安全或者不安全,不安全的原因。

正因为安全问题本质是特定领域内的识别问题,所以从理论上讲,机器学习非常适合应用在安全领域,是解决安全问题的金钥匙。

安全结合机器学习的难点

虽然机器学习早已存在,但是长久以来并未改变安全市场,以“土办法(设定策略)”立足的产品仍旧占据主导地位,究其原因,主要有以下几点:

1.不同于其他通用领域,安全领域的样本标注成本较高。对于机器学习而言,拥有海量、完整、客观、准确的标注样本异常重要,标注样本越多、越全面,训练出来的分类器才可能越准确。对于所有行业来讲,获取样本(标注样本)都并不容易,而安全领域尤为困难。如对人脸识别的标注,初中生甚至小学生就可以完成,但对于一次安全的威胁事件,就需要极具经验的安全人员才可以完成,两者的成本差距十分巨大。

某个注入攻击

如上图所示,这个注入攻击经多次复杂编码,非专业人事很难进行样本标注。所以目前在通用场景下,之所以安全领域中深度学习落地并不多,主要原因也是很难获取海量的标注数据。

2.不同于通用领域,安全领域的场景特点更加明显,判断攻击的标准会随着业务特点的不同而不同。以最简单的CC攻击为例,600次/ 分钟的访问对于某些企业可能意味着破坏性攻击,但对其它企业则属于正常访问范围。所以,即便有大量的标注样本,某一企业的标注样本可能对于其他企业毫无用处,这也是导致安全领域应用机器学习较为困难的另一个重要原因。

3.针对传统的文本型攻击,传统思维认为简单的特征工程,甚至直接的正则匹配更有效。

我们把Web攻击分为行为型攻击和文本型攻击两类:

  • 行为型攻击:每个请求看起来都是正常的,但将其连接成请求走势图时,就会发现问题,如爬虫、撞库、刷单、薅羊毛等。以刷粉行为为例:每个请求看起来都是正常的,但攻击者可能动用大量IP在短时间内注册大量账号,并关注同一个用户。只有我们把这些行为连接起来一起分析时,才能发现问题。
  • 文本型攻击:传统的漏洞类攻击,如SQL注入、命令注入、XSS攻击等,单纯的把一个请求看成是一段文本,通过文本的特征即可识别其是否为攻击。

当特征的维度空间较低,且有些维度的区分度很高时,通过简单的线性分类器,就可以实现不错的准确率,例如我们简单的制定一些SQL注入的正则规则,也可以适用于很多场景。但是,这样的传统思维却忽略了召回率问题,实际上也很少有人知道,通过SQL注入的正则规则,可以达到多少的召回率。同时,在某些场景,假如业务的正常接口通过JSON传递SQL语句,那么这种基于正则规则的分类器就会产生极高的误判。

然而传统安全厂商还尚未意识到这些问题。

4.传统安全人员并不了解机器学习。这是一个不争的事实,大量传统安全公司的安全人员精于构造各种漏洞探测、挖掘各种边界条件绕过,善于制定一个又一个的补丁策略,却并不擅长AI机器学习方面的内容,这也说明了这种跨界人才的稀缺和重要。

正是由于以上原因,AI智能的安全产品迟迟没有出现,但没人可以否认,用户其实早已厌倦policy驱动的规则模式,期待有一种可以适应大多数场景、能够针对行为或文本做深入分析、不需要复杂配置就可以达到高准确率和召回率的Web安全产品。

于是,我们用AI重新定义Web安全,因为我们坚信异常行为和正常行为可以通过特征识别被区分。

用AI重新定义Web安全

那如何解决安全领域的样本标注问题呢?机器学习分为两大类:监督学习和无监督学习。监督学习要求有精准的标注样本;而无监督学习则无需标注样本,即可以针对特征空间进行聚类计算。在标注困难的安全领域,显然无监督学习是一把利器。

应用无监督学习

无监督学习无需事先准备大量标注样本,通过特征聚类就可以将正常用户和异常用户区分开,从而避免大量样本标注的难题。聚类的方式有很多,如距离聚类、密度聚类等,但其核心仍是计算两个特征向量的距离。在Web安全领域,我们获得的数据往往是用户的HTTP流量或 HTTP日志,在做距离计算时,可能会遇到一个问题:每个维度的计算粒度不一样,如两个用户的向量空间里HTTP 200返回码比例的距离是两个float值的计算,而request length的距离则是两个int值的计算,这就涉及粒度统一归一化的问题。在这方面有很多技巧,比如可以使用Mahalanobis距离来代替传统的欧式距离,Mahalanobis距离的本质是通过标准差来约束数值,当标准差大时,说明样本的随机性大,则降低数值的权值,反之,当标准差小的时候,说明样本具有相当的规律性,则提高数值的权值。

无监督的聚类可以利用EM计算模型,可以把类别、簇数或者轮廓系数(Silhouette Coefficient)看成EM计算模型中的隐变量,然后不断迭代计算来逼近最佳结果。最终我们会发现,正常用户和异常聚成不同的簇,之后就可以进行后续处理了。当然,这只是理想情况,更多情况下是正常行为与异常行为分别聚成了很多簇,甚至还有一些簇混杂着正常和异常行为,那么这时就还需要额外技巧处理。

学习规律

无监督聚类的前提是基于用户的访问行为构建的向量空间,向量空间类似:

key1:value1,key2:value2,key3:value3...

这里就涉及两个问题:“如何找到key”以及“如何确定value”。

找到合适的key本质是特征选择问题,如何从众多的特征维度中,选择最具有区分度和代表性的维度。为什么不像某些DeepLearning一样,将所有特征一起计算?这主要是考虑到计算的复杂度。请注意:特征选择并不等同于特征降维,我们常用的PCA主成分和SVD分解只是特征降维,本质上DeepLearning的前几层某种意义上也是一种特征降维。

特征选择的方法可以根据实际情况进行。实验表明在有正反标注样本的情况下,随机森林是一个不错的选择。如果标注样本较少或本身样本有问题,也可以使用Pearson距离来挑选特征。

最终,用户的访问行为会变成一组特征,那特征的value如何确定?以最重要的特征——访问频率为例,多高的访问频率值得我们关注?这需要我们对于每个业务场景进行学习,才能确定这些key的value。

学习的规律主要包括两大类:

  1. 行为规律:自动找出路径的关键点,根据状态转移概率矩阵,基于PageRank的power method计算原理,网站路径的状态转移矩阵的最大特征值代表的就是其关键路径(关键汇聚点和关键发散点),然后顺着关键点,就可以学习到用户的路径访问规律。
  2. 文本规律:对于API,可以学习出其输入输出规律,如输入参数数量、每个参数的类型(字符串or数字or邮箱地址等)、参数长度分布情况,任何一个维度都会被学习出其概率分布函数,然后就可以根据该函数计算其在群体中的比例。即便是最不确定的随机分布,利用切比雪夫理论也可以告诉我们这些值异常。例如:假如GET /login.php?username=中的username参数,经过统计计算得出平均长度是10,标准差是2,如果有一个用户输入的username长度是20,那么该用户的输入在整体里就属于占比小于5%群体的小众行为。

通过特征选择和行为、文本规律学习,我们就可以构建出一套完整且准确的特征空间将用户的访问向量化,进而进行无监督学习。

让系统越来越聪明

如果一个系统没有人的参与,是无法变得越来越聪明的,强大如AlphaGo也需要在同人类高手对弈中不断强化自己。在安全领域,虽然完全的样本标注不可能,但是我们可以利用半监督学习的原理,挑选具有代表性的行为交给专业的安全人员判断,经过评定校正,整个系统会越发聪明。安全人员的校正可以与强化学习和集成学习结合实现,对于算法判断准确的情况,可以加大参数权重,反之则可以适当减少。

类似的想法出现于国际人工智能顶级会议CVPR 2016的最佳论文之一,“AI2: Training a big data machine to defend”,MIT的startup团队,提出了基于半监督学习的AI2系统,可以在有限人工参与的情况下,让安全系统更安全更智能。

重新定义Web安全

基于上述几点,我们基本可以勾勒出基于AI的Web安全的基本要素:

AI Web安全技术栈

从图中可以看到,所有算法均包含在实时计算框架内。实时计算框架要求数据流的输入、计算、输出都是实时的,这样才可以保证在威胁事件发生时系统迅速做出反应。但是,实时计算的要求也增加了很多挑战和难点,一些传统离线模式下不是问题的问题,在实时计算下会突然变成难题。如最简单的中位数计算,要设计一套在实时流输入的情况下同时还能保证准确性的中位数算法并不容易,T-digest是一个不错的选择,可以限定在O(K)的内存使用空间。还有一些算法可以实现在O(1)内存占用的情况下计算相对准确的中位数。

综上所述,我们可以看出利用AI实现Web安全是一个必然的趋势,它可以颠覆传统基于policy配置模式的安全产品,实现准确全面的威胁识别。但是,构造基于AI的安全产品本身也是一个复杂的工程,它涉及特征工程、算法设计和验证,以及稳定可靠的工程实现。

ATD深度威胁识别系统

白山一直在基于AI的Web安全方面探索,并于2017年7月正式推出ATD(Advanced Threat Detection,深度威胁识别)产品,可以准确识别并拦截各种行为或者文本攻击,包括爬虫、恶意注册、撞库、刷单刷票、薅羊毛、各种注入攻击脚本攻击等,短短半年内已经积累了30余家大中型企业客户。实践证明,机器学习确实在Web安全方面收效颇佳,如:

  • 国内某Top3招聘网站,长期以来一直被爬取简历,这些恶意爬虫非常智能,在User-agent、referer等字段上完全模拟正常用户,并内嵌PhantomJS,可以执行JavaScript脚本,使传统的JS跳转防御方式完全失效。这些爬虫动用大量弹性IP,以极低频率抓取,据统计,单个客户端每天最低可以低至十次以下,传统的安全产品对此完全丧失防御能力。而基于机器学习的 ATD则可以通过特征向量建模,准确区分低频爬虫与正常用户行为。经验证,准确率高达99.98%。
  • 国内某Top3直播平台,存在大量的恶意刷分刷排名情况,这种行为破坏了平台的公平性,本质上损害了平台利益。作恶团伙事先批量注册大量小号,在需要时冲排名。这些行为显然传统安全产品无能为力,某些新兴安全产品虽然可以解决,但需要大量定制化规则,通用性较差。机器学习算法正好弥补了以上不足,通过行为分析可以计算出关键路径和规律,然后利用子图识别等算法分析出作恶团伙,最终输出ID账号。经用户验证,ATD的准确率高达99%以上,召回率比传统安全产品提高10倍以上。

总之,基于AI的Web安全是新兴的技术领域,虽然目前还处于发展期,但最终一定会取代以policy为驱动的传统安全产品,成为保证企业Web安全的基石。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从SIEM&AI到SIEM@AI | AI构建下一代企业安全大脑
SIEM是企业安全的核心中枢,负责收集汇总所有的数据,并结合威胁情报对危险进行准确的判断和预警。但传统的SIEM过度依靠人工定制安全策略,不仅仅增加了人力成本,而且整个SIEM的识别准确率和使用效果也都大打折扣。而目前附带AI功能的SIEM系统也只是把AI当成算法插件作为集成,无法在没有安全人员介入的情况下独立的智能工作。
钱曙光
2019/07/02
1.2K0
从SIEM&AI到SIEM@AI | AI构建下一代企业安全大脑
AI应用实战课学习总结(1)必备AI基础理论
由于公司的愿景逐渐调整为ONE Tech Company,公司的IT战略也逐渐地朝着Data & AI Driven发展,因此近半年来我一直在学习大模型相关的东西,从ChatGPT到Agent都有所涉及。
郑子铭
2025/02/10
1420
AI应用实战课学习总结(1)必备AI基础理论
图解 72 个机器学习基础知识点
人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念,人工智能的最终目标是使计算机能够模拟人的思维方式和行为。
算法进阶
2023/08/28
4310
图解 72 个机器学习基础知识点
AI探索(一)基础知识储备
凡是通过机器学习,实现机器替代人力的技术,就是AI。机器学习是什么呢?机器学习是由AI科学家研发的算法模型,通过数据灌输,学习数据中的规律并总结,即模型内自动生成能表达(输入、输出)数据之间映射关系的特定算法。这整个过程就是机器学习。
周希
2019/10/15
5170
拿来就能用!如何用 AI 算法提高安全运维效率?
在整个安全工作中,安全运维是不可或缺的一环,其目的是保证各项安全工作持续有效地运作。除了对外的沟通和业务对接相关工作,大部分安全运维的日常工作相对固定,如漏洞审核、安全产品运维、日志审计和应急响应等工作。
AI科技大本营
2019/12/10
7380
拿来就能用!如何用 AI 算法提高安全运维效率?
AI in WAF | 腾讯云网站管家 WAF AI 引擎实践(下篇)
 导语: 网站管家 WAF:基于 AI 技术,构建自学习、自进化及自适应机制的 Web 攻击检测方案,帮助企业安全团队真正实现自动化的、无人干预的 Web 安全运维,前路依然任重而道远。 在 AI in WAF 系列的上篇中,我们提到 AI 应用于 WAF 中存在诸多难以突破的技术问题,这包括行业面临的 Web 攻击样本稀少带来的 AI 检测模型建立困难、AI 算法在线 Web 攻击检测的处理性能等问题。因此,在 AI in WAF 实践中要实现两个关键突破: 第一 、AI 算法应用层面的突破,解决 AI
腾讯云安全
2018/07/31
13.5K0
谭晓生解读:AI如何重塑网络安全的未来?
● 攻防速度不对等:攻击者突破防线、偷走数据的速度远远快于防守方发现攻击、阻断攻击的速度,防守方的响应速度不够快。
TVP官方团队
2024/07/09
5850
谭晓生解读:AI如何重塑网络安全的未来?
一文带你硬核踏入机器学习的大门!
有几天没更博客了,主要这几天一直忙着知识回顾和投简历,所以写博客的任务就一直被耽搁了。
大数据梦想家
2021/01/27
4000
一文带你硬核踏入机器学习的大门!
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解大数据生态中的机器学习,并按照传统机器学习(包括分类、聚类、回归、关联规则、协同过滤、数据降维等)、深度学习,以及其他机器学习(迁移学习、主动学习、演化学习)进行算法讲解。
IT阅读排行榜
2019/04/24
14K0
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
他们如何做大数据、人工智能 | RSA 进阶篇
中国计算机学会今天在北京主办了 RSA2017热点研讨会,RSA作为全球信息安全峰会,一直备受国内关注,会议是快速了解全球安全趋势的风向标,更是影响安全产业转型与持续发展的重要会议平台。腾讯云安全的技术专家参会后也对会上热点进行了总结,特别关注了云安全这个方向。本文是参会同事在内部的一个分享,综合整理,主要从云安全的重要性在迅速提升、关于大数据AI的应用案例、国外公司如何使用大数据、AI来做安全、以及一些大数据、AI在未来发展的总结几大方面进行解读。 此文更适合你收藏后仔细品读 ^_^ 开篇 本届大会以“P
腾讯云安全
2018/06/12
8260
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
这次我们就来介绍下AI学习相关的概念,主要是机器学习、深度学习、强化学习,当我们具备了这些基础的概念和知识,后期就可以利用AI工具更好的创造自己的东西了。
希里安
2025/03/31
1820
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
一文读懂“生成式 AI”
本文基于谷歌的:《Introduction to Generative AI》 并且借助 ChatGPT 整理而成,帮助大家理解生成式 AI 这个概念。
明明如月学长
2023/05/15
5.7K0
一文读懂“生成式 AI”
AI/ML 基础知识与常用术语全解析
在当今科技飞速发展的时代,人工智能(AI)和机器学习(ML)已经成为了热门话题。从智能手机中的语音助手到自动驾驶汽车,AI 和 ML 技术正在改变着我们的生活方式。然而,对于许多人来说,AI 和 ML 仍然是神秘而复杂的领域。本文将详细介绍 AI/ML 的基础知识和常用术语,帮助读者更好地理解这一领域。
Pocker_Spades_A
2024/12/24
2130
AI/ML 基础知识与常用术语全解析
走进机器学习:新手必看的完整入门指南
以维基百科为例:机器学习 机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。机器学习在近30多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法(要防止错误累积)。很多推论问题属于非程序化決策,所以部分的机器学习研究是开发容易处理的近似算法。 用一句话来概况就是:机器学习(Machine Learning,简称 ML)是人工智能(AI)的一个子领域,关注于研究如何通过数据来使计算机系统自动改进和学习。与传统的编程方式不同,机器学习通过输入数据来训练模型,模型能够从数据中识别模式,并根据这些模式做出预测或决策,而不需要显式地编程规则。
Yui_
2024/12/20
3240
走进机器学习:新手必看的完整入门指南
流量全密化趋势下的检测困境和思考
随着加密技术的广泛应用以及新型网络技术的不断更迭,网络结构日趋复杂,加密流量呈现爆炸式增长,尤其随着TLS1.3等加密协议的演进和推广,全加密时代悄然来临。加密技术在保护用户隐私的同时也深刻改变了网络安全威胁形势,让恶意服务有机可乘,而传统的检测技术路线在面对恶意加密流量时往往无能为力。在此背景下,基于加密流量的检测与防御势在必行。
绿盟科技研究通讯
2022/03/11
1.5K0
机器学习在安全攻防场景的应用与分析
一、引言 随着人工智能(artificialintelligence, 简称AI)的技术突破,现今的计算技术可从大数据平台中挖掘出有价值的信息,从而为人们在决策制定、任务执行方面提供建议对策与技术支持,将专业分析人员从复杂度高且耗时巨大的工作中释放。 企业与用户每天面临各种安全威胁,无论是钓鱼邮件中的恶意链接还是恶意软件的非法操作等,日新月异的攻击手段给用户安全带来了极大的困扰,造成了严重的安全威胁。由于现有的检测技术与防御系统已渐渐无法应对多变的挑战,而以机器学习(machinelearning,简称ML
FB客服
2018/02/26
8.6K0
机器学习在安全攻防场景的应用与分析
腾讯云-人工智能-从业资格认证-学习笔记
发展 知识点 腾讯AI 人脸技术 车辆技术 图像识别技术 文字识别技术 腾讯TI平台 发展趋势 人才岗位 发展 1950年,他那篇著名论文《计算机器与智能》的正式发表,里面有史以来 第一次触及到了“人工智能”,提出了 “图灵测试”,这当中涉及了自动解释,和 自然语言的生成,作为判断智能的条件。 1956年美国达特茅斯会议:“人工智能”概念诞生 人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能 的理论、方法、技术及应用系统的一门新技术科学。 人工智能的
onephone
2022/03/01
2.7K0
腾讯云-人工智能-从业资格认证-学习笔记
机器学习:开启智能未来的钥匙
机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。
正在走向自律
2024/12/18
3640
机器学习:开启智能未来的钥匙
AI的背景知识及机器学习
约6千字,主要内容为机器学习的几大分类及其基本内涵,后续我会补充关于AI的应用场景、相关技术领域(如计算机视觉、自然语言处理等)的总结。由于目前正在学习,比较严谨的部分我都用摘抄的形式并注明了来源。
竹清
2018/08/31
2.1K0
AI的背景知识及机器学习
技术词条 机器学习篇
机器学习(Machine Learning) 解释讲述人工智能领域内的专业词汇和算法,是AI君在2018年最先要做的事情,我们第一个要讲的就是大名鼎鼎的“机器学习”。 机器学习,英文全称Machine Learning,是人工智能领域的一个重要学科,Tom M. Mitchell在其著作《Machine Learning》中指出,机器学习就是指“计算机利用经验自动改善系统自身性能的行为”。简言之,机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人
企鹅号小编
2018/01/12
1.4K0
技术词条 机器学习篇
相关推荐
从SIEM&AI到SIEM@AI | AI构建下一代企业安全大脑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档