首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘平台Discover解锁Tensorflow

Transwarp Discover作为一款灵活的数据科学分析探索工具,集成多种开发环境,提供基于交互式数据分析工具Notebook实现可视化模型学习,以及各种行业模型。在成为更成熟的数据科学平台的道路上,Discover在其最新版本(5.1)中取得多方面进展,例如Notebook开始支持深度学习工具Tensorflow,数据预处理和特征工程函数得到丰富,新增多种机器学习算法,提供了模型选择和优化函数。在性能、功能、操作等方面实现了多种提升。

开发接口

首先Discover将Spark MLLib的版本升级到2.2,丰富了新的算法,增加了对SparkR中分布式算法的支持。

其次Discover Notebook开始支持Python3数据分析探索,同时增加了对Tensorflow深度学习Python的支持,方便展开深度学习开发。

Discover Notebook集成了更广发的接口,用户可以根据个人习惯和问题所需灵活选择数据分析语言和工具。

数据预处理和特征工程

Discover在数据预处理和特征工程方面也提供了更全面的函数实现。对于特征选择,提供分布式计算信息熵函数、分布式方法计算基尼不纯度函数、自动化分布式数据近零方差列筛选函数、以及分数布式列联表统计函数。在数据和特征处理方面,Discover提供了以下函数:分布式非数值类型编码函数;多种数据类型的自动化缺失值填充函数,提供统一的方法对数据进行填充;分布式众数统计函数;自动化分布式多种数据类型的模型输入前预处理函数,用户可选择要处理的列,对na数据的处理(删除/填充),对string数据编码,以及标准化;分布式非正态数值列变换函数,可自动计算非正态偏离程度,大于域值时对列做变换;分布式连续特征离散化函数,提供两种离散方法,一是根据数据分布进行切分,二是根据决策树模型切分。

另外,Discover 5.1还实现了分布式多源异构数据特征工程函数,以自动化的方式实现以下功能:特征选择,特征变换,统一指定的列的时间格式,特征离散,特征重要,特征组合。

机器学习算法

Discover 5.1在原有基础上开发并新增了多种机器学习算法。

无监督异常值检测算法 isolation forest

该算法常用于异常检测,经常应用于网络安全中的攻击检测和流量异常分析,在金融机构中则用于欺诈行为挖掘,以及在交通监控中发现交通流量异常。

基于贝叶斯个性化排序的推荐算法 BPR

BPR多应用于内容推荐,特别是推荐内容排序的好坏决定用户对推荐候选集满意度的场景。BPR算法可以从较多候选集中为用户选取特定的少数物品进行推荐,并通过对item的评分来优化用户对物品的排序,提高用户对推荐满意度从而提高点击率,是强调个性化推荐的算法。

密度聚类算法 DBScan

该算法将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。多应用于城市规划,消费行为模式分类,文本聚类等应用。

分类算法 GBTLR

采用GBDT(梯度提升树)+ LR(逻辑回归)的组合,用于分类预测。其中使用GBDT进行特征工程,取代依靠人工经验来分析有效特征、特征组合的方式,提升生产效率。GBDT生成的特征直接作为LR的输入特征,由LR进行二分类模型训练,获得较好的训练效果。该算法在可以广泛应用于构建广告点击率预估模型的场景。

模型评估和模型选择优化

完成模型训练后,找到最适应当前问题的模型,进行模型优化以提供良好的运行效果是重要的环节。Discover 5.1提供了自动化分布式模型选择函数和超参数调整函数,方便用户进行有效的模型评估和选择。其中包括自动化交叉验证函数,计算经验错误从而选择错误值最小的模型作为最佳模型;以及超参数调整函数,对模型的超参数进行优化,从而选择最佳参数表。

结语

Discover 5.1丰富了函数和算法,方便特征工程的实现,支持多种语言与开发平台,Notebook支持深度学习工具Tensorflow,使深度学习的开发更加方便。Discover将为减轻数据科学家和机器学习工程师的工作压力提供极大帮助,使开发者专注于建立更好的机器学习模型与应用,从更大规模的数据集中挖掘出更多价值。

往期原创文章

大数据开放实验室由星环信息科技(上海)有限公司运营,专门致力于大数据技术的研究和传播。若转载请在文章开头明显注明“文章来源于微信订阅号——大数据开放实验室”,并保留作者和账号介绍。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180202G1E5CT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券