Cloudera于2019年1月29日发布CDSW1.5,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外HDP2.6.5和HDP3.1中也可以使用CDSW。
1
CDSW1.5的新功能
1.Cloudera Enterprise 6.1支持
Cloudera Data Science Workbench现在支持Cloudera Manager 6.1.x (或更高) 和CDH 6.1.x (或更高)。
2.Cloudera Data Science Workbench on Hortonworks Data Platform (HDP)
Cloudera Data Science Workbench现在可以部署到HDP 2.6.5和HDP 3.1.0。
3.安全增强
允许Site Administrators启用/禁用项目上传和下载 - 默认情况下,所有的CDSW用户都允许从项目上传和下载文件。1.5引入了一个新的功能,允许Site Administrator为用户在UI上隐藏上传和下载的功能。
请注意,该功能仅仅是从CDSW的界面上删除了上传和下载的按钮,它并没有禁用通过后端Web API上传和下载文件的功能。
4.OpenJDK支持
Cloudera Data Science Workbench现在支持在Cloudera Enterprise 5.16.1(或更高)上使用OpenJDK。
5.Engines
另外,当引擎以non-zero状态码退出时,引擎日志中的最后50行现在将打印到Workbench控制台。请注意,non-zero退出码和Workbench中引擎日志的存在并不总是意味着你的代码存在问题。会话超时和内存不足问题等也会抛出non-zero退出码,并显示引擎日志。
6.安装和升级
7.命令行
要关闭日志文件的敏感信息脱敏,可以使用新的--skip-redaction参数,如下所示:
cdsw logs --skip-redaction
8.网络
1.1
Engine升级
CDSW1.5开始打包的基础engine镜像包括的R和Python的版本为(version 7):
R - 3.5.1
Python - 2.7.11, 3.6.1
Engine 7中预安装的软件包 - 参考:
https://www.cloudera.com/documentation/data-science-workbench/1-5-x/topics/cdsw_engines_packaging.html#cdsw_kernels
升级项目使用最新的Base Engine Images - 确保进行了测试,然后升级已有的项目到Base Image v7 (Project Settings > Engine) ,以确保能利用最新的一些bug修复。
另外,CDSW现在会在有新版本的engine可用时提醒你。确保你将有的项目升级到了Base Image v5 (Project Settings > Engine) 并进行测试,因为修复了一些bug。
请注意,如果你是在CDH6上使用CDSW,则升级到Base Image v7是必须的。
你使用的base engine image必须与CDH版本兼容。如果你是在Spark上运行工作负载,这一点尤为重要。较旧的base engine(v6及更低版本)无法支持最新版本的CDH6。这是因为这些engine指向Spark2 parcel。但是,在CDH6上,Spark现在打包为CDH6 parcel的一部分,不再支持单独安装Spark2 parcel。如果要在CDH6上运行Spark工作负载,则必须将项目升级到base engine 7(或更高版本)。
CDH5和CDH6上Spark工作负载的CDSW Base Engine兼容性
Base Engine Versions | CDH5 | CDH6 |
---|---|---|
Base engines 6 (and lower) | Yes | No |
Base engines 7 (and higher) | Yes | Yes |
2
CDSW1.5中不兼容的更改
废弃的配置 - CDH Parcel Directory
Admin > Engines的Site Administration面板中不再提供CDH parcel directory配置。根据你的部署,使用以下方法之一配置此属性:
3
CDSW1.5修复的问题
1.修复了RPM安装中忽略NO_PROXY设置的问题。Cloudera Bug: DSE-4444。
2.修复了由于Web pod的IP问题导致CDSW无法启动的问题。1.5通过在启动时启用IPv4转发来解决此问题。Cloudera Bug: DSE-4609
3.修复了在退出/崩溃后引擎会立即被删除,并且引擎日志不会存在的问题,这使得很难通过崩溃或自动重启来调试问题。Cloudera Bug: DSE-4008, DSE-4417
4.修复了在CSD部署中启动和停止CDSW的间歇性问题。Cloudera Bug: DSE-4426, DSE-4829
5.修复了CDSW报告大于2MB的文件的文件大小不正确的问题。Cloudera Bug: DSE-4531, DSE-4532
6.修复了Run New Experiment对话框未包含file selector,且必须手动输入脚本名称的问题。Cloudera Bug: DSE-3650
7.修复了底层Kubernetes进程耗尽资源导致OOM错误的问题。CDSW现在会为Kubernetes组件预留计算资源。Cloudera Bug: DSE-4896, DSE-5001
8.修复了PYSPARK3_PYTHON环境变量未按预期用于Python 3工作负载的问题。Cloudera Bug: DSE-4329
9.修复了当使用HTTP/HTTPS代理时,CDSW的engine(比如自定义的engine image)在本地不可用时,Docker命令会失败的问题。Cloudera Bug: DSE-4427
参考:
https://www.cloudera.com/documentation/data-science-workbench/1-5-x/topics/cdsw_release_notes.html#rel_150