欢迎关注数据超市微信公众号
数据超市是一款基于云平台的大数据计算、分析系统,拥有丰富高质量的数据资源,并封装了数十种算法组件,在浏览器上就可以直接拖拽进行计算,导出结果就可直接用于科研论文。
大数据作为时下十分火爆的“网红”产业,正在为越来越多的人所熟悉。数据超市开发出了使科研人员更好的提高科研效率,降低成本,缩短时间,是数据密集型科研的利器。
数据超市升级后的主要功能特性:
1、对部分文本组件进行了功能逻辑和处理性能的优化,大幅提升了组件的可用性以及稳定性。其中组件包括:LDA主题模型、中文分词、关键词提取、词语过滤、词性过滤、词云、拼音标注、繁简体互转、Hashing-TF、TF词频统计、TF-IDF、Word2Vec。
LDA主题模型是基于算法的封装、工程化调优;模型训练中新增寻求最优参数模式;已经完成了基于LDA算法的文本分类模型的训练和调优。
中文分词是结合jieba分词组件,进行原有splitword组件的升级,支持对中文文本进行分词处理。
关键词提取是基于TextRank图排序算法,对原有的【关键词提取组件】进行优化,同时需要将原有的【文本摘要】组件功能进行合并。
词语过滤是基于结合原有的停用词过滤组件,并在此基础上做了功能升级和空值报错的异常处理机制。
词云是基于原有的【词频统计】组件进行处理逻辑和性能的优化,并改名为词云。
拼音标注是基于原有的组件进行了功能逻辑的优化,支持更多的拼音风格类型的处理。
繁体字转换是基于原有的【繁体字转换】组件进行升级,支持繁体字、简体字的互相转化功能,生成新的【繁简体互转】组件。
HashingTF是基于原有的【HashingTF】组件进行升级,支持对文本数据通过hash算法映射的方式进行降维处理,并以固定长度向量的形式输出结果。
TF词频统计是基于原有的【TF词频统计】组件进行升级,支持对文本数据通过词频统计的方式进行降维处理,并以词频向量的形式输出结果。
新增【Word2Vec】的封装和工程化调优。
其他文本组件的功能优化和升级。
2、对拖拽组件进行升级,通过封装新的组件对拖拽交互的稳定性和易用性进行了优化。
3、其他页面样式的优化,包括项目列表样式优化、新增组件图标、节点说明等。
4、新增项目详情、画布回到中心点、网格显示等辅助功能,提升产品易用性。
5、异常问题的修复
修复了项目状态、节点状态显示错误的问题。
修复了项目无法正常删除的问题。
修复了模型训练完成后,偶尔出现无法正常生成报告(查看报告时显示“找不到页面“或者“尚不支持“的错误)。
修复了utf编码问题导致计算流程运行时报错。
修复了字段列太多导致的计算流程运行失败的问题。
修复了示例项目无法正常运行的问题。
修复了组件配置中变量没有同步删除,导致计算流程运行失败的问题。
其他影响产品正常使用的问题修复。
查看数据视图报告时命名不一致的问题修复。
总之,数据超市平台可以更好的发挥大体量数据的优势,不仅可以实时且快捷地拿到自己有用的、关心的各类数据,也能为各个业务部门和实施部门“量身定做”决策支持功能,这样一来,所有人都能借助平台的力量,尝到科研大数据的“大甜头”。
以上这些介绍
有没有把这个产品说清楚呢?
周到、全方位的设计
只为成为科研工作者路上的小帮手
在使用的过程中遇到的任何问题
都可以在下方的“写留言”与我们互动
今日互动
对于数据超市还有什么疑问,都可以在写留言告诉我哦~
领取专属 10元无门槛券
私享最新 技术干货