首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)

    面网易数据挖掘工程师岗位,第一次面数据挖掘的岗位,只想着能够去多准备一些,体验面这个岗位的感觉,虽然最好心有不甘告终,不过继续加油。 不过总的来看,面试前有准备永远比你没有准备要强好几倍。 因为面试过程看重的不仅是你的实习经历多久怎样,更多的是看重你对基础知识的掌握(即学习能力和逻辑),实际项目中解决问题的能力(做了什么贡献)。 ---- 先提一下奥卡姆剃刀:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。以免模型过于复杂,出现过拟合的问题。 如果你想面数据挖掘岗必须先了解下面这部分的基本

    09

    NoSQL到底怎么用?

    但之后仍有问题待解决: 比如朋友圈关系的数据量达到千亿,即使分成1024个库表,单表数据量也达到亿级,且关系数据量还在极速增加,即使你分成再多库表,数据量也会很快到达瓶颈。 传统DB难以彻底解决该问题,因为扩展性很弱。这时,就可以利用NoSQL,天生分布式,能提供优秀的读写性能,补充了传统关系型数据库短板。那么它是如何做到的呢? NoSQL,不同于传统关系型数据库的其他数据库系统的统称,不使用SQL作为查询语言,提供优秀的横向扩展能力和读写性能,非常契合互联网项目高并发大数据的特点。 Redis、LevelDB这样的KV存储,相比于传统DB,有极高读写性能,对性能有比较高的要求的场景都会使用。

    01

    MySQL 的几种进入方式

    对于码农一族来说,新入手电脑后,工具安装,环境搭建是为必备功课。环境搭不好工具装不全,后续的工作开展那就会有相当多的痛点,也会耗去相当多的时间和精力。近日,博主在安装 Mysql 数据库的过程中,一番探究,发现平日里最基本的操作,也有很多值得总结的地方,为免于时间的重复性浪费,于是有了以下的内容分享。先来问问你自己,平时安装数据库的时候,都尝试过哪几种方式?博主稍微一探究,发现还真不少,比如 Windows 上可以程序安装也可以解压免安装使用;Linux系统可以用 Yum安装,二进制文件安装,源码编译安装等;更还有一些方式,比如安装虚拟机的时候可以选择 MySQL作为预装软件安装同虚拟机一起安装,再比如世界上最好的语言 PHP 中有phpStudy 程序集成包,安装该包之后也就顺带安装上了MySQL服务,等等。通过简单的发散,你会发现,虽然都是以安装同一种工具为目的,但是技术的实现方式却有N多种,所以,骚年们,技术路上永远不要局限在会某种技术,而是要尽可能多的寻找替代方案、更优方案,不然出去装逼都没点逼数,这怎么行!因为平时常用的就是 Windows 和 Linux 这两种操作系统,所以博主就来总结下在这两种系统下的Mysql的几种常见的安装方式。(下载入口)

    03

    讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗

    摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领撤分类、聚类、关联规则是数据挖掘技术几个主要的研究领域。在数据挖掘的几个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于数据分析、图像处理以及市场研究等。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法最主要的缺陷就是:它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类结果往往会陷入局部最优解。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中也的不足之处,探讨了一种改进的选取初始聚类中心算法。对初始聚类中心进行选取,然后根据初始聚类中也不断迭代聚类。改进的聚类算法根据一定的原则选择初始聚类中心,避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,改进的聚类算法能够提高聚类的稳定性与准确率。

    03
    领券