Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >大型数据集线性回归技术栈

大型数据集线性回归技术栈
EN

Data Science用户
提问于 2016-09-08 21:55:01
回答 3查看 871关注 0票数 2

当我参加Course的机器学习课程时,我发现我可以使用我工作的公司的一个数据库(~50‘s记录)来做一些线性回归实验。

但是提出这个实验所涉及的步骤之一是定义这个任务所需的技术栈。

根据我的理解,应包括下列任务:

  1. 读取原始数据并将其存储在非生产数据库中。
  2. 将数据转换为“回归友好”格式
  3. 将转换后的数据存储在中间数据库中
  4. 计算实际回归

对于#1,我可以采取一些途径,比如执行自定义的.NET或Java程序,甚至使用ETL流程(这更多地是将数据复制到其他地方,而不是扰乱生产数据库)。

在第二,有趣的部分开始:我应该考虑一个专门的工具,一个<100毫米的记录数据库?如果是这样的话,你会建议如何将这些数据转换成类似矩阵的表示法?

我相信#3依赖于#4:我看到了大量基于文本或csv文件的示例(例如: R,或Matlab/Octave)。这些是这些计算的标准格式吗?或者我应该从数据库中读取

第四,从我所能理解的角度来看,使用R是一条路,对吗?

最后,我应该考虑一个多任务的多处理器服务器,还是考虑到这是一个实验,在这个实验中花费几个小时的计算时间并不是个大问题,一台4GB的机器就可以完成这个任务?

我知道这个问题可能被认为过于宽泛,但我真的想听听你说我应该考虑什么,即使我错过了什么(或走错了路)。

对于这些数据,您可以将其视为波士顿的房价:它是一个30个特性(列)数据集,用于预测其中一个列的值。

(问题最初张贴在堆栈溢出上)

EN

回答 3

Data Science用户

回答已采纳

发布于 2016-10-12 02:07:21

因为还没有人提到有效的RAM方法:

与其将所有内容加载到RAM中,您还可以使用在线/核心外学习。

例如,Python的Scikit-学习SGDClassifier类。将其损失函数设置为"log“,则得到logistic回归。使用partial_fit函数,您可以将直接从数据库(或从某些CSV文件.)读取的小批数据提供给它。

沃巴瓦比特也值得一试。这是为核心外学习而做的--几乎不用任何内存,你也找不到任何更快的东西。

您还可以使用Python的喀拉斯库来构建一个神经网络(或者在最简单的情况下只是逻辑回归),您也可以用少量的数据来填充它,而不是将所有数据加载到内存中。与其他两种建议相比,神经网络还可以学习非线性依赖关系。

此外,试着从更少的样本开始--用10k、100k、1M样本绘制学习曲线,看看是否需要1亿个样本才能获得好成绩。

票数 3
EN

Data Science用户

发布于 2016-09-11 00:24:06

如果您的整个数据集都符合RAM,则会更容易。因此,检查它有多大,以GB和获得足够的RAM。多处理器可能帮不上什么忙。所以试着用几个核来获得最高频率的程序。您可以将数据提取到csv中,并使用R或Scikit进行建模。

票数 1
EN

Data Science用户

发布于 2016-09-11 23:12:51

您可以使用传统的回归库对1亿条记录使用R或Python。根据我的经验,您将需要大约16 be的RAM,可能会更多!!在运行算法和预处理步骤时,四核处理器将很好。最好将转换后的数据存储到即时数据库中。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13912

复制
相关文章
适用于 .NET 的开源文本差异对比组件
你好,这里是 Dotnet 工具箱,定期分享 Dotnet 有趣,实用的工具或组件,希望对您有用!
独立观察员
2022/12/31
5830
适用于 .NET 的开源文本差异对比组件
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现|附代码数据
Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包。正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net(弹性网络)惩罚值计算的 ( 点击文末“阅读原文”获取完整代码数据******** )。
拓端
2022/11/08
3.1K0
选择HLS或WebRTC需要考虑的五个因素
在低延迟HLS或是WebRTC之间做选择时,哪种协议能够带来最佳的实时流体验?因为协议决定了编码视频数据通过网络连接传输的速度,所以在两者之间做出选择是非常重要的。
LiveVideoStack
2020/12/04
1.5K1
选择HLS或WebRTC需要考虑的五个因素
原文链接 / https://www.red5pro.com/blog/5-factors-in-choosing-low-latency-hls-vs-webrtc/
LiveVideoStack
2020/12/16
1.6K0
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现
Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包。正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net(弹性网络)惩罚值计算的。该算法非常快,并且可以利用输入矩阵中的稀疏性 x。它适合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以拟合多元线性回归。
拓端
2021/01/13
6.4K0
jQuery1.3以上版本"@"的问题
jQuery1.3.2已经发布好一段时间了,近日把原来的项目全部从jQuery1.2.6升级为1.3.2了.但是有一点要注意,1.3版以上的jQuery在根据选择属性选择时,去掉了@符号,有某些情况下原有的代码可能会无法正常运行: <input type="radio" name="mySex" value="1"></input>男 <input type="radio" name="mySex" value="-1" checked="checked"></input>女 <hr/> <input ty
菩提树下的杨过
2018/01/22
7700
手把手教你使用R语言做LASSO 回归
LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。今天我们来讲讲怎么使用R语言通过LASSO 回归构造预测模型。 首先我们要下载R的glmnet包,由 LASSO 回归的发明人,斯坦福统计学家 Trevor Hastie 领衔开发。 加载需要的包,导入数据(还是我们既往的SPSS乳腺癌数据),删除缺失值
全栈程序员站长
2022/06/27
3.6K1
手把手教你使用R语言做LASSO 回归
Glmnet算法ElasticNet
Glmnet算法是一种用于线性回归和分类的正则化算法,其中包括R语言中广泛使用的ElasticNet方法。该算法结合了L1正则化(Lasso)和L2正则化(Ridge),旨在同时实现变量选择和参数估计的优势。
大盘鸡拌面
2023/10/26
3830
直播中,可能造成画面或声音延迟的因素有哪些?
在直播APP开发完成后,技术人员不仅要测试源码的完整性,设备的兼容性,还要顾及到网络对于直播的影响,因为网络不稳定是造成直播画面和声音延迟的最主要因素。事实上,在直播APP开发中,还有一些非网络因素也能造成延迟,今天,小编就和大家一起来全面总结下,所有造成网络延迟的情况。
就爱吃小笼包
2019/11/20
5.1K0
直播中,可能造成画面或声音延迟的因素有哪些?
tidymodels之parsnip的强大之处
工作流是tidymodels中非常重要的概念,它可以把模型设定和预处理步骤(在tidymodels中称为配方)连接起来,成为一个整体的对象。
医学和生信笔记
2023/09/26
2770
tidymodels之parsnip的强大之处
r语言中对LASSO,Ridge岭回归和Elastic Net模型实现
Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。
拓端
2020/08/22
1.7K0
SpringBoot碰到的疑问或问题
@ResponseBody是作用在方法上的,@ResponseBody 表示该方法的返回结果直接写入 HTTP response body 中,一般在异步获取数据时使用【也就是AJAX】,在使用 @RequestMapping后,返回值通常解析为跳转路径,但是加上 @ResponseBody 后返回结果不会被解析为跳转路径,而是直接写入 HTTP response body 中。 比如异步获取 json 数据,加上 @ResponseBody 后,会直接返回 json 数据。@RequestBody 将 HTTP 请求正文插入方法中,使用适合的 HttpMessageConverter 将请求体写入某个对象。
呆呆
2021/10/08
4110
序列预测问题的简单介绍
序列预测与其他类型的监督学习问题不同。这个序列在观察结果上被强加了一个命令:当训练模型和做预测时序列必须保存。通常,包含序列数据的预测问题被称为序列预测问题,尽管他们是一些基于不同输入和输出序列的问题
AiTechYun
2018/03/05
1.8K0
序列预测问题的简单介绍
r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。
拓端
2020/08/17
1.5K0
r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
用交叉验证改善模型的预测表现(适用于Python和R)
原文作者: Sunil Ray 翻译:王鹏宇 我一直对数据界的编程马拉松(Hackathons)保持关注。通过对比排名榜初期和最终的结果, 我发现了一个有趣的现象:在初期排名较高的参赛者,在最终的验证环节往往地位不保,有些甚至跌出前 20 名。 猜猜是什么对引起了排名的剧烈变化?换句话说,为什么这些参赛者的模型在最终验证环节无法保证稳定性?让我们来探讨一下可能的原因。 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: 此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做
机器学习AI算法工程
2018/03/13
1.8K0
简单易学的Linux指令(能解决95%以上问题)
Linux是目前应用最广泛的服务器操作系统,基于Unix,开源免费,由于系统的稳定性和安全性,市场占有率很高,几乎成为程序代码运行的最佳系统环境。linux不仅可以长时间的运行我们编写的程序代码,还可以安装在各种计算机硬件设备中,如手机、路由器等,Android程序最底层就是运行在linux系统上的。
用户6367961
2019/10/28
5030
简单易学的Linux指令(能解决95%以上问题)
高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据|附代码数据
最近我们被客户要求撰写关于高维数据惩罚回归方法的研究报告,包括一些图形和统计输出。
拓端
2023/04/12
8250
高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据|附代码数据
最近我们被客户要求撰写关于高维数据惩罚回归方法的研究报告,包括一些图形和统计输出。
拓端
2023/05/09
6690
ORA-01461问题的对比测试
昨天生产环境有个严重问题,报了ora-01461的错误,这个问题看似应该是开发那边的问题,但dba这边也得提供一些信息,自己模拟测试了一把。 为问题的排查也提供了一些帮助。 这个问题可以使用一下场景来对比测试。 --》场景 #1 使用关键字values来插入。 using key word “values” to insert. SQL> Declare vx Varchar2(32767); Begin For i In 1..3000 Loop vx:=vx||
jeanron100
2018/03/13
7200
R语言进行机器学习方法及实例(一)
  机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西。 机器学习一般步骤 收集数据,将数据转化为适合分析的电子数据 探索和准备数据,机器学习中许多时间花费在数据探索中,它要学习更多的数据信息,识别它们的微小差异 基于数据训练模型,根据你要学习什么的设想,选择你要使用的一种或多种算法 评价模型的性能,需要依据一定的检验标准 改进模型的性能,有时候需要利用更高级的方法,有时候需要更换模型 机器学习算法
用户1680321
2018/04/27
3.4K0
R语言进行机器学习方法及实例(一)

相似问题

SensoMineR面板错误在对比中,对比只能适用于2级或2级以上的因素

111

对比只能适用于2级或2级以上的因素,尽管有两个级别。

14

对比只能适用于至少两个层次的因素。

10

使用lm建立回归模型时出现的错误(“对比度”中的错误<-`(`*tmp*`)对比只能适用于2级或2级以上的因素)

13

对比只适用于因素。

31
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文