首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >从UserId中实时检索用户特征以进行预测

从UserId中实时检索用户特征以进行预测
EN

Data Science用户
提问于 2018-02-19 16:25:18
回答 3查看 243关注 0票数 1

假设我正在构建一个像Uber这样的应用程序,我想根据用户的过去历史、当前的经度和时间/日期来预测用户最可能的目的地。

这是提议的建筑-

假设我有一个预先训练过的模型作为一项服务。我挣扎的部分是,如何从RiderID实时获取数据库中的用户特性,以供预测服务(XGBoost模型)使用?考虑到我有1M+用户和乘车,我猜在SQL数据库中查找将花费太长时间。

提前感谢!

EN

回答 3

Data Science用户

发布于 2018-06-01 20:53:32

我认为,考虑到对模型进行足够的推广所付出的努力,您模型的返回很可能是不值得的。

  1. 您可能有数以百万计的用户,但是每个用户所需要的可能都是独一无二的,无法进行泛化。也就是说,每个人的通勤方式都是不同的,所以你从其他用户那里学到的东西可能不适用于其他用户。(除非在交通高峰期,大多数人都去了核心商业区。你不需要模特。)
  2. 经过训练的模型可能会比记录用户使用历史略好一些。为了你所能得到的,训练和处理这些数据可能是不值得的。
  3. 对于大多数用户来说,最近的位置可能足够好,并且非常容易实现。您的模型可能会有一个困难的时间来预测奇怪的不寻常旅行无论如何。

最好是存储用户当前位置并查询最可能的目的地。或者简单地看一下那个地方所有流行的旅游目的地。具有适当索引的数据库应该能够处理这一问题。

票数 0
EN

Data Science用户

发布于 2019-08-31 11:21:44

听起来你在寻找一个快速且水平可伸缩的数据库。我建议您使用列族数据库而不是关系数据库来存储此类数据。我们在类似的用例中使用Google BigTable (BT)。在一个带有SSD磁盘的3节点BT集群上,我们有超过300米的记录,这些记录由键以6ms @99百分位数的速度获取,每秒加载1000个请求。如果负载增加,则只需在运行到群集时添加节点或删除节点即可。像卡桑德拉这样的开源替代物在我们的经验中甚至更快。在您的情况下,该数据库密钥将是RiderID。

票数 0
EN

Data Science用户

发布于 2021-07-27 10:08:01

RiderID可以散列,因此是固定时间的查找.

这些特性可以脱机处理,并作为每个RiderID的属性存储。

大多数关系数据库管理系统(RDBMS)应该足够快。如果RDBMS太慢,那么尝试像Redis这样的键值存储。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28000

复制
相关文章
基于内容的图像检索技术:从特征到检索
构建词库是离线操作,主要对目标数据集中的文本进行解析提取词干信息,建立当前数据集的词库,然后基于词库,对数据集中所有文档提取本文特征。构建词库在整个检索系统生命周期开始阶段实施,一般情况仅执行一次,是针对目标检索文本数据集进行的非频繁性操作。
公众号机器学习与AI生成创作
2020/12/08
1.6K0
基于内容的图像检索技术:从特征到检索
基于集成学习的用户流失预测并利用shap进行特征解释
shap作为一种经典的事后解释框架,可以对每一个样本中的每一个特征变量,计算出其重要性值,达到解释的效果。该值在shap中被专门称为Shapley Value。
HsuHeinrich
2023/03/29
8060
基于集成学习的用户流失预测并利用shap进行特征解释
Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/79668363
大黄大黄大黄
2018/09/14
3.6K0
Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
前天偶然在一个网站上看到一个数据分析的比赛(sofasofa),自己虽然学习一些关于机器学习的内容,但是并没有在比赛中实践过,于是我带着一种好奇心参加了这次比赛。
全栈程序员站长
2022/08/11
6970
Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
在Django中实现使用userid和密码的自定义用户认证
在本教程中,我们将详细介绍如何在Django中实现自定义用户认证,使用包含userid字段的CustomUser模型以及标准的密码认证。本教程假设您已经对Django有基本的了解并且已经设置好了项目。
IT蜗壳-Tango
2024/07/03
4030
改进 Elastic Stack 中的信息检索:对段落检索进行基准测试
在之前的博客文章中,我们讨论了信息检索的常见方法,并介绍了模型和训练阶段的概念。在这里,我们将介绍基准测试,以公平的方式比较各种方法。请注意,基准测试的任务并不简单,不恰当的测试可能会导致人们对模型在现实场景中的表现产生误解。
点火三周
2023/07/20
1.4K0
改进 Elastic Stack 中的信息检索:对段落检索进行基准测试
CCPM & FGCNN:使用 CNN 进行特征生成的 CTR 预测模型
CNN 在计算机视觉领域占据着主导地位,在自然语言处理领域也有广泛的应用。基于点击率预测任务和自然语言处理中一些任务的相似性(大规模稀疏特征), NLP 的一些方法和 CTR 预测任务的方法其实也是可以互通的。
石晓文
2019/05/17
2.1K0
CCPM & FGCNN:使用 CNN 进行特征生成的 CTR 预测模型
如何使用sklearn进行在线实时预测(构建真实世界中可用的模型)
Python 作为当前机器学习中使用最多的一门编程语言,有很多对应的机器学习库,最常用的莫过于 scikit-learn 了。我们介绍下如何使用sklearn进行实时预测。先来看下典型的机器学习工作流。
abs_zero
2018/07/25
4K0
如何使用sklearn进行在线实时预测(构建真实世界中可用的模型)
从手工提取特征到深度学习的三种图像检索方法
AI 研习社按:本文为专栏作者兔子老大为 AI 科技评论撰写的独家稿件,未经许可不得转载。
AI研习社
2018/07/26
1.2K0
从手工提取特征到深度学习的三种图像检索方法
机器学习(十) ——使用决策树进行预测(离散特征值)
机器学习(十)——使用决策树进行预测(离散特征值) (原创内容,转载请注明来源,谢谢) 一、绘制决策树 决策树的一大优点是直观,但是前提是其以图像形式展示。如果是{'color': {9: 'yes', 2: {'fly': {0: 'no', 1: {'big': {0: 'no', 1:'yes'}}}}, 3: 'no'}}这种类型的决策树,不够直观。 这就是绘制决策树的目的。 绘制决策树,需要用到python的matplotlib类库,其带有丰富的注解、绘图等功能。我希望更加专注于算法本身,而
用户1327360
2018/03/07
2.9K0
机器学习(十) ——使用决策树进行预测(离散特征值)
企微获取成员userID
如果企业委托授权第三方服务商将通讯录从其他系统同步到企业微信,则需要企业授权“通讯录编辑授权”给服务商。
ha_lydms
2023/08/10
6170
企微获取成员userID
通过WebRTC进行实时通信-从webcam获取视频流
在你的浏览器中打开 index.html,你将看到像下面这样子(当然是你的 webcam 中样子):
音视频_李超
2020/04/02
2.3K0
通过WebRTC进行实时通信-从webcam获取视频流
干货 | 从手工提取特征到深度学习的三种图像检索方法
AI 科技评论按:本文为专栏作者兔子老大为 AI 科技评论撰写的独家稿件,未经许可不得转载。
AI科技评论
2018/07/27
1.8K0
干货 | 从手工提取特征到深度学习的三种图像检索方法
基于SIFT特征的图像检索 vs CNN
下面简单的对比一下sift和cnn的检索结果:(基于此改进的版本好多:各种sift;cnn(vgg-fc3;vgg(resnet、inception等)-conv;)+PCA等,各种特征融合等等)
MachineLP
2019/05/26
1K0
Flink用户画像用户画像行为特征
我们要使用的几个组件为Hadoop 2.6,HBase 1.0.0,MySQL 8,zookeeper 3.4.5,kafka 2.1.0,Flink 1.13,Canal 1.1.5。为了方便,这里都使用伪集群和单机安装。
算法之名
2021/11/10
8.8K0
AI预测用户每天用水量以促进环保,节约水资源
农业使用世界上70%的水,这似乎意味着水需求的上升趋势。在这种情况下,其他工业部门的需求也在增加,气候变化的影响会影响日益严重的水资源短缺,如果我们想要维持这一部门并保护生命,节水措施已成为不可避免的挑战。
AiTechYun
2018/08/06
6020
在Asp.Net中从sqlserver检索(retrieve)图片
介绍: 这篇文章是我写的"如何把图片存入sqlServer中"的后续。我建议你在读这篇文章之前先看看那篇。 和存储图片相比,读取图片就要简单多了。输出一副图片我们要做的就是使用Response对象的BinaryWrite方法。 同时设置图片的格式。在这篇文章中,我们将讨论如何从SqlServer中检索图片。 并将学习以下几个方面的知识. ·如何设置图片的格式? ·如何使用BinaryWrite方法。
Java架构师必看
2021/03/22
1.6K0
微信企业号登录授权Java实现获取员工userid根据userid换openid
微信企业号登录授权Java实现获取员工userid根据userid换openid 2016年1月8日 为了方便测试 。debug 建议大家搞个花生壳或者其他的可以映射公网IP的软件。 貌似涨价了8元一
小帅丶
2018/02/09
4.2K0
微信企业号登录授权Java实现获取员工userid根据userid换openid
技术干货 | 达观数据推荐系统算法实践—重排序
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,形成了信息过载(informationoverload)的问题。 达观数据解决信息过载有几种手段:一种是搜索,在用户有明确的信息需求时,将意图转换为几个简短的关键字,将关键字提交到相应的搜索引擎,搜索引擎从海量的信息库中检索出相关信息返回给客户;另一种是推荐,根据用户喜好推送个性化的结果。
达观数据
2018/03/30
1.4K0
技术干货 | 达观数据推荐系统算法实践—重排序
调整模型以减少错误预测
在创建分类模型时,许多算法提供了predict_proba()函数,用于给出观察结果被分类到每个类别的概率。因此,通常会看到如下输出:
磐创AI
2024/03/12
1890
调整模型以减少错误预测

相似问题

预测特征与原始特征相结合

10

用特征概率预测对象

10

以连续变量的时间序列为特征的事件预测

20

如何转换特定类型的特征以获得更好的预测结果?

10

时间序列预测的特征选择

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文