前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >实时计算实践:快速分析实时数据的解决方案

实时计算实践:快速分析实时数据的解决方案

原创
作者头像
数据狗忙忙忙
修改于 2019-11-13 02:11:00
修改于 2019-11-13 02:11:00
1.3K0
举报
文章被收录于专栏:数据狗说事儿数据狗说事儿

在过去几年里,实时计算的受欢迎程度呈爆炸式增长。这源于互联网、物联网人工智能技术的高速发展,以及国家政策层面的大力支持。然而,在企业层面上,实时计算这种技术仍难以得到有效应用。究其原因,主要在于技术门槛高,开发、运维成本难以控制,缺乏成熟的产品化功能。

选择一款合适的智能实时计算平台可以更加灵活快速地实现业务分析,亿信华辰的PetaBase-i就能解决。

实时分析的困境

越来越多的企业对于实时分析有着强烈的需求,需要更多的实时数据支撑更加敏捷的商业决策。但是,一些现实问题又阻碍了它们的实现。

数据来源广,格式杂。通常一家机构的源数据除了来自于ERP系统、CRM系统等传统业务系统外,还包括如设备日志、网络爬虫、传感器等其他外部应用。这些源端数据,类型、结构完全不同,整合难度大。

数据标准不统一,数据质量低。许多企业的信息化建设,或因顶层设计缺失,或因某些历史原因等,致使冗余数据过多,而有价值的数据存在于各个信息孤岛之间,碎片化的信息阻碍了决策层透视全局。

数据计算时效性差。现在工业物联网的数据量可以每天达到万亿。而大量的数据价值有限期非常短,因此企业需要实时分析并获取可立即采取行动的商业见解。传统的离线批处理(T+1)模式无法满足需求。

解决方案

针对这些问题,亿信华辰提供了一套端到端的解决方案。借助PetaBase-i实时计算功能,帮助企业用户不断实践、完善可落地的实时分析应用。PetaBase-i提供多种数据源快速接入及敏捷应用开发能力、可视化资源管理及运营监控服务,满足客户对海量数据的实时统计分析需求,帮助实现高效管理。

值得关注的是,PetaBase-i使用了亿信华辰自主研发的实时流数据集成加工套件PB StreamCollector。它是一个侧重数据集成、数据加工流程构建的实时流数据管理工具,旨在简化构建、执行和操作企业数据流。

  • 用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。
  • 可视化的数据流构建设计器,并且能够对运行态的数据应用进行监控。
  • 用户几乎不需要编写代码就可以轻松构建批处理和流式数据流。

应用场景

场景一:实时采集

1、广泛的数据源支持,适用多样化采集场景

PetaBase-i大大降低了实时数据接入的难度,广泛的数据源支持使其能适应多样化的采集场景。例如,在零售、金融行业,企业往往会使用rdbms来支撑前端OLTP联机交易系统(CRM、ERP等),PetaBase-i提供了基于CDC机制的实时采集功能,可支持的rdbms类型包括:Oracle GoldenGate/LogMiner、MySQL Binary Log、PostgreSQL WAL、SQL Server Change Tracking等。它能基于日志级/事务级/行级数据进行跟踪并自动捕获,通过简单的配置来自定义捕获策略,灵活设置被监控的对象(库、表、用户)和操作(增、删、改)。

不仅是关系型数据库,PetaBase-i亦可基于MongoDBNoSQL数据库的事务日志进行采集,满足那些延伸了互联网业务的企业对新业态数据的实时分析需求。

2、丰富的通信协议接口 ,最大化地简化采集作业

目前,工业物联网建设如火如荼,工业设备互联、工业数据采集和工业设备状态监控与分析是企业建设的重点内容。在这其中,数据采集和监控分析是企业最关注的。而缺乏统一行业协议及网络接入标准是阻碍企业实现实时采集的主要问题。

为了解决这类问题,亿信华辰在PetaBase-ir中集成了一系列通信协议接口以最大化地简化采集作业,包括从MQTT、OPC UA、REST Service、SFTP/FTP/FTPS Client、WebSocket、TCP Server和UDP Source等网络标准协议到Amazon S3、Azure、Google Cloud等云存储协议。

丰富的协议支持,使得用户在对复杂场景采集时拥有更多、更灵活的选择。如果端点设备使用了不被支持的协议,那么我们需要使用物联网网关先对协议进行转换,从而让它们能够与PetaBase-i进行通信。

场景二:预警实时分析

在物联网高速发展的大环境下,将实时内容转变为有用的分析,如车辆突发故障、车间设备停运等场景,是各企业关注的重中之重。而为批量操作构建的传统分析系统不适用于这样的场景,它无法针对大规模数据进行处理流和近实时数据,做到诸如状态告警、故障预测等实时分析。但是,PetaBase-i可以。

不同于传统分析系统那样批量处理数据项,实时分析系统是监听通过某种协议发送信息的成千上万,甚至百万级的物联网设备,当所有的信息涌入时,需要消息队列来保证通信效率。当流数据通过消息队列时,PetaBase-i会对其进行缓冲,然后使用自适应流处理服务(PB StreamProcessor)将实时转换规则应用于数据,这样就做到了为实时内容转为实时分析。

总体来说,PetaBase-i最具特点的地方在于它的灵活性与易用性,你可以将它的价值扩展到各种敏捷分析场景和实时采集用例中去。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大语言模型推理框架调研
大语言模型(LLM)的迅猛发展及其在自然语言处理、代码生成、多模态交互等领域的广泛应用,对底层推理基础设施提出了前所未有的挑战。模型规模的急剧膨胀(参数量从数十亿扩展至数万亿)和复杂计算需求(如注意力机制)导致推理过程中的显存占用巨大、计算延迟高昂。为了在实际生产环境中高效、经济地部署 LLM,业界涌现出一系列专门针对 LLM 推理优化的框架。这些框架通过引入创新的内存管理机制、批处理策略、并行计算技术以及硬件加速等手段,旨在提升推理吞吐量、降低延迟、优化资源利用率。
磊叔的技术博客
2025/06/03
7560
大语言模型推理框架调研
FauxPilot :可本地运行的开源 GitHub Copilot (Copilot Plugin)
GitHub Copilot 是 GitHub 去年 6 月推出的人工智能模型,这是一个利用机器学习技术为开发者提供代码建议和代码补全的工具,能够帮助开发者更快完成编程任务。但由于 GitHub Copilot 训练使用的数据集,以及该工具如今成为了一款向开发者收费的商业性产品,GitHub Copilot 也引发了一些争议。
一个会写诗的程序员
2022/09/28
5.4K0
FauxPilot :可本地运行的开源 GitHub Copilot (Copilot Plugin)
让 AI 辅助编写内部代码
在 用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot 和 GitHub Copilot 开源替代品 —— FauxPilot 中,我们分别使用 PaddleNLP 和 FauxPilot 将 CodeGen 模型代理为可通过 HTTP 请求访问的接口,并通过 VS Code 插件在 IDE 中获得与 GitHub Copilot 类似的 AI 辅助编码能力。
AlphaHinex
2024/04/09
2800
让 AI 辅助编写内部代码
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
大语言模型(LLM)评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测,其中,自动评测技术相比人工评测来讲,具有效率高、一致性好、可复现、鲁棒性好等特点,逐渐成为业界研究的重点。
汀丶人工智能
2024/05/26
3.1K0
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
大模型部署框架 FastLLM 简要解析
本文主要是对FastLLM做了一个简要介绍,展示了一下FastLLM的部署效果。然后以chatglm-6b为例,对FastLLM模型导出的流程进行了解析,接着解析了chatglm-6b模型部分的核心实现。最后还对FastLLM涉及到的优化技巧进行了简单的介绍。
BBuf
2023/08/22
9050
大模型部署框架 FastLLM 简要解析
从头预训练一只超迷你 LLaMA 3
这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。
NewBeeNLP
2024/06/04
1K0
从头预训练一只超迷你 LLaMA 3
深度学习部署架构:以 Triton Inference Server(TensorRT)为例
模型训练只是DeepLearning的一小部分,如《Hidden Technical Debt in Machine Learning Systems》机器学习系统的技术债书中所说。
一个会写诗的程序员
2022/09/28
3.9K0
深度学习部署架构:以 Triton Inference Server(TensorRT)为例
【Pre-Training】Transformers 源码阅读和实践
本文主要针对HuggingFace开源的 transformers,以BERT为例介绍其源码并进行一些实践。主要以pytorch为例 (tf 2.0 代码风格几乎和pytorch一致),介绍BERT使用的Transformer Encoder,Pre-training Tasks和Fine-tuning Tasks。最后,针对预训练好的BERT进行简单的实践,例如产出语句embeddings,预测目标词以及进行抽取式问答。本文主要面向BERT新手,在阅读本文章前,假设读者已经阅读过BERT原论文。
阿泽 Crz
2020/11/25
2.6K0
【LLM训练系列01】Qlora如何加载、训练、合并大模型
参考脚本:https://github.com/QwenLM/Qwen/blob/main/recipes/finetune/deepspeed/finetune_qlora_multi_gpu.ipynb
致Great
2024/11/23
3400
【LLM训练系列01】Qlora如何加载、训练、合并大模型
推理加速GPT-3超越英伟达方案50%!最新大模型推理系统Energon-AI开源,来自Colossal-AI团队
在前沿AI大模型规模呈指数级增长的趋势下,仅凭单卡已经很难满足当下的推理需求。 就拿拥有1750亿参数的GPT-3来说。 仅仅是加载模型参数就需要数百GB的存储空间,远超单个GPU的容纳能力。 因此,多卡并行被视为AI大模型推理的必然选择。 但现有的推理系统仍旧存在不少弊端。 比如需要用户对通信、内存等各部分协作进行手动管理,需要额外编译等……导致用户使用门槛居高不下。 为此,大规模并行AI训练系统Colossal-AI团队提出了大模型推理系统Energon-AI。 以“高性能、高可用、可伸缩”的理念,深
量子位
2022/05/31
1K0
推理加速GPT-3超越英伟达方案50%!最新大模型推理系统Energon-AI开源,来自Colossal-AI团队
Tritonserver 在得物的最佳实践
Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案,因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点,是目前云端的GPU服务高效部署的主流方案。
得物技术
2024/10/22
4170
Tritonserver 在得物的最佳实践
mlc-llm 推理优化和大语言模型搭建解析(文末送书)
本文解析一下mlc-llm(https://github.com/mlc-ai/mlc-llm)对大模型推理的流程以及使用的图优化,算子优化策略。mlc-llm的模型部署流程可以查看官方文档:https://mlc.ai/mlc-llm/docs/ ,也可以参考我前段时间写的这篇MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s) 。
BBuf
2023/09/26
1.8K0
mlc-llm 推理优化和大语言模型搭建解析(文末送书)
使用vLLM加速大语言模型推理
vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务,和 HuggingFace 无缝集成。区别于 chatglm.cpp 和 llama.cpp,仅是在 GPU 上的模型推理加速,没有 CPU 上的加速。
码之有理
2023/09/12
22K0
vLLM: 加速AI推理的利器
由于LLM需要处理大量的参数来进行预测,这可能从70亿参数增加到3210亿,部署这样的模型可能需要大量的资源和优化,而不是使用传统的方法来部署机器学习模型。
buzzfrog
2024/07/22
1.9K0
【LLM训练系列04】手把手教你Qlora微调
IGNORE_TOKEN_ID 是一个常量,通常用于在训练过程中忽略某些特定的标签或输入。它的作用是告诉模型在计算损失时不考虑这些特定的标签或输入。
致Great
2024/12/21
2300
【LLM训练系列04】手把手教你Qlora微调
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
之前陆续写了Qwen1.5、Qwen2.0、GLM-4等国产开源大模型的原理、训练及推理相关的文章,每一篇都拿到了热榜第一,但其中训练部分均基于Llama-factory框架,对于工程师而言,最喜欢的就是刨根问底,使用中间层的训练框架,还是少一些“安全感”。今天我们抛开中间框架,深入底层,一步一步带大家微调一个大模型。
LDG_AGI
2024/08/13
1.8K0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
GitHub Copilot 开源替代品 —— FauxPilot
FauxPilot 插件原本是对接 FauxPilot[1] Server 的,通过 FauxPilot Server 也可以实现 GitHub Copilot 服务的功能,并支持多显卡加载 CodeGen 模型,可解决单卡显存不足又想加载大模型的问题。
AlphaHinex
2024/04/08
4730
GitHub Copilot 开源替代品 —— FauxPilot
使用Triton+TensorRT-LLM部署Deepseek模型
随着大模型项目的开源环境越来越好,大家在本地部署一个大语言模型跑demo应该是一件很简单的事情。但是要将模型运行到生产环境,就需要考虑模型运行性能,GPU资源的调度,高并发场景的支持等情况了。
languageX
2024/04/17
3.4K2
大大大大大模型部署方案抛砖引玉
借着热点,简单聊聊大模型的部署方案,作为一个只搞过CV部署的算法工程师,在最近LLM逐渐改变生活的大背景下,猛然意识到LLM部署也是很重要的。大模型很火,而且确实有用(很多垂类场景可以针对去训练),并且和Vision结合的大模型也逐渐多了起来。所以怎么部署大模型是一个超级重要的工程问题,很多公司也在紧锣密鼓的搞着。 目前效果最好讨论最多的开源实现就是LLAMA,所以我这里讨论的也是基于LLAMA的魔改部署。 基于LLAMA的finetune模型有很多,比如效果开源最好的vicuna-13b和较早开始基于llama做实验的alpaca-13b,大家可以看:
老潘
2023/10/19
1.3K0
大大大大大模型部署方案抛砖引玉
拥有LLM模型
大型语言模型(LLM)越来越显示出其价值。将图像纳入LLMs使它们作为视觉语言模型更加有用。在本文中,我将解释一个名为GIT-LLM的模型的开发,这是一个简单但强大的视觉语言模型。一些部分,比如代码解释,可能会感觉有点繁琐,所以可以直接跳到结果部分。我进行了各种实验和分析,因此我认为你会喜欢看到我能够取得的成就。
磐创AI
2024/06/06
2530
拥有LLM模型
推荐阅读
相关推荐
大语言模型推理框架调研
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档