前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【数智化人物展】天云数据CEO雷涛:大模型连接数据库 为数智化提供高价值数据

【数智化人物展】天云数据CEO雷涛:大模型连接数据库 为数智化提供高价值数据

作者头像
数据猿
发布于 2024-07-16 08:08:23
发布于 2024-07-16 08:08:23
2730
举报
文章被收录于专栏:数据猿数据猿

雷涛

本文由天云数据CEO雷涛投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级先锋人物》榜单/奖项评选。

大数据产业创新服务媒体

——聚焦数据 · 改变商业

这几天,奥特曼讲SQL数据库和大模型结合起来会产生什么样的化学变化引起行业关注。为什么大模型要接数据库

大模型训练通常需要大量的数据。这些数据往往存储在各种数据库中。数据库提供了结构化和非结构化的数据源,供大模型在训练过程中使用。数据库系统能够高效地存储、检索和管理大量数据,使得大模型能够从中获取所需的信息。例如,训练语言模型时,数据库可以存储大规模的文本数据,方便模型进行访问和处理。

要实现数智化,大模型需要连接价值密度最高、逻辑性强、动态且鲜活的数据,这些数据都跟生产经营的交易相关,比如股票信息、金融账户、医院里挂号信息,我们知道这些数据都不在静态的文档、文献或报告里,而是在数据库里。但是目前大模型所依赖的数据资源局限于静态文献中的知识,这在一定程度上限制了其对于高价值数据的全面获取,尤其是那些存储在客户私域中的宝贵数据。目前普遍采用的RAG技术将信息检索和生成两个阶段结合起来,通过检索数据库中的相关信息来辅助生成过程,解决大模型数据滞后带来的幻觉问题,提高生成内容的质量。

此外,大模型每走一步都观察人类反馈,朝着人类期望的方向迭代。通过条件概率找到最清晰的意图,大幅提升了结果的准确性。因此大模型学习了人类的语言及说话方式以后,它还要了解人类的商业逻辑,对数据库的数据做知识的封装,进一步服务数智化。

那么,大模型如何为数智化提供高价值的数据?

这就需要对数据库里的数据做快速的服务和封装。大模型对数据库里的数据做服务和封装并不仅仅是一个NL2SQL自然语言转换的问题,也不是直接从已经写好的SQL里去检索出答案。那我们如何面向动态的弹性的业务逻辑,从动态的生成类SQL逻辑从数据库中拿到准确的结果。

要实现这个目标,需要应对几个挑战:

1、如何把模糊的意图理解token语句转变成精确的SQL?

很多人都尝试使用各种国内外大模型编写 SQL,但生成的SQL大多无法直接运行成功,所以市场上形成了大模型总在一本正经的胡说八道的认知。不少人放弃并恢复到手动编写SQL的方式。我们用100个场景做了实验,目前最好的大模型真正能够直接生成可以运行且结果准确的SQL只有3%左右,得出的结论是目前大模型仅仅只能做分析师的副驾驶。

既然要盯到一个强逻辑的体系,光靠RAG肯定不够,增加向量索引也只是把逻辑结果就已经做好SQL的表的结果反馈出来,但它不能够动态地生成弹性的业务逻辑。那么怎么能够动态地生成业务逻辑,天云数据进一步通过基于表的Schema、相关的实例SQL、业务逻辑上下文相关示例,通过上下文逻辑的方式进行优化准确率大幅提升。可以使模糊的意图经过多个上下文的提醒做到了精准的SQL的转换。

2、组织数据需要数据编织才能快速地把基于意图的数据在底层表达出来。

仅仅通过上下文逻辑实现精准SQL优化还不够,还需要数据编织技术进一步加强。用传统的主数据管理,强逻辑性的内容是不能够适应动态的token意图表达的,因此数据编织是一个非常核心的内容。多种不同类型的数据源共同编织到一起,在编织之上定义数据产品。数据产品是一组业务的表达,它是一个虚拟物化视图,与传统物化视图不同,他们储在缓存中,并能够动态更新。在数据产品之上,我们通过算法可以动态为数据产品自行打标签,这个标签,是从数据结构和数据中提取的多个标签,实时动态的标签可以为大模型的提供更加实时、丰富的上下文,使意图理解更加精确。数据编织使数据不局限于一个业务系统,也不用关心底层的存储,无论Mysql、Oracle还是国产数据库都可以纳入一套SQL逻辑来管理。

3、大模型连数据库是强高并发任务,底层HTAP数据库是最佳选项。

数据仓库里的批处理操作演变成了高并发的交互性、实时性内容。所以这底层的数据库不是一个简单的NewSQL就能完成的而是需要HTAP这样的同时拥有TP的高并发能力、AP的海量数据快速响应能力。

数据仓库发展了这么多年,技术上大多以大规模并行处理(MPP)、内存计算、列式存储为核心,也就是离线数仓互联网化后的替代方案。但是比较大的实时表进来以后,数据仓库无法支撑,必须得放到一个大的库里来做实时。当然,另一种技术路线是,采用存算一体,或者可以像Facebook一样,采用存算分离架构。以金融行业数据仓库的优化为例,如果要对传统数仓进行实时化升级,会分两部分工作,那就是在数据入口和出口端分别做改造。以权益类服务为例,之前的用户积分都是隔夜算,用户可能几个月后到商场拿积分去兑换一份商品,后端只需要做一次离线服务,就可以了。但是现在服务变了,用户刷完卡,到底是给一张电影票,还是一个电动牙刷?这是个性化服务,必须实时计算,并且要嵌套在整个服务场景里。这时,入口端就可以采用类似于Flink这样的架构,但是很快又发现,银行的一个核心业务就有上千张表,很难用一个简单的 Flink 架构支撑传统的大型银行系统,所以MPP +Hadoop这种奇葩的架构才会出现,而基于新兴技术的HTAP,则对MPP +Hadoop这种架构彻底做了一个洗牌。对于银行业务场景来说,一个用户身份会涉及到卡片、账户、人三层结构,而核实一个用户的建权和授权,就要通过三张这个几千万、上亿记录的表结构完成,很难通过单表的形式拉宽表来操作。而HTAP在银行业务互联网场景里,或者说在传统信息化向产业互联网升级过程中,就表现出独特优势,既满足了MPP 的特性,又能覆盖掉Hadoop能力。

通过以上三点,实现大模型为数智化提供高价值的数据。

大模型连接数据库的连接,能更快地推动行业数智化,但厂商必须同时要做数据库和机器学习才能干这种事儿。现在市场上出现了很多同时做数据库和AI的公司,Databricks是其中的代表。Databricks基于Spark从批处理开始向下做湖仓一体向上延伸至AI。天云数据同时做数据库和AI是因为10年前在云基地时,我就发现了数据供给侧和消费侧最小闭环的存在。当时运营商的内容平台项目需要做动漫、游戏、音乐小说的客户画像分解,传统的Oracle数据库无法支撑亿级用户带来的海量上网日志,数据供给侧升级,转而用HBase等分布式开源组件处理。而数据消费侧也不是SQL、可视化、报表、表盘等,而是升级为机器学习(ML)等新兴的数据处理方法。当看到数据的供给和消费升级,我便带着团队从云基地出来创立天云数据完成最小级闭环时,自然而然会做供给侧的数据库和消费侧的AI两条产品线,我们是市场上最早同时做数据库和机器学习赛道的。

为什么OpenAI要收购Rockset?近期,OpenAI花了5亿美元(约36亿人民币)收购了企业搜索和分析初创公司Rockset。数据库作为企业级数据价值密度最高的基础设施,它是生成式智能绕不开的技术壁垒,所以OpenAI才会打破自己的收购记录购买高并发的混合搜索产品。但是企业级数据库的赛道并不仅仅要解决IO问题,更要解决数据编织的存算分离、物化视图、虚拟数仓、联邦计算等一系列业务逻辑的技术实践才能够支撑大语言模型更为Native的人机交互逻辑对数据的服务方法。这些都需要科创公司就绪全栈AI的能力,尤其是LLM之上的AI Infra,没有所谓秘方和捷径。

·申报人“雷涛”简介:

博士后工作站企业导师,中关村高聚人才,两度CAAI人工智能奖项“吴文俊人工智能科学技术奖”获得者,智能投研技术联盟(ITL)“高级技术顾问”,北京科技协理事;新华社媒体融合生产与技术系统国家重点实验室特约研究员

以上由雷涛投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级先锋人物》榜单/奖项

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据猿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Databricks × Snowflake 纷纷下注,PostgreSQL 成 AI 时代数据库标准?
本文内容整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者的职业经历贯穿了 AI 1.0、2.0 和 3.0 的时代,从搜索推荐,到视觉 / 语音 / NLP 智能,
深度学习与Python
2025/06/08
140
Databricks × Snowflake 纷纷下注,PostgreSQL 成 AI 时代数据库标准?
将成为数据库主流的HTAP,它能替代Oracle吗?
11 月 17 日,金山办公登陆科创版,圆了小米集团创始人、金山软件董事长雷军和金山所有员工的“英雄梦”。算下来,从 1999 年以金山办公为业务主体准备上市算起到今天,雷军足足等了 20 年。
AI科技大本营
2019/12/10
1.3K0
将成为数据库主流的HTAP,它能替代Oracle吗?
从企业数智化四阶段解读 TiDB 场景价值
2025 年,AI 技术呈爆发式发展,数智化转型成为企业构建竞争优势、实现可持续发展的核心驱动力。在这一关键进程中,数据库与技术栈的选型,作为企业数字化基础设施建设的关键环节,深刻影响着企业整体效能的提升和业务的拓展。本文将围绕企业数智化转型目标,深入剖析转型的四大阶段,并详细阐述 TiDB 在各阶段的独特应用优势,为企业数智化转型提供有益参考。
PingCAP
2025/04/28
1010
从企业数智化四阶段解读 TiDB 场景价值
一家公司为什么要做数据库和AI两个赛道?
目前国内数据库产品百花齐放,创业者们身在时代机遇里满怀热情,想要有一番作为。看清客户需求,找准自己的定位非常重要。
用户6543014
2023/03/02
6560
一家公司为什么要做数据库和AI两个赛道?
2023,不一样的数据库
2022年是魔幻年,2.24号,在外面爬雪山团建,谈着刚刚打响的俄乌战争。4月招聘一位上海员工,但因为疫情管控只能远程报到,杭州亚运会也被迫推迟,随后几个月大家都笼罩在阴影中,唯有世界杯带来了快乐,但原计划12.18号一起看决赛,没想到公司瞬间阳了一半,看球活动也被迫取消。好在疫情快速消停,和家人度过一个大团圆春节。
数据猿
2023/03/03
5760
2023,不一样的数据库
天云数据CEO雷涛:从软件到数件,AI生态如何建立自己的“Android”?| 量子位·视点分享回顾
视点 发自 凹非寺 量子位 公众号 QbitAI 技术的市场千变万化。 首先在算法上摩尔定律失效,大规模分布式大规模协同算力开始产生新的变化; 其次,互联网带来数据实时性的需求,爆发第三波数据红利; 最后,算法重构世界,在今天的数字经济中,很多基于经验、规则流程的商业实践,甚至是一些物理的公理定理,都开始让位于数据和算法所训练生成的新的知识。 从灯泡螺口到电源插座,如何看待被错误定义的人工智能?从感知到认知,AI还需要多久才能触及生产核心?从软件到数件,AI生态该如何建立自己“Android”? 就这些话题
量子位
2022/03/24
5790
TiDB HTAP 的架构演进及实践
在访问量和数据量急剧膨胀的今天,关系型数据库已经难以支撑庞大复杂的系统规模。在此背景下,备受关注的数据库新理念 HTAP,会是一条“正确”的路吗?在刚过去的 QCon 全球软件开发大会上,PingCAP 实时分析产品负责人马晓宇发表了《TiDB HTAP 的架构演进及实践》的主题演讲,它从 HTAP 的历史入手,详述了 HTAP 的技术挑战以及 TiDB 的应对方案。本文为其演讲整理文,enjoy~ 大家好,今天为大家分享以下几方面内容。首先是分享 HTAP 的历史,其次是 TP 和 AP 之间存储和计算的
深度学习与Python
2023/04/01
1K0
TiDB HTAP 的架构演进及实践
TiDB 在实时分析应用场景下的探索
近年来,随着数据规模越来越大,以及由此衍生出数据实时化的诉求激增,产生了一系列大数据相关的业务场景,场景复杂性高以及业务多维度是明显的两个特点,因此出现许多了实时数仓架构来满足业务需求。
PingCAP
2021/03/09
5980
从软件到数件,AI生态如何建立自己的“Android”?天云数据CEO直播详解,可预约 | 量子位·视点
视点 发自 凹非寺 量子位 公众号 QbitAI 技术的市场千变万化。 首先在算法上摩尔定律失效,大规模分布式大规模协同算力开始产生新的变化; 其次,互联网带来数据实时性的需求,爆发第三波数据红利; 最后,算法重构世界,在今天的数字经济中,很多基于经验、规则流程的商业实践,甚至是一些物理的公理定理,都开始让位于数据和算法所训练生成的新的知识。 从灯泡螺口到电源插座,如何看待被错误定义的人工智能?从感知到认知,AI还需要多久才能触及生产核心?从软件到数件,AI生态该如何建立自己“Android”? 3月16
量子位
2022/03/14
3900
聊聊分布式 SQL 数据库Doris(一)
MPP:Massively Parallel Processing, 即大规模并行处理.
Ryan_OVO
2023/11/21
7740
聊聊分布式 SQL 数据库Doris(一)
天云大数据CEO雷涛:2016是大数据的“寒冬”,AI产业化的春天
数据猿导读 随着互联网和大数据技术的高速发展,面向特定领域的人工智能技术已经取得突破性进展,谷歌、微软、百度等巨头积极的在人工智能领域多点布局、抢占产业机遇,这一切都预示着:AI行业已经成为新风口,产
数据猿
2018/04/23
6770
天云大数据CEO雷涛:2016是大数据的“寒冬”,AI产业化的春天
【金猿人物展】数元灵科技CEO朱亚东:何以数智化
本文由数元灵科技CEO朱亚东撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。
数据猿
2024/01/06
1790
【金猿人物展】数元灵科技CEO朱亚东:何以数智化
数据库半月谈(2022.12.25~2023.1.7)
此外,Gartner预测,到2025年,中国分析型数据库市场来自海外厂商的将只剩下30%,交易型数据库市场海外厂商市场也只会剩下50%左右。
用户5548425
2023/02/16
1.1K0
数据库半月谈(2022.12.25~2023.1.7)
数据猿专访 | 天云大数据CEO雷涛:人工智能已进入产业化爆发阶段,再不醒醒就会错过所有机会
<数据猿导读> 随着互联网和大数据技术的高速发展,面向特定领域的人工智能技术已取得突破性进展;谷歌、微软、百度等巨头积极的在人工智能领域多点布局、抢占产业机遇;而其他以人工智能运算和应用为产品的初创公
数据猿
2018/04/20
6700
数据猿专访 | 天云大数据CEO雷涛:人工智能已进入产业化爆发阶段,再不醒醒就会错过所有机会
墨天轮发布数据库行业报告,亚信科技AntDB“超融合+流式实时数仓”开启新纪元
近日,知名数据库社区墨天轮发布《2022中国数据库行业年度分析报告》,亚信科技全新发布的“超融合+流式实时数仓”数据库AntDB入选报告并被业界广泛关注。AntDB数据库从业务、数据和架构层面,为企业提供全面的数据管理规划与实时数仓处理服务,赋能企业数智化转型。
亚信AntDB数据库
2023/02/20
3500
离在线一体 引擎一体化 云原生
OLAP 是一个很卷的赛道,创业公司也众多。在本文中,笔者基于 10+ 年的大数据与数据仓库的工作经验,就目前的主流趋势:离在线一体化、引擎一体化、云原生化等写一些思考,抛砖引玉,希望能与各位共同探讨。
jasong
2023/09/09
3820
腾讯云数据库伍鑫:MPP数据库HTAP技术探索
本文根据伍鑫在【第十三届中国数据库技术大会(DTCC2022)】线上演讲内容整理而成。
用户6543014
2023/03/02
1.6K0
腾讯云数据库伍鑫:MPP数据库HTAP技术探索
架构选型之痛,如何构造 HTAP 数据库来收敛技术栈?
近日,国际顶级专业分析机构 451 Research 发表了一篇关于 TiDB 的报告《PingCAP eyes US market with database targeting operational and analytical workloads》,其中就提到 TiDB 是一款同时面对在线处理业务和数据分析业务的混合数据库,也就是现在流行的新理念 HTAP。
Spark学习技巧
2019/10/10
1.2K0
架构选型之痛,如何构造 HTAP 数据库来收敛技术栈?
对话黄东旭、关涛、李远策:数据引擎,One Size Fits All 真的能实现么?
今天,数据平台是企业的必选项。长期以来,企业在选择数据平台架构时,多倾向于针对流处理和批处理两大场景分别部署两套方案。近年来,一体化数据融合平台的概念逐渐受到关注,行业开始尝试在同一个架构中同时处理不同类型的数据,简化数据平台技术栈。那么企业真的可以使用一套解决方案应对所有场景吗?一体化数据平台有哪些主流选项?Lambda 与 Kappa 架构各有哪些优势和不足?企业该如何选择适合自己的解决方案?
深度学习与Python
2023/08/09
2650
对话黄东旭、关涛、李远策:数据引擎,One Size Fits All 真的能实现么?
腾讯云数仓 TCHouse:基于 zero ETL,实现事务
导读 腾讯云官网上有上百款在售的产品,面向海量数据处理和分析场景,从大数据基础引擎、数据开发与治理平台、到数据应用服务,腾讯云提供了全栈的大数据产品服务及解决方案。针对不同的真实业务场景,用户往往会搭配使用多款产品,如何让多产品丝滑地联动起来、为用户提供高效易用和高性价比的大数据分析体验,是我们长期努力的目标。本次分享将为大家介绍近半年我们在多款大数据产品联动使用体验方向上的主要进展。
腾讯QQ大数据
2024/11/11
2960
腾讯云数仓 TCHouse:基于 zero ETL,实现事务
推荐阅读
相关推荐
Databricks × Snowflake 纷纷下注,PostgreSQL 成 AI 时代数据库标准?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档