6月16日,华映资本2023年度大会成功举办,星尘数据创始人章磊应邀与华映资本董事刘天杰、影眸联合创始人张启煊、金柚网CTO邬学宁、安领数据CEO郑耸、天云数据副总裁李从武展开圆桌对话,共同探索大模型爆发,产业拥抱AIGC的机遇与锚点。
章磊表示,训练一个大模型,数据处理占60%,模型训练占20%,工程化占20%。星尘数据是国内首家提供大模型数据一站式解决方案的公司,星尘COSMO大型模型数据金字塔有四层,包括预训练数据、通用能力数据、专有能力数据和企业私有化部署数据。未来大模型行业一定会出现“一超多强”的局面,数据能够赋予AI能力,使其理解世界,具备人类的思维和逻辑,拥有价值观,明辨善恶,同时输出内容健康、无害,最终迈向AGI。
谈到大模型是否真的具备逻辑推理能力,章磊称,大型语言模型的训练过程与我们学习乘法口诀的方式有相似之处。我们通过不断阅读和重复1×1、2×2等将基本逻辑铭记于脑海中,以至于在需要用到时能够自然而然地运用。大型语言模型也是通过阅读并重复学习来记住逻辑的表达过程,而不是逻辑的本身。这种思维过程与人类相似,需要一点一点地组织语言并思考。我们目前的大模型构建了大脑的system1,未来的大型语言模型可能会发展出类似于人类的system2,强调计算和逻辑处理的部分,以产生更精准的结果。
关于星尘数据
星尘数据是一家提供SaaS标注平台和数据管理服务的企业,成立于2017年5月,总部位于北京。公司通过应用机器学习算法开发出高效的自动化标注工具,为标注产业注入科技和创新基因,赋能AI企业算法迭代和数据闭环。目前星尘Stardust平台年处理数据量数亿,自动化水平达到60%以上,数据质量达到99.9%,达到国际领先水平。
领取专属 10元无门槛券
私享最新 技术干货