分布式系统(distributed system)是建立在网络之上的软件系统。由于软件的特性,分布式系统具有高度的内聚性和透明性。
在 Java/Scala 等依赖管理复杂的项目中,“包冲突” 是开发者绕不开的痛点 —— 明明本地运行正常,部署到测试环境就报 ClassNotFoundExc...
在如何进行架构契约的决策文章中, 我们阐述要在架构上做契约决策的what、why & how, 那么接下来我们就来看具体采用某种契约实现不同组件之间的交互需要注...
近期在阅读有关分布式架构、DDD以及微服务相关知识, 今天主要是针对在分布式架构中如何去识别架构中的耦合做一个简单的笔记记录. 其中大部分是来自《Softwar...
在AI应用快速发展的今天,海量多模态数据的处理已成为构建高质量AI系统的核心挑战。火山引擎推出的LAS Daft数据处理引擎,正是为解决这一难题而设计的创新解决...
生产环境服务器突然变慢,是运维和开发人员最头疼的场景之一 —— 用户反馈 “页面加载超时”“接口响应慢”,监控面板显示 “响应时间从 100ms 飙到 5s”,...
在电商、外卖、票务等业务中,“订单超时自动取消” 是保障资源高效利用的核心功能 —— 比如用户下单后 30 分钟未支付,若不自动取消,会导致商品库存被长期占用,...
线程安全测试包含了并发测试、分布式测试。分布式更多的一个概念,是为了解决单个物理服务器容量和性能瓶颈问题而采用的优化手段。
大家好,我是人月聊IT。今天接着试下AI深度研究和分析工具。今天用的是一个叫洞察的AI行业研究分析工具,让其对国产数据库行业和市场做下简单分析。具体的工具地址如...
通过本文的学习,读者应该能够全面了解LLM训练中的高效分布式策略,并能够根据自己的需求选择和配置合适的分布式训练方案。随着技术的不断发展,分布式训练将变得更加高...
本文将深入探讨LLM训练中的检查点管理技术,重点关注分布式环境下的保存机制、故障恢复策略以及2025年的最新进展。我们将从基本概念出发,逐步深入到高级技术,并提...
本文将深入探讨两种主流的分布式训练技术:PyTorch的分布式数据并行(DistributedDataParallel,简称DDP)和Horovod框架。我们将...
生成式人工智能技术正以突破创新拐点的态势,推动视觉创作领域经历结构性转型。针对数字艺术创新实践者,本文将系统性解析前沿创作工具链的工程化应用策略,帮助创作者打破...
互联网大厂的业务模型、中台理念、应用架构以及分布式数据库,甚至互联网公司的从业人员,都成了香饽饽。
在现代分布式系统中,服务之间的通信是一个核心问题。Apache Dubbo 作为一款高性能的 RPC(远程过程调用)框架,广泛应用于微服务架构中。本文将详细介绍...
适合 “多服务、分布式订单系统”(如大型电商、支付平台),需用 Redis 布隆过滤器实现 “跨服务数据共享”(Redis Cluster 支持分布式部署,避免...
到现在,分布式事务已经有很多的解决方案了,有2PC、3PC、TCC,这一篇博客,我们先来分别讲讲最早的2PC、3PC这两种解决方案的模型及理论基础,以后再丰富其...
过去的一年里,我发现自己写技术文章的频率明显减少了。一方面,确实有时候会感到有点懒散;另一方面,在这个AI迅速发展的时代,我发现那些侧重于传递知识的文章似乎不再...
在本文中,我们将深入探讨 Spring Boot 应用中多层缓存的实现思路。具体而言,我们会采用本地一级缓存(L1) 与远程分布式二级缓存(L2) 的组合方案:...
在大语言模型(LLM)的实际应用中,我们很少只处理单条文本。无论是数据分析、内容生成还是模型训练,都需要面对海量文本数据的处理需求。批量处理技术是连接LLM与实...
发起服务间调用时,需要将 MDC 中的 traceId 传递到被调用服务。我们项目中统一使用 Feign Client,实现服务间的 HTTP 远程调用,在 F...