首页
学习
活动
专区
圈层
工具
发布
首页标签数据挖掘

#数据挖掘

跨学科的计算机科学分支。用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程

什么是数据湖?一文搞懂数据湖、数据仓库、湖仓一体

帆软BI

我们做数据的,最常遇到的痛苦是什么?无非是业务部门天天要报表,技术部门说数据没对齐,分析师抱怨取数慢,开发说需求变太快。这背后,其实都绕不开一个问题,我们的数据...

1500

敏感邮件误投机制的风险建模与数据泄露防御策略

芦笛

中国互联网络信息中心 | 工程师 (已认证)

在数字化办公环境中,电子邮件仍是企业内外沟通的核心载体,但人为操作失误导致的敏感信息误投(Misdirected Email)已成为数据泄露的主要诱因之一。本文...

600

从 SQL 到 OSI:当“数据是什么意思”也有了标准答案

Aloudata

上一篇文章里,我从一个 OpenClaw Skill 聊起,讲了一个判断:个人认知正在被 .md 编译,企业认知需要语义层来编译,而 OSI 标准的发布意味着这...

10210

.md 编译了个人认知,什么来编译企业的认知?

Aloudata

春节期间,我干了件跟公司业务无关的事——给自己写了一个 OpenClaw Skill。

9110

终于有人把数据挖掘讲清楚了

帆软BI

数据挖掘是什么?这东西到底怎么落地?今天我正好把这几年的心得整理出来,希望能帮到你。

11110

电商数据泄露驱动的精准钓鱼攻击机制与防御研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

随着电子商务平台的规模化发展,用户个人信息的集中存储使其成为网络攻击的高价值目标。2026年初韩国电商巨头Coupang发生的数据泄露事件,揭示了新型网络威胁的...

8210

基于mice包的数据多重插补学习

凑齐六个字吧

数据缺失的类型在统计学和医学研究中主要依据缺失机制(missing mechanism)进行分类,国际公认的标准分为三种,这一分类最早由Rubin(1976)提...

14010

商业实战复盘:并发不是越多越快

jackcode

在商业数据采集的战场上,新手往往迷信“天下武功唯快不破”,喜欢在代码里把线程池的 max_workers 拉到满;而成熟的爬虫工程师往往是“资源精算师”,他们深...

9410

使用TwoSampleMR进行孟德尔随机化分析

凑齐六个字吧

TwoSampleMR 是一个用于进行双样本孟德尔随机化分析的R包,由 MRC Integrative Epidemiology Unit开发,并与OpenGW...

11010

供应链数据泄露诱发的针对性钓鱼攻击机制与防御策略研究——基于Ledger与Global-e事件的实证分析

芦笛

中国互联网络信息中心 | 工程师 (已认证)

随着区块链技术的普及与加密货币资产规模的扩张,硬件钱包作为冷存储解决方案的核心载体,其安全性直接关系到用户的资产存续。然而,近年来针对硬件钱包用户的攻击手段正从...

8810

从0开始全面认识高质量数据集建设(7)

zhouzhou的奇妙编程

一个单位,想做这件事情,最开始肯定是得做好顶层设计,但是有的人可能想说,我们公司那么多年都没做过顶层设计啥的,不也过的好好的吗?但是这里我想说的是,在高质量数据...

25630

基于元路径的异构信息网络相似度搜索

用户11764306

某机构学者孙怡舟(Yizhou Sun)近日荣获非常大型数据库(VLDB)基金会颁发的“经受时间考验奖”,获奖的是她在2011年发表的一篇论文。该论文引入了一种...

5310

从0开始全面认识高质量数据集建设(6)

zhouzhou的奇妙编程

上一篇中,我们了解了数据集编目上架与符合性检测的关键机制。我们掌握了如何通过多维度分类体系与五大模块信息挂载,为数据资产建立详尽的“数字档案”;同时深入学习了利...

18310

从0开始全面认识高质量数据集建设(5)

zhouzhou的奇妙编程

上一篇中,我们了解了数据工程实施环节的核心全流程,深入掌握了如何通过多样化的采集手段打破数据孤岛,利用智能化的预处理插件清洗多源异构数据,以及通过端到端的标注体...

23510

从0开始全面认识高质量数据集建设(4)

zhouzhou的奇妙编程

上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集...

47321

元数据平台选型避坑指南:从“血缘不准”到“DataOps 自动化治理”的跨越

Aloudata

摘要:本文基于真实选型实践,深入剖析了企业在元数据平台选型中普遍面临的三大核心痛点:数据血缘不准、数据资产盘点不动、数据变更管控失灵。文章指出,传统工具在复杂 ...

11210

数据治理新解法:基于算子级血缘的主动元数据如何破解数仓重构难题?

Aloudata

摘要:本文深入探讨了数据仓库重构中因依赖链路“看不清”而导致的三大核心痛点:依赖黑盒、变更失控与成本黑洞。通过对比传统血缘工具的局限,解析了基于算子级血缘的新技...

12010

从0开始全面认识高质量数据集建设(2)

zhouzhou的奇妙编程

上一篇中,我们了解了高质量数据集建设的政策蓝图、核心分类与“场景驱动”的逻辑框架。然而,从认知到落地,挑战往往隐藏在具体的实施环节中,如何将模糊的业务需求转化为...

37220

从“救火”到“防火”:基于算子级血缘实现 ETL 异常 5 分钟根因定位

Aloudata

摘要:本文深入剖析了数据运维中ETL任务失败后根因定位的痛点,指出传统表级/列级血缘工具因解析率低、逻辑黑盒、静态滞后导致的排查困境。进而提出基于算子级血缘的主...

10310
领券