Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从数据到AI

从数据到AI

作者头像
随风溜达的向日葵
发布于 2019-11-21 07:16:24
发布于 2019-11-21 07:16:24
5500
举报
文章被收录于专栏:技术墨客技术墨客

一篇关于數據倉庫建設、人工數據分析、AI數據分析的讲义

數據Data&信息Information

信息

信息是一個客觀存在物體的自然表現,比如說“I am a local villain.”,無論你用什麼語言、什麼方式表示他都是客觀存在的,而信息即是承載這些客觀實體的概念載體。雖然香濃知道20世紀中才提出了信息輪,但是信息自古就有,與算機系統的出現無關,比如遠古結繩記事、早期文明的甲骨文、中世紀文明的簡牘等等,但是直道現代才理論化。

我們的職業被簡稱為I.T行業,即 Information Technology,就是信息技術行業。實際上我們做的任何事情都是為信息服務的。

數據

數據是信息的一種載體,他是到了“信息化”時代出現的產物,在沒有所謂的數據之前,信息也會通過文字、數字在記載。

數據的基礎也就是整個IT行業的基礎——所有的信息都通過0/1來表示,通常就是1bit表示一個0/1的信息,四個bit表示一個字節(現在的Unicode或寬字節是8個bit),通過這種確定性關係,所有的信息都可以通過0/1的組合來表達各種各樣的信息。

隨著數據的不斷累積和堆積在數據背後發現了驚人的統計規律,隨著這些統計規律的發展漸漸的出現了AI分析和數據分析。

數據&數據分析&AI

如下圖是建立數據分析工程的過程

分為幾個大的步驟:

  1. 建立數據倉庫。
  2. 進行數據分析和挖掘。
  3. 根據需要訓練AI模型。

數據倉庫的建立

聯機事物型系統&決策分析系統

在數據能力上,通常將系統的數據結構模型分為2類,聯機事物型、決策分析型。

  • 聯機事物型系統是指用於日常信息業務的系統,通常情況下80%的IT軟件開發人員都在製作這一類系統。他的特點是:
    1. 信息的在線性。
    2. 信息強一致性同步。
    3. 數據事物性。
    4. 強調信息的原子性。
    5. 強調信息的實時性。
    6. 強調信息處理的健壯性。
  • 決策分析型系統是通過數據的組合、分析、模擬、合成以實現一個決策分析的支持,其特點如下:
    1. 信息可以離線。
    2. 信息可以實時不同步,但是需要明確維度時間點。
    3. 不考慮事物。
    4. 信息的原子性無任何要求,但是需要根據具體的業務。
    5. 無實時性要求,根據業務制定。
    6. 信息的健壯性的要求依賴業務需求。

對於2種系統而言,可以拋開用代碼實現的業務系統直接考察數據庫。以MySql為例,通常情況下innodb是用於支持聯機事物系統的,而MyISam是支持決策分析系統的:

  1. 由於數據磁盤存儲的特性,無論是寫入數據還是查詢數據。聯繫型事物系統都是碎片化的,因此會直接導致磁盤存在大量的碎片,因此innodb的塊分區會很小,而且為了支持事物,會有專門的事物處理區塊和進程。相對而言MyISam的分塊會大很多,這種特性有利於大量的查詢和統計,同時MyISam的索引和碎片整理機制和Innodb有巨大的差別,更適合於大量數據查詢和跑批量統計。
  2. 當我們使用Innodb執行多個海量數據統計查詢時,會因為碎片化的磁盤高頻讀寫極導致IO效率快速下降,當數量達到一定規模時會影響本身的業務。而MyISam本身的大區塊模型會極大的降低數據讀寫頻率。
  3. 從數據結構設計來看,聯機業務系統強調原子性,因此必須按照嚴格的ER範式進行設計,對數據進行冗餘勢必影響代碼層面的業務功能。而決策分析型系統因為必須考慮數據的原子性(其不是數據的來源,僅是數據的“快照”),因此反範式設計通常是決策系統的要求。
  4. 從業務系統的代碼層面考慮,因為大量的數據可能會耗費大量的內存,因此其內存模型在兩者之間應該有所的區別。

數據演變的過程與總線化

蜘蛛網演化

在信息化建設的過程中,最經常遇到的問題就是多個信息系統的打通。比如財務系統(ERP)需要和資產管理系統打通(EAM)。每遇到這種要求我們的常規認知都是開發接口(例如J2EE的SOA規範)。但是這種方式都是解決了點對點的系統,當點對點的系統越來越多,逐漸變成一個巨大的網狀結構,每個結點都是一個系統,每個系統都有很多連接線連接到其他系統。這稱為蜘蛛網演化過程。隨著網化的過程逐漸加深,管理難度和系統間的數據同步問題也呈指數級提升。

數據總線

在業務系統和數據倉庫之前,通常還會建立一個數據總線。所有的系統對外連接只考慮到總線。總線需要嚴格的定義數據規範、數據格式、數據字典內容等等。例如EAM系統入庫了一支鉛筆,在某個時候會映射到業務數據庫上,隨後監控歸檔日誌發現了這個變更、然後定義一個[時間handle][系統][表][時間][字段信息體]的事件數據推送到總線上,總線會向定義了監聽模型的中間件推送相關的數據信息。所有的業務系統包括數據倉庫會根據總線信息來更新自身的數據。

數據倉庫&主題

通常情況下,一個數據倉庫都是依託一個數據主題進行建立的,例如訂單數據主題。在很多時候數據倉庫是指一個數據庫,有時候數據倉庫又是只一個具體的主題模型。

星形結構

事實表

數據倉庫的數據通常都是以星形結構,通常星形的中心表稱為事實表,是我們搭建倉庫進行數據分析的核心的核心。我們用來進行數據輸出的表都是以這個表作爲中心的。然後外鍵關聯的形式也是以這個表作爲核心。

靜態維度表

靜態維度表通常與事實表可以確立一對一的關係,而且在業務層面一經過確立就不會發生改變。比如訂單的創建日期維度,這個表通常是爲了滿足擴展性展示和分析而建立的。

緩慢變更維度表

在大部分業務關係中,相關聯的數據並無法和事實表建立一對一的關係,各自有各自的維度體系。比如訂單表與商戶信息表,此時的星形結構中使用緩慢變更維度表。

###星形結構案例

附加參考内容: https://www.jianshu.com/p/d4f469387aa9?utm_campaign=hugo&utm_medium=reader_share&utm_content=note&utm_source=weixin-friends&from=groupmessage

數據集市

有了數據倉庫和主題之後,我們就可以針對不同的需求建立數據集市,集市就是依託一個數據倉庫模型針對某個業務搭建的數據展示、分析案例。

通常在我們完成數據倉庫搭建過後,就可以依託數據倉庫的的星形結構輸出一個數據集市的視圖。然後通過視圖進行數據展示和分析。

  • 數據集市的數據通常情況下以事實表為基礎,也就是說集市的每一行數據都會對應事實表的一行數據,只是在字段內容是會根據輸出內容的要求進行進行增減。
  • 不排除數據集市的基礎數據不以事實表為基礎的情況,例如以商戶作為行數據,然後將對應的訂單金額數據匯總到每一行。但是如果某個數據倉庫主題大量的出現這種情況,需要考慮另外新建數據倉庫主題。

數據倉庫案例展示superset

數據分析到AI訓練

進過大量的數據演練,可以逐漸的發現數據背後的統計規律。

https://ppt.baomitu.com/d/8ad646a2#/。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
『暴力學習 docker ,后附视频版』
docker-png.png 各位好,我是谢伟,是一名程序员。 程序员需要持续不断的学习,这一点已经是成为共识. 我也在不斷的學習新的學習方式,不斷的更新自己的學習方式. 於是有了下文, 稱之爲暴力學習方法. 其實這些也不是我自己原創的,我只是結合自己的學習方式和一些接觸的厲害的人之後總結出來的. 下面的方法,不適合精深某一領域,但是非常適合從不懂到懂操作的階段. 所以称之爲 暴力學習. 但往往就是這麼一次的入門, 就成了... 阻擋你入門的, 往往是那些原理. 注意: 上手是一切的开始, 是一切的可能性的
谢伟
2018/06/06
6760
分析 WordPress 3.8.2 修復的cookie偽造漏洞
4月8日,wordpress發布了一個重要更新,在該次更新中,修復了一系列安全漏洞。其中最顯眼的就是cookie伪造漏洞(CVE -2014- 0166)。 我們來看修補的代碼: $key = wp_hash($username . $pass_frag . '|' . $expiration, $scheme); $hash = hash_hmac('md5', $username . '|' . $expiration, $key); - if ( $hmac != $hash ) { + if (
FB客服
2018/02/02
8360
分析 WordPress 3.8.2 修復的cookie偽造漏洞
計算機程序設計:7大編程原則
編程的工作同石匠的工作相類似,即是技術活,也是體力活,而編寫優秀的軟件,算是一件比較難的事。編程大牛們並不是直接上手編寫,而是根據需求進行設計,不但將代碼中 Bug 出現的機率降到最低,還要讓代碼具有高可讀性,高安全性等等。
一个会写诗的程序员
2020/09/01
6040
MySQL數據查詢語言-DQL(語法實例講解)-语法实例详细解读
📒博客首页:蔚说的博客 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 🙏作者水平很有限,如果发现错误,求告知,多谢! 🌺有问题可私信交流!!! (千鋒教育讀書筆記)僅供學習交流 目录 DQL數據庫查詢語言 查詢基礎語法 where子句 多條件查詢 條件邏輯運算符 LIKE子句 對查詢結果的處理 計算列 as字段別名 distinct消除重複行 排序-order by 聚合函數 count()統計函數,統計滿足指定字段值的個數 max 計算最大值 min計算最小值 sum計算和:查詢滿足條件的記錄,指定的列的值的總和
用户9857551
2022/06/28
6170
MySQL數據查詢語言-DQL(語法實例講解)-语法实例详细解读
機器學習算法起航系列一·支持向量機
本文介绍了支持向量机(SVM)算法的基本原理、应用场景和实现方法。首先介绍了SVM处理线性可分和非线性可分的原理,然后通过一个歌曲分类的实例展示了如何使用SVM进行建模和分类。最后,总结了使用SVM进行文本分类的流程。
企鹅号小编
2017/12/27
8370
機器學習算法起航系列一·支持向量機
【Rust日报】 2019-09-09:glint 用Rust編寫的commit 提示工具
然後再用 Linux perf 跑看看,發現分析結果與 cargo-profiler 相同
MikeLoveRust
2019/09/11
4090
【Rust日报】 2019-09-09:glint 用Rust編寫的commit 提示工具
linux 信号sigabrt,關於Linux中的SIGABRT信號
SIGABRT是中止一個程序,它可以被捕捉,但不能被阻塞。處理函數返回后,所有打開的文件描述符將會被關閉,流也會被flush。程序會結束,有可能的話還會core dump。 當程序調用abort(3)時,該進程會向自己發送SIGABRT信號。所以,SIGABRT一般用於信號中一些關鍵的處理,assert失敗時也會使用它。你不應該去捕捉SIGSEGV和SIGABRT信號,如果收到這種信號,說明進程處於一個不確定的狀態,很可能會直接掛起。
全栈程序员站长
2022/07/23
2.9K0
postgresql高级应用之行转列&汇总求和
postgresql高级应用之行转列&汇总求和 轉載請注名出處 https://www.cnblogs.com/funnyzpc/p/14732165.html 前言 节前公司业务方需要做一個統計報表,这个报表用于统计当月估计几个明星品的销售情况,而我们的数据是按行存储的就是日期|产品|渠道|销售额这样,说是也奇了怪了,我们买的报(guan)表(yuan)系(la)统(ji) 竟然不能容易地实现。。。,于是我看了看,然后想了想,发现是可以通过sql算出这样一个报表(多亏了postgresql的高阶函数
上帝
2021/05/07
2K0
postgresql高级应用之行转列&汇总求和
基于 leancloud-storage 实现的无后端记账本
事情是這樣,年前和朋友一起合租了一個房子,然後捏,生活嘛,除了開心,當然是乾飯最大啦!
Cell
2022/02/25
8800
基于 leancloud-storage 实现的无后端记账本
ICLR'22 | You're AllSet! 超图GNN的新视角!
Title: You are AllSet: A Multiset Learning Framework for Hypergraph Neural Networks.
Houye
2022/04/14
3910
ICLR'22 | You're AllSet! 超图GNN的新视角!
【Rust日报】 2019-10-25 例子學習:基於Autoref的穩定特化
然後再將其上傳到數據庫,並且要在/opt/docs-rs-prefix/documentations目錄中進行。
MikeLoveRust
2019/10/31
4320
ICLR'22 | 如何大幅改善GNN表現?從零(原始數據)開始的節點特徵抽取
Title: Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction.
Houye
2022/04/14
3750
ICLR'22 | 如何大幅改善GNN表現?從零(原始數據)開始的節點特徵抽取
2017年最突出研究發現之一:人工智能會否取代人類
2017年最突出的研究调查发现,超过70%的美国人认为,机器人和人工智能在未来可能会取代人类的工作。然而,大多数受访者并不认为自己的工作会被取代。这项调查还发现,人们对于不同行业的工作被取代的担忧程度不同,如快餐业和软件工程行业的工作更容易被取代,而教师和护士等职业则相对较难被取代。此外,调查还发现,人们对于政府应该限制机器人和人工智能取代人类工作的政策持不同态度。
企鹅号小编
2018/01/08
5680
2017年最突出研究發現之一:人工智能會否取代人類
第一性原理 《禅与计算机程序设计艺术》 / 陈光剑
第一性原理(First Principle Thinking),指的是回歸事物最基本的條件,將其拆分成各要素進行解構分析,從而找到實現目標最優路徑的方法。
一个会写诗的程序员
2021/04/20
1.2K0
第一性原理 《禅与计算机程序设计艺术》 / 陈光剑
區塊鏈在網絡安全中的應用
通過數字化日常生活的各個方面逃離現實世界危險的人們開始意識到,與離線相比,互聯網不再是一個安全的地方。在2018年,我們看到了網絡犯罪分子造成的許多災難性故障,看起來在即將到來的一年中,我們將會有更多的故障。 幸運的是,黑客並不是唯一一個正在開發其電力庫的人 - 多年來,網絡安全中的區塊鏈一直在增長,並在所有可能的行業中得到開發。儘管該技術僅用於存儲加密貨幣比特幣,但其影響和影響現在已經擴散到更多不同的領域。在本文中,我們將討論Blockchain在2019年的含義,為您提供安全性中Blockchain的一些用例。
用户4624829
2019/02/15
3560
RESTful
HTTP 状态码(HTTP Status Code)是用以表示网页服务器 HTTP 响应状态的 3 位数字代码。所有状态码的第一个数字代表了响应的五种状态之一。 除非另有说明,状态码是 HTTP / 1.1 标准(RFC 7231)的一部分。
Cell
2022/02/25
8430
【ES三周年】基于ELK的日志分析服务
本專題作品開發一套基於ELK的日誌分析服務,提供多種日誌類型解析及對應的可視化功能。目前提供的日誌類型分別為系統日誌(syslog)、網功能變數名稱稱系統日誌(dnslog)及網頁伺服器日誌(nginxlog),可視化功能包含圖表呈現和文字說明等。
sh1mwww
2023/02/15
1.3K0
在Jetson上玩转大模型Day7:執行RAG功能的Jetson Copilot
在前面的大語言模型測試過程,一定會發現這些智能助手都存在一些“胡言亂語”、“答非所問”之類的狀況,其實可以將它視爲“不瞭解邊界”的小孩童一樣,因爲所有人工智能模型,都是再它的知識庫中,尋找“機率最高”的答案,很有可能這個答案的正確率還不到5%,但它不能回答“不知道”,必須找到一組以上的回覆(response),即便其正確率並不高。
GPUS Lady
2024/10/29
1360
在Jetson上玩转大模型Day7:執行RAG功能的Jetson Copilot
解密特斯拉自動駕駛晶片背後的一號人物
源自:虎嗅網 作者:國仁 在自動駕駛領域,AI晶片其實並非新奇玩意。Mobileye的EyeQ系列晶片,就是較早應用於自動駕駛的AI晶片之一。 而在這個月早些時候,矽谷鋼鐵俠馬斯克,還宣佈了特斯拉正在研發用於自動駕駛的AI晶片,回顧馬斯克對自動駕駛晶片的各種動作,我們發現近來各種跳票“不靠譜”的他,其實對技術發展的趨勢,遠比看上去更理解。 馬斯克對特斯拉自行研發自動駕駛晶片的佈局,從兩年前就開始了。 一、從Mobileye到英偉達 特斯拉的自動駕駛焦慮症 2014年,特斯拉找上Mobileye,用上了它
企鹅号小编
2018/01/25
9610
RFC介紹
RFC簡介 RFC(Remote Function Call)是SAP系統之間以及SAP與外部係統之間程序通信的基本接口技術。 RFC通信模式 RFC分為同步通信和異步通信。 同步通信:同步通信是一次性的功能調用,前提條件是接收系統必須是active,可以接收請求,並且進行處理。 優點是可以即時將數據返還給發送系統; 缺點是在系統對話時必須確保兩個系統都處於active狀態,否則對話中斷,影響業務應用的處理進程。 異步通信:異步通信特點是接收系統并不需要在被調用時處於active,接收系統可以滯
惨绿少年.
2021/02/24
8080
推荐阅读
相关推荐
『暴力學習 docker ,后附视频版』
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档