亚洲免费无码a集片_国产在线不卡AV精片观看_A级片免费18女_免费看BBBB的网站

fyty8888@163.com

數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理

作者:
安徽新天源建設(shè)咨詢有限公司
最后修訂:
2020-09-29 09:50:10

摘要:

數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理

張靖笙


由于工作需要和虛榮心驅(qū)使,我慢慢接受并且享受人家對(duì)我大數(shù)據(jù)專家的稱呼,雖然這么多年一線數(shù)據(jù)工作經(jīng)驗(yàn)也壯了我這個(gè)膽,但在數(shù)學(xué)面前還是情不自禁要打起了哆嗦。我也專門寫過文章論述過數(shù)據(jù)和數(shù)學(xué)的關(guān)系,但這并不能掩蓋我數(shù)學(xué)認(rèn)知上的膚淺。

同樣,數(shù)據(jù)學(xué)習(xí)也是根植于豐厚的數(shù)學(xué)土壤,如果今天我們看到各種人工智能大數(shù)據(jù)應(yīng)用的如火如荼,其實(shí)是各種深厚應(yīng)用數(shù)學(xué)的開花結(jié)果,本質(zhì)上,數(shù)據(jù)學(xué)習(xí)和數(shù)學(xué)是一體的,套用我所喜愛的冰山模型來比喻,數(shù)學(xué)是整個(gè)冰山,數(shù)據(jù)學(xué)習(xí)僅僅是冰山水面上露出來的那一個(gè)角,如果沒有水底過千倍的體量支撐,這一個(gè)角也顯露不出來,說句題外話,我不想用金字塔來形容此山,因?yàn)閿?shù)據(jù)學(xué)習(xí)無論如何都沒資格座在山頂。

提出數(shù)據(jù)學(xué)習(xí)的概念,我套用了機(jī)器學(xué)習(xí)的定義,當(dāng)然機(jī)器學(xué)習(xí)背后仍然是幾乎令人望而卻步的高深數(shù)學(xué),但在人工智能越演越烈的今天,我們每個(gè)人都要學(xué)會(huì)和眾多的人工智能“生命”和諧相處,就不可避免地要了解人工智能的“心思”,可以說今天我們每個(gè)人都是被數(shù)字智能時(shí)代倒逼著學(xué)習(xí)數(shù)據(jù),也要硬著頭皮面對(duì)那些當(dāng)初高懸在象牙塔尖的數(shù)學(xué)。


像我這種天生腦子并不靈光的學(xué)生,當(dāng)初學(xué)生時(shí)代的數(shù)學(xué)雖然不算太差,但肯定不會(huì)太好,于是能給我留下對(duì)數(shù)學(xué)的學(xué)生記憶,是從華南理工大學(xué)(當(dāng)時(shí)還叫華南理工學(xué)院)一年級(jí)開始的對(duì)計(jì)算機(jī)產(chǎn)生濃厚興趣之時(shí)。雖然那時(shí)的我對(duì)計(jì)算機(jī)尚且無知到把微機(jī)主板里面的大電容誤認(rèn)為是硬盤,但也不可阻擋我摸著石頭過河學(xué)習(xí)各種編程知識(shí),這個(gè)遙遠(yuǎn)的記憶和數(shù)據(jù)學(xué)習(xí)距離不是一般的遠(yuǎn),卻和數(shù)學(xué)的距離無比地近。


當(dāng)年大學(xué)一年級(jí)我玩的是華南理工大學(xué)27號(hào)樓微機(jī)房的286,編程語言是BasicA(后面加個(gè)A表示的是高級(jí)),而27號(hào)樓微機(jī)房在當(dāng)時(shí)顯出神圣光芒之處,那里的286和BasicA居然是可以支持圖像模式編程的,而且分辨率在當(dāng)時(shí)的電腦來說還不算低,這和我高中時(shí)期走馬觀花接觸過的字符界面老蘋果微機(jī)簡直是天壤之別,于是那個(gè)微機(jī)房磁鐵一樣吸引了包括本人在內(nèi)的很多華工男愣頭青,有些人在那里玩那個(gè)美國的阿帕奇直升機(jī)戰(zhàn)斗游戲,這在當(dāng)時(shí)絕對(duì)是被膜拜的高科技。


本人卻在華工圖書館找到了一本當(dāng)年著名的沙老師編寫的《Basic高級(jí)編程》教材,里面有大量的教導(dǎo)如何用BasicA作圖的內(nèi)容,特別是那種三維幾何圖形的透視旋轉(zhuǎn)操作程序,我依葫蘆畫瓢輸入書本中的程序在屏幕中浮現(xiàn)出了各種簡單圖形,比如立方體之類,按下按鈕旋轉(zhuǎn)不同角度觀察其變化,這讓我感覺非常興奮,于是結(jié)合自己當(dāng)時(shí)所讀的船舶工程專業(yè),立下了要搞計(jì)算機(jī)輔助設(shè)計(jì)(CAD)的志向,轉(zhuǎn)行金融信息化是后話。


坦白說,早期寫程序還是很挑戰(zhàn)智商的,不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調(diào)用,我們當(dāng)時(shí)要處理非常多的邏輯細(xì)節(jié),從數(shù)據(jù)如何被輸入,到在內(nèi)存如何存儲(chǔ)和加工,再到屏幕如何顯示和畫圖,越生動(dòng)出彩的程序越要對(duì)其數(shù)據(jù)結(jié)構(gòu)和算法邏輯做精心的設(shè)計(jì),所以當(dāng)我們這些早年的碼牛們終于爬到了匯編和C語言,大部分人的選擇就是果斷地放棄原來的Basic,可偏偏后者才是計(jì)算機(jī)高級(jí)語言。


由此可以看到,在算法為王的年代,我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學(xué)習(xí)的水平,連決策支持的應(yīng)用層次都還觸及不到,當(dāng)然這不代表沒有應(yīng)用數(shù)學(xué),只是大多數(shù)還就只是用到中小學(xué)的數(shù)學(xué)知識(shí),常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計(jì)算等等,當(dāng)然我要搞CAD繪圖也需要用包括三角函數(shù)之類的解析幾何知識(shí)。


后來我在計(jì)算機(jī)方面的學(xué)習(xí)始終離不開數(shù)學(xué)應(yīng)用的深入,雖然我的數(shù)學(xué)應(yīng)用總是點(diǎn)到解決了當(dāng)時(shí)的問題就打住了,但還是緩慢地取得一些進(jìn)步。對(duì)此我有一些體會(huì),以前呢我們解數(shù)學(xué)題也就是為了測驗(yàn)或者考試,好像都是一些純智力的燒腦難題,我這種腦子不靈光的人常常被一些題目難住了,那種看著都認(rèn)識(shí)的數(shù)學(xué)符號(hào)卻無從下手的感覺的確有些難受,內(nèi)心那種敬而遠(yuǎn)之的感覺是揮之不去的。而當(dāng)我開始搞計(jì)算機(jī)程序的時(shí)候,那個(gè)心情是很不一樣的,我們總是千方百計(jì)地想辦法把自己編的程序弄得更好使,于是心甘情愿去惡補(bǔ)程序所涉及的數(shù)學(xué)原理也就甘之如飴了,從這點(diǎn)我的感受是,兒童編程在激發(fā)小孩的數(shù)學(xué)思維方面應(yīng)該是有科學(xué)作用的,只是我小孩現(xiàn)在才小學(xué)一年級(jí),我不急于讓她去弄計(jì)算機(jī)程序,雖然她從五歲起已經(jīng)在玩Scratch,而在蘋果版本的ScratchJr她完全可以自己編寫一些故事化的程序。


大家都知道我有多年的商業(yè)智能數(shù)據(jù)應(yīng)用開發(fā)經(jīng)驗(yàn),之前分享過點(diǎn)滴經(jīng)驗(yàn)。既然是商業(yè)智能就不能不用數(shù)據(jù)來支持管理層的決策需求,所以我的數(shù)據(jù)學(xué)習(xí)也進(jìn)化到應(yīng)用和分析的學(xué)習(xí)層級(jí),應(yīng)用還是屬于淺表學(xué)習(xí),分析已經(jīng)摸到了深度學(xué)習(xí)的邊邊。對(duì)于這兩者,我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學(xué)原理。


這個(gè)商業(yè)智能首先要解決的第一個(gè)問題,是如何轉(zhuǎn)化數(shù)據(jù)為信息的問題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學(xué)習(xí)應(yīng)用不贅述了,商業(yè)智能里面有一個(gè)很常用的OLAP數(shù)據(jù)多維分析應(yīng)用。


先給大家補(bǔ)補(bǔ)OLAP這個(gè)技術(shù)的淵源。上世紀(jì)60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。


多維分析是一種數(shù)據(jù)分析過程,在此過程中,將數(shù)據(jù)分成兩類:維度(dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph theory),維度指能夠描述某個(gè)空間中所有點(diǎn)的最少坐標(biāo)(coordinate)數(shù),即空間基數(shù);度量指的是無向圖中頂點(diǎn)(vertices)間的距離,這個(gè)維度撐起來的坐標(biāo)空間,這個(gè)空間中每個(gè)頂點(diǎn)均可有對(duì)應(yīng)的取值,這種數(shù)據(jù)模型業(yè)界簡稱為OLAP cube(立方體)。


在多維分析領(lǐng)域,維度一般包括字段值為字符類或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類型;而度量一般包括基數(shù)值較大且可以參與運(yùn)算的數(shù)值類字段,一般也稱為指標(biāo)。


OLAP cube數(shù)學(xué)描述如下:如果用X、Y、Z代表OLAP cube的三軸,通過定義函數(shù)關(guān)系 F:( X,Y,Z)->W,W則表示每一個(gè)(X,Y,Z)元組所映射的數(shù)據(jù)集合,每個(gè)元組我們稱為OLAP cube的一個(gè)單元(cell),我們也可以簡單把OLAP cube理解為計(jì)算機(jī)程序里面常用的數(shù)據(jù)結(jié)構(gòu),多維數(shù)組,這個(gè)X、Y、Z就是數(shù)組的下標(biāo)值,而W就是數(shù)組中存儲(chǔ)的值,于是F:( X,Y,Z)->W就是從這個(gè)數(shù)組中讀出下標(biāo)為X、Y、Z的數(shù)組單元中存儲(chǔ)的值W。


因此OLAP cube可以簡單描述為“多維數(shù)據(jù)集”。cube,我們可以想象為數(shù)據(jù)指標(biāo)根據(jù)多維度封裝成的一個(gè)立方體結(jié)構(gòu)(以三維空間為例,如果維度數(shù)超過3,我們則稱為“Hypercube”),OLAP cube的數(shù)學(xué)原理我就點(diǎn)到這算了,我們更關(guān)心的是其用途。

我們在平時(shí)工作中,會(huì)遇到各種問題,在分析問題的時(shí)候,同樣的現(xiàn)象,我們會(huì)從多個(gè)角度去分析考慮,并且有時(shí)候我們還會(huì)從幾個(gè)角度綜合起來進(jìn)行分析。這就是OLAP分析最基本的概念:從多個(gè)觀察角度的靈活組合來觀察數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律。

OLAP將數(shù)據(jù)分為兩種特征,一種為表現(xiàn)特征,比如一個(gè)銷售分析模型中的銷售額、毛利等;還有一種為角度特征,比如銷售分析中的時(shí)間周期、產(chǎn)品類型、銷售模式、銷售區(qū)域等。前者是被觀察的對(duì)象,OLAP術(shù)語稱之為“度量數(shù)據(jù)”,后者為觀察視角,OLAP術(shù)語稱之為“維數(shù)據(jù)”。


有了OLAP cube這個(gè)數(shù)據(jù)煉丹神器,很多原來白開水一樣的數(shù)據(jù)結(jié)合不同的觀察角度,就可以化腐朽為神奇讓管理者看到很多問題成因的端倪,比如把一個(gè)產(chǎn)品的銷售業(yè)績從時(shí)間地區(qū)等維度做個(gè)比較分析,我們可以從數(shù)據(jù)中學(xué)習(xí)到這個(gè)產(chǎn)品在什么時(shí)間什么地方比較好賣,那管理層就可以針對(duì)旺季熱點(diǎn)決定投入更多的業(yè)務(wù)資源。


再往上走,數(shù)據(jù)應(yīng)用就走到評(píng)價(jià)和創(chuàng)造這樣的深度學(xué)習(xí)程度,拋開還有爭議的創(chuàng)造,評(píng)價(jià)背后所需要的數(shù)學(xué)支撐體系是非常之深厚的,最近我們粵港澳應(yīng)用數(shù)學(xué)中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題,可以體現(xiàn)應(yīng)用數(shù)學(xué)在指導(dǎo)民間金融行業(yè)監(jiān)管工作中廣闊的應(yīng)用前景。


在金融評(píng)價(jià)體系中,由于金融服務(wù)的大范圍覆蓋面,業(yè)務(wù)的多樣性,高度的數(shù)字化水平等等,我們會(huì)發(fā)現(xiàn)很難用簡單的統(tǒng)計(jì)指標(biāo)準(zhǔn)確測量當(dāng)前的普惠金融產(chǎn)業(yè)發(fā)展水平,許多直接測量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內(nèi)在規(guī)律和必然趨勢,要獲得這些洞察能力,我們必須通過多個(gè)復(fù)合指標(biāo)的定量分析方法,例如這個(gè)課題研究團(tuán)隊(duì)所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法、無監(jiān)督的自編碼深度學(xué)習(xí)模型等等。


可能很多人會(huì)問,一個(gè)問題需要用這么多高深的數(shù)學(xué)方法嗎?解決問題具體要用到什么數(shù)學(xué)方法其實(shí)是由問題的性質(zhì)所決定的。數(shù)據(jù)深度學(xué)習(xí)所需要解決的問題,都是需要把握根本矛盾和本質(zhì)規(guī)律才能有效指導(dǎo)我們工作實(shí)踐的問題。


剛才我提到,數(shù)據(jù)淺表學(xué)習(xí)解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問題,比如剛才說的,我們做銷售總監(jiān)的人需要知道貨賣得怎么樣 ,進(jìn)一步也就是需要知道什么時(shí)候賣得怎么樣。這些問題都是知其然(事實(shí))的層面就可以直接求是(判斷和決策)的了,一般人也不具備沃爾瑪研究那些類似啤酒和尿布高頻出現(xiàn)的組合關(guān)系背后原因等問題的水平和能力,所以大部分都是人云亦云,隨波逐流。


而為什么真理常常掌握在少數(shù)人手上?因?yàn)檫@些人擁有一般人缺乏的獨(dú)立思考、探究質(zhì)疑、愛琢磨事理規(guī)律的思維習(xí)慣。恩格斯說:數(shù)學(xué)是研究數(shù)量關(guān)系與空間形式的一門科學(xué),對(duì)于我們所要解決的現(xiàn)實(shí)世界的問題中的,問題背后都有無限聯(lián)系的宇宙背景,對(duì)事物的關(guān)鍵因素沒有抽象和簡化就無法被我們所認(rèn)知和研究,所以所有的數(shù)學(xué)方法都不可避免存在其適用性和局限性,我們要解決具體問題,根據(jù)問題性質(zhì)要從知其然進(jìn)入到知其所以然的境界,必然是需要多種數(shù)學(xué)方法和工具的綜合運(yùn)用。


于是,支撐數(shù)據(jù)深度學(xué)習(xí)的必然是更多應(yīng)用數(shù)學(xué)前沿的基礎(chǔ)理論研究成果,今天我國的產(chǎn)業(yè)發(fā)展要從低端制造簡單加工轉(zhuǎn)型升級(jí)到智能制造品質(zhì)創(chuàng)造,必然會(huì)遇到很多前所未見的挑戰(zhàn)和困難,在當(dāng)今世界大勢,我們也很難再如當(dāng)初向世界科技第一強(qiáng)國copy2China(復(fù)制到中國),人家已經(jīng)開始卡我們科技發(fā)展的脖子了,我們要解決這些卡脖子問題,唯有從應(yīng)用數(shù)學(xué)基礎(chǔ)研究搞起,開車上路尚且要備胎,何況走上中華民族偉大復(fù)興的長征路。


如果今天有人恭維我聰明,我自己知道這種聰明也是在這幾十年的時(shí)光中,一步一步在數(shù)學(xué)的指引下從數(shù)據(jù)中學(xué)習(xí)回來的,當(dāng)然我認(rèn)為還遠(yuǎn)遠(yuǎn)不夠。