大數(shù)據(jù)學(xué)習(xí)心得 篇1
奧倫·艾奇奧倫(Oren Etzioni)創(chuàng)立的從文本中挖掘信息的公司ClearForest,已經(jīng)被路透社收購(gòu)。
美國(guó)股市每天成交量高達(dá)70億股,而其中三分二的交易都是由建產(chǎn)在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的。
farecast經(jīng)過(guò)了20xx年立項(xiàng),到20xx年被收購(gòu)。經(jīng)歷了5年的時(shí)間,數(shù)據(jù)從最早了120xx條到20xx億條。
大數(shù)據(jù)的平臺(tái)有:谷歌的MAPREDUCE 和開源HADOOP平臺(tái)(最初源于雅虎)。NOSQL更優(yōu)先于MYSQL.
大數(shù)據(jù)所用的數(shù)據(jù)記錄單位:拍字節(jié)PB(2的50次方)和艾字節(jié)EB(2的60次方),澤字節(jié)ZB (2的70次方),太字節(jié)TB。1EB=10億GB。1ZB=1024EB
20xx年,所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等媒價(jià)上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù)。
20xx年世界上存儲(chǔ)的數(shù)據(jù)預(yù)計(jì)能達(dá)到約1.2澤字節(jié),其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%。
人類存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍。而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度則比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍。
大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因。
大數(shù)據(jù)的算法從因果關(guān)系向相關(guān)關(guān)紗轉(zhuǎn)化。這也是思維方式的轉(zhuǎn)變。
推薦電影《點(diǎn)球成金》MONEYBALL
大數(shù)據(jù)的三個(gè)思維方式:
1、不要依靠分析少量的數(shù)據(jù)樣本,不要抽樣調(diào)查。要分析與某事物相關(guān)的所有數(shù)據(jù)。
2、不要追求精確性,要樂于接受紛繁復(fù)雜的數(shù)據(jù)。
3、不要探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。