欧美日韩一卡2卡三卡4卡 乱码欧美孕交-国产男小鲜肉同志免费-国产ww久久久久久久久久-久久久久久久性潮

創(chuàng)業(yè)公司怎么玩轉(zhuǎn)大數(shù)據(jù)?

產(chǎn)業(yè)投資 本文作者:鈦媒體 2015-09-02
大數(shù)據(jù)分析可謂是兵無(wú)常勢(shì),水無(wú)常形,真正厲害的數(shù)據(jù)挖掘大師是碰到什么樣的形勢(shì)知道用什么樣的工具來(lái)解決的人。中小企業(yè)玩大數(shù)據(jù)切記要不炒概念和不燒錢,切實(shí)用大數(shù)據(jù)提升企業(yè)競(jìng)爭(zhēng)力才是王道。

這是一個(gè)不說(shuō)自己搞大數(shù)據(jù)就不好意思和人打招呼的時(shí)代。阿里巴巴用大數(shù)據(jù)貸款,百度用大數(shù)據(jù)推廣告。那么,沒(méi)有巨頭的天然優(yōu)勢(shì),創(chuàng)業(yè)公司具體怎么搞大數(shù)據(jù)?

開(kāi)搞之前,先明確一下目前大數(shù)據(jù)主要是用來(lái)預(yù)判,挖掘用戶的需求(也有用過(guò)去的大數(shù)據(jù)判斷現(xiàn)在的需求,如大數(shù)據(jù)種菜判斷菜目前的長(zhǎng)勢(shì)情況)。那么,預(yù)判的依據(jù)是什么?就是所謂樣本,例如我通過(guò)前幾年的平均氣溫判斷今年的溫度是高是低。

這里還可以分為三種情況:一種是我的大數(shù)據(jù)軟件自帶了很多樣本可以作為分析依據(jù),一種是我把之前的交易數(shù)據(jù)作為樣本。第二種較先進(jìn),要求系統(tǒng)有自我學(xué)習(xí)建立樣本模型的能力,也就是邊干邊學(xué)。第三種最牛不光能做出預(yù)判,還能告訴你下一步怎么做,例如一家賣拖拉機(jī)的公司,為用戶提供何時(shí)在哪里種植何種作物,犁地的最佳路線。

首先說(shuō)一下數(shù)據(jù)來(lái)源問(wèn)題,可以是平時(shí)經(jīng)營(yíng)過(guò)程中積攢下來(lái)的也可以向別的公司購(gòu)買(像京東那樣買騰訊的數(shù)據(jù),目前國(guó)內(nèi)貴州大數(shù)據(jù)交易中心和DATACOMB很出名,后面細(xì)說(shuō)).

技術(shù)關(guān)鍵:積攢數(shù)據(jù)同時(shí)要根據(jù)自己的需求為用戶和產(chǎn)品貼標(biāo)簽,例如我希望了解和用戶年齡段有關(guān)的規(guī)律,那么年齡就是必須采集的一個(gè)標(biāo)簽。

積攢數(shù)據(jù)的方式大致分兩類,一類是圍繞用戶,一類是圍繞產(chǎn)品,將兩者每次交易的數(shù)據(jù)都采集下來(lái),可用人力,例如飯店服務(wù)員每次交易記錄下菜品,性別,滿意度之類,這一步又叫企業(yè)數(shù)據(jù)化。

然后是數(shù)據(jù)的初步處理:租服務(wù)器,建立自己的數(shù)據(jù)分析架構(gòu),例如日?qǐng)?bào)表月報(bào)表這些都OUT了,應(yīng)該明確適合公司的格式,如果需要這些定制需求的報(bào)表,目前流行的大數(shù)據(jù)的解決方案大部分都是以Hadoop為基礎(chǔ)架構(gòu)。什么是Hadoop?

簡(jiǎn)單來(lái)說(shuō)Hadoop是一個(gè)分布式計(jì)算的解決方案,分布式通俗來(lái)說(shuō)就是把一件事分布到幾臺(tái)計(jì)算機(jī)上運(yùn)行。由多臺(tái)計(jì)算機(jī)同時(shí)運(yùn)行和存儲(chǔ)數(shù)據(jù),比一臺(tái)計(jì)算機(jī)運(yùn)行速度快,而且如果數(shù)據(jù)量大了,或者報(bào)表復(fù)雜導(dǎo)致運(yùn)算速度慢,只要再加計(jì)算機(jī)就解決了。

當(dāng)每臺(tái)計(jì)算機(jī)運(yùn)算完畢后,會(huì)把中間結(jié)果集中到一臺(tái)計(jì)算機(jī)上,再把這些中間結(jié)果匯總起來(lái)得出最終結(jié)果。把手頭的數(shù)據(jù)進(jìn)行預(yù)處理,包括將不同數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入到一個(gè)數(shù)據(jù)庫(kù)中.

數(shù)據(jù)的粗選,分析,分類,會(huì)用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒(méi)有那么大數(shù)據(jù)量可以不這么麻煩,剔除那些和其他數(shù)據(jù)差別很大的就行

接下來(lái),就是最核心的,數(shù)據(jù)挖掘。這一步可以挖掘出你意想不到的信息,比如,買啤酒的顧客通常會(huì)買尿布,持續(xù)買無(wú)香精面霜的顧客通常接下來(lái)會(huì)買母嬰用品。這些數(shù)據(jù)怎么挖?需要用到以下工具:

1.決策樹(shù),各種可能性的展示圖,主要用來(lái)精確分類。例如,樹(shù)的根部是雜貨鋪里所有商品,往上走就是第一個(gè)分叉,分叉處有一個(gè)判斷標(biāo)準(zhǔn)-吃的還是用的,于是所有商品被分開(kāi)為兩個(gè)樹(shù)枝,吃的再往上走又出現(xiàn)分叉,于是被分成甜的和咸的...

2.神經(jīng)網(wǎng)絡(luò),例如,計(jì)算機(jī)預(yù)判迎面走來(lái)的這個(gè)軟妹子會(huì)買奶茶,因?yàn)楦鶕?jù)神經(jīng)網(wǎng)絡(luò)顯示,上次買咖啡,上上次買酸奶的,這次99.99%的概率會(huì)買奶茶。什么?這貨買的啤酒?那計(jì)算機(jī)就會(huì)根據(jù)這次的結(jié)果修改神經(jīng)網(wǎng)絡(luò)。沒(méi)錯(cuò),神經(jīng)網(wǎng)絡(luò)是具有學(xué)習(xí)能力的模擬人腦總結(jié)教訓(xùn)的分析模式,他會(huì)自己得到一個(gè)穩(wěn)定準(zhǔn)確的結(jié)果。

3.關(guān)聯(lián)規(guī)則,例如上文說(shuō)的買啤酒的一定買尿布。

先看一個(gè)簡(jiǎn)單的例子,假如有下面數(shù)據(jù)集,每一組數(shù)據(jù)ti表示不同的顧客一次在商場(chǎng)購(gòu)買的商品的集合:

t1: 牛肉、雞肉、牛奶

t2: 牛肉、奶酪

t3: 奶酪、靴子

t4: 牛肉、雞肉、奶酪

t5: 牛肉、雞肉、衣服、奶酪、牛奶

t6: 雞肉、衣服、牛奶

t7: 雞肉、牛奶、衣服

假如有一條規(guī)則:牛肉—>雞肉,那么同時(shí)購(gòu)買牛肉和雞肉的顧客比例是3/7,而購(gòu)買牛肉的顧客過(guò)一段時(shí)間也購(gòu)買了雞肉的顧客比例是3/4。這兩個(gè)比例參數(shù)是很重要的衡量指標(biāo),它們?cè)陉P(guān)聯(lián)規(guī)則中稱作支持度(support)和置信度(confidence)。

前者反映了牛肉雞肉組合的吸引力,后者可用來(lái)預(yù)判消費(fèi)行為。好了,現(xiàn)指定你想要的支持度和置信度是多少,然后把牛奶雞肉,衣服奶酪等各種組合用程序算一遍,找出支持度和置信度滿足你要求的組合。

其中,假如一條關(guān)聯(lián)規(guī)則的支持度和置信度很高時(shí),不代表這個(gè)規(guī)則之間就一定存在某種關(guān)聯(lián)。舉個(gè)最簡(jiǎn)單的例子,假如X和Y是最近的兩個(gè)比較熱門的商品,大家去商場(chǎng)都要買,比如某款手機(jī)和某款衣服,都是最新款的,深受大家的喜愛(ài),那么這條關(guān)聯(lián)規(guī)則的支持度和置信度都很高,但是它們之間沒(méi)有必然的聯(lián)系。

所以,搞大數(shù)據(jù)既要對(duì)專業(yè)精通又要對(duì)你公司的業(yè)務(wù)精通,這也是現(xiàn)在公司經(jīng)常碰到的難題,此事古難全啊。

除了這些,大數(shù)據(jù)還經(jīng)常用到一些數(shù)學(xué)工具如,線性回歸,支持向量機(jī)等來(lái)幫助進(jìn)行比對(duì)和分類。不要小看這些輔助工具,有時(shí)候他們是主力。美國(guó)警察用電力公司的數(shù)據(jù)與培養(yǎng)大麻的LED燈用電曲線進(jìn)行比對(duì),數(shù)學(xué)工具就是線性回歸,只要發(fā)現(xiàn)哪家用電曲線和樣本相符(相符的程度用方差表示,標(biāo)準(zhǔn)老警自己定),直接踹門抓人一抓一個(gè)準(zhǔn)。

這些數(shù)學(xué)工具很多都是用來(lái)分類的,分類在大數(shù)據(jù)中是個(gè)大事,例如國(guó)外有的門戶網(wǎng)站首頁(yè)分類用大數(shù)據(jù)直接篩選出詳細(xì)頁(yè)使用頻率較高的詞匯作為各個(gè)大類的標(biāo)題。

工具列完了,下面數(shù)據(jù)挖掘正式開(kāi)幕:

大數(shù)據(jù)對(duì)于什么時(shí)候用人力什么時(shí)候用計(jì)算機(jī)也能看出來(lái)功力,中小公司更應(yīng)該注意巧妙利用人力,可避免在技術(shù)上過(guò)多拼財(cái)力。比如以上的例子中大家可以看到,相似不相似,是不是關(guān)聯(lián),這些標(biāo)準(zhǔn)都是人定的。

計(jì)算機(jī)常負(fù)責(zé)一些同一個(gè)算法算大批量數(shù)據(jù)的活。美國(guó)大數(shù)據(jù)公司的老大Palantir就因精于此道而著稱。中小公司在這方面也有做的不錯(cuò)的,最近開(kāi)始流行的圖片新聞APP 網(wǎng)新聞的策略就很值得借鑒:

網(wǎng)新聞主要是用關(guān)系圖,時(shí)間軸各種圖片展示更豐富信息,一條新聞,用戶希望在哪一點(diǎn)上獲取更深入的信息是網(wǎng)新聞最想分析的,明確了這個(gè)目的又積累了一定用戶行為的數(shù)據(jù)后,網(wǎng)新聞做了如下工作:舉個(gè)栗子,把一個(gè)新聞如釋永信事件,讓小編寫(xiě)完這條新聞就分析用戶關(guān)注這條新聞的點(diǎn)在哪,并且把各種可能性列出來(lái)。列出的結(jié)果是:

1、用時(shí)間軸展示少林寺背后的利益紛爭(zhēng)事件,用關(guān)系圖展示各利益相關(guān)方的關(guān)系,這兩條可以滿足求知欲,用戶也可以說(shuō)出去秀知識(shí)。

2、說(shuō)明佛門中的禪宗一派特點(diǎn)就是不避世俗。古代就在寺廟做小買賣。進(jìn)而拓展到律宗,密宗是怎么回事。

3、傳聞釋永信嫖娼,有情婦,桃色因素是一個(gè)。

4、中國(guó)法律目前對(duì)寺廟住持是怎么定性的,有哪些法律來(lái)約束,觸犯了這些法律會(huì)受到什么樣的懲罰,對(duì)事件目前形勢(shì)未來(lái)預(yù)判也是一個(gè)吸引人的因素...

這樣列出來(lái)后,進(jìn)行關(guān)聯(lián)性分析,點(diǎn)擊量高的新聞,一定是具備因素2和因素3?還是因素1和因素3?...網(wǎng)新聞?dòng)眠@種方法得出很多有價(jià)值的信息,如用戶對(duì)用圖片解釋“經(jīng)理人采購(gòu)指數(shù)”感興趣還是對(duì)展示某經(jīng)濟(jì)指標(biāo)對(duì)自己生活的影響更感興趣,然后用這些數(shù)據(jù)指導(dǎo)小編擺圖寫(xiě)稿。

另外,不要覺(jué)得分析數(shù)據(jù)預(yù)判用戶需求很屌,其實(shí)路邊賣手抓餅的也經(jīng)常能猜出你這次要不要放辣椒,就是調(diào)用的他腦中的大數(shù)據(jù)??梢宰層脩羲⒋蛘劭ɑ蛘呤峭ㄟ^(guò)QQ定外賣時(shí)顯示他平時(shí)的偏好。

這個(gè)方法需要對(duì)數(shù)據(jù)預(yù)處理去掉那些和其他數(shù)據(jù)偏離較大的數(shù)據(jù)可獲得基本的“用戶畫(huà)像”。另外還可以結(jié)合其他因素?cái)?shù)據(jù)豐富“用戶畫(huà)像”,例如天氣炎熱或寒冷的情況下用戶的喜好,每到周末是不是多買一些等。

還有一個(gè)很重要的使用人力的節(jié)點(diǎn)就是先想好你想了解什么。例如,買啤酒的顧客會(huì)買尿布這個(gè)例子中,數(shù)據(jù)挖掘工程師其實(shí)提前就想到有必要查看一下啤酒和其他商品的關(guān)聯(lián),才有了這個(gè)發(fā)現(xiàn),而不是計(jì)算機(jī)自己去找這兩者關(guān)系。這需要洞察力!福布斯網(wǎng)站發(fā)文稱“首先制定好策略,然后奔著結(jié)果找出答案”,并由此得出“問(wèn)題比答案重要”的結(jié)論。

使用大數(shù)據(jù)的流程就這些了??偨Y(jié)一下哪些地方使用人力:收集什么樣的數(shù)據(jù)需要人來(lái)做決定,想好要弄清楚哪些規(guī)律需要人來(lái)做決定。電腦主要用來(lái)存儲(chǔ),以及用數(shù)學(xué)工具來(lái)進(jìn)行具體計(jì)算。哈哈,原來(lái)大數(shù)據(jù)不是巨頭們買一個(gè)塞滿房子的超級(jí)計(jì)算機(jī)把海量數(shù)據(jù)統(tǒng)統(tǒng)輸進(jìn)去然后“度昂”一下就出來(lái)結(jié)果了!我們小公司一樣可以搞?。?/p>

由于“問(wèn)題比答案重要”,再說(shuō)一下大數(shù)據(jù)領(lǐng)域提出的幾個(gè)有代表性的“問(wèn)題”。既然除了利用之前積累的數(shù)據(jù)了解用戶偏好向用戶推銷這次的產(chǎn)品,還可以用大數(shù)據(jù)讓用戶方便的消費(fèi)來(lái)提高用戶體驗(yàn):快餐業(yè)的視頻分析。

該公司通過(guò)視頻分析等候隊(duì)列的長(zhǎng)度,然后自動(dòng)變化電子菜單顯示的內(nèi)容。如果隊(duì)列較長(zhǎng),則顯示可以快速供給的食物;如果隊(duì)列較短,則顯示那些利潤(rùn)較高但準(zhǔn)備時(shí)間相對(duì)長(zhǎng)的食品。這個(gè)案例門檻極低,只要人為設(shè)定隊(duì)伍多長(zhǎng)算長(zhǎng),做食物的速度多塊算快即可,也可以人工標(biāo)定一下哪些是快食哪些是慢食。

不僅可以預(yù)判需求予以滿足,營(yíng)銷時(shí)還可以定點(diǎn)營(yíng)銷。此類打法常常是從別的機(jī)構(gòu)購(gòu)得數(shù)據(jù)或者連錢都不花從政府開(kāi)放的數(shù)據(jù)中拿,一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶提供服務(wù)。

公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從Twitter 和Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷模式,隨后他們認(rèn)識(shí)到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。然后通過(guò)免費(fèi)化妝服務(wù),對(duì)這兩類消費(fèi)者進(jìn)行精準(zhǔn)的宣傳。這個(gè)案例中,需要用到的工具有用于歸類的線性回歸,聚類分析等。

數(shù)據(jù)的來(lái)源問(wèn)題:由于沒(méi)有巨頭那樣的數(shù)據(jù)積累,中小企業(yè)經(jīng)常想到購(gòu)買數(shù)據(jù),或使用政府公開(kāi)的免費(fèi)數(shù)據(jù)。目前國(guó)內(nèi)掌握大數(shù)據(jù)的巨頭不夠開(kāi)放,形成了讓仁人志士頭大的“數(shù)據(jù)堰塞湖”。雖然也有開(kāi)放數(shù)據(jù)的,例如中國(guó)首個(gè)大數(shù)據(jù)開(kāi)放平臺(tái)DataComb,對(duì)于掌握一些數(shù)據(jù)的公司來(lái)說(shuō)也多了一些數(shù)據(jù)變現(xiàn)的渠道,然而對(duì)疏通“堰塞湖”并沒(méi)有太大作用。

也有好消息,8月19日,國(guó)務(wù)院常務(wù)會(huì)議審議通過(guò)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》,全面公開(kāi)應(yīng)該就在眼前了。在美國(guó)最重要的數(shù)據(jù)開(kāi)放平臺(tái)就是奧巴馬政府在2009年推出的Data.gov,奧巴馬同學(xué)對(duì)搞大數(shù)據(jù)一向蠻拼的。

另外,創(chuàng)業(yè)公司切記,巨頭們整天嚷嚷的“大數(shù)據(jù)不必追求精確,犧牲精確性可以換取效率和更多規(guī)律的發(fā)現(xiàn)”,可問(wèn)題是那是在數(shù)據(jù)量異常大的情況下,對(duì)中小企業(yè)數(shù)據(jù)量不太大時(shí)務(wù)必要精確。

總的來(lái)說(shuō),大數(shù)據(jù)分析可謂是兵無(wú)常勢(shì),水無(wú)常形,真正厲害的數(shù)據(jù)挖掘大師是碰到什么樣的形勢(shì)知道用什么樣的工具來(lái)解決的人。中小企業(yè)玩大數(shù)據(jù)切記:1.不炒概念。2.不燒錢。切實(shí)用大數(shù)據(jù)提升企業(yè)競(jìng)爭(zhēng)力才是王道。

版權(quán)聲明
執(zhí)惠本著「干貨、深度、角度、客觀」的原則發(fā)布行業(yè)深度文章。如果您想第一時(shí)間獲取旅游大消費(fèi)行業(yè)重量級(jí)文章或與執(zhí)惠互動(dòng),請(qǐng)?jiān)谖⑿殴娞?hào)中搜索「執(zhí)惠」并添加關(guān)注。歡迎投稿,共同推動(dòng)中國(guó)旅游大消費(fèi)產(chǎn)業(yè)鏈升級(jí)。投稿或?qū)で髨?bào)道請(qǐng)發(fā)郵件至執(zhí)惠編輯部郵箱zjz@tripvivid.com,審閱通過(guò)后文章將以最快速度發(fā)布并會(huì)附上您的姓名及單位。執(zhí)惠發(fā)布的文章僅代表作者個(gè)人看法,不代表執(zhí)惠觀點(diǎn)。關(guān)于投融資信息,執(zhí)惠旅游會(huì)盡量核實(shí),不為投融資行為做任何背書(shū)。執(zhí)惠尊重行業(yè)規(guī)范,轉(zhuǎn)載都注明作者和來(lái)源,特別提醒,如果文章轉(zhuǎn)載涉及版權(quán)問(wèn)題,請(qǐng)您及時(shí)和我們聯(lián)系刪除。執(zhí)惠的原創(chuàng)文章亦歡迎轉(zhuǎn)載,但請(qǐng)務(wù)必注明作者和「來(lái)源:執(zhí)惠」,任何不尊重原創(chuàng)的行為都將受到嚴(yán)厲追責(zé)。
本文來(lái)源鈦媒體 ,版權(quán)歸原作者所有。
發(fā)表評(píng)論
后發(fā)表評(píng)論
最新文章
查看更多
# 熱搜詞 #

新用戶登錄后自動(dòng)創(chuàng)建賬號(hào)

登錄表示你已閱讀并同意《執(zhí)惠用戶協(xié)議》 注冊(cè)

找回密碼

注冊(cè)賬號(hào)