伊人国产在线视频,亚洲欧美日本国产一区二区三区,日韩乱视频,精品成人一区二区,a在线亚洲男人的天堂试看,国产成人精品系列在线观看,免费精品精品国产欧美在线

大數(shù)據(jù)已經(jīng)火了有四五年了 但你知道它是怎么驅(qū)動的嗎?

2016.03.12 17:41

t01a2b79181c0a7c3ae

本文作者為桑文鋒,Sensors?Data 創(chuàng)始人&CEO,前百度大數(shù)據(jù)部技術(shù)經(jīng)理。2005 畢業(yè)于浙江大學計算機系,2007年 加入百度并負責組建并帶領(lǐng)團隊,從零實現(xiàn)了百度用戶日志的大數(shù)據(jù)平臺。

一、大數(shù)據(jù)思維

在 2011年、2012年 大數(shù)據(jù)概念火了之后,可以說這幾年許多傳統(tǒng)企業(yè)也好,互聯(lián)網(wǎng)企業(yè)也好,都把自己的業(yè)務(wù)給大數(shù)據(jù)靠一靠,并且提的比較多的大數(shù)據(jù)思維。

那么大數(shù)據(jù)思維是怎么回事?我們來看兩個例子:

【案例 1:輸入法】

首先,我們來看一下輸入法的例子.我 2001年 上大學,那時用的輸入法比較多的是智能 ABC,還有微軟拼音,還有五筆.那時候的輸入法比現(xiàn)在來說要慢的很多,許多時候輸一個詞都要選好幾次,去選詞還是調(diào)整才能把這個字打出來,效率是非常低的。

到了 2002年,2003年 出了一種新的輸出法——紫光拼音,感覺真的很快,鍵盤沒有按下去字就已經(jīng)跳出來了。但是,后來很快發(fā)現(xiàn)紫光拼音輸入法也有它的問題,比如當時互聯(lián)網(wǎng)發(fā)展已經(jīng)比較快了,會經(jīng)常出現(xiàn)一些新的詞匯,這些詞匯在它的詞庫里沒有的話,就很難敲出來這個詞。

在 2006年 左右,搜狗輸入法出現(xiàn)了。搜狗輸入法基于搜狗本身是一個搜索,它積累了一些用戶輸入的檢索詞這些數(shù)據(jù),用戶用輸入法時候產(chǎn)生的這些詞的信息,將它們進行統(tǒng)計分析,把一些新的詞匯逐步添加到詞庫里去,通過云的方式進行管理。

 

比如,去年流行一個詞叫 “然并卵”,這樣的一個詞如果用傳統(tǒng)的方式,因為它是一個重新構(gòu)造的詞,在輸入法是沒辦法通過拼音 “ran?bing?luan” 直接把它找出來的。然而,在大數(shù)據(jù)思維下那就不一樣了,換句話說,我們先不知道有這么一個詞匯,但是我們發(fā)現(xiàn)有許多人在輸入了這個詞匯,于是,我們可以通過統(tǒng)計發(fā)現(xiàn)最近新出現(xiàn)的一個高頻詞匯,把它加到司庫里面并更新給所有人,大家在使用的時候可以直接找到這個詞了。

二、數(shù)據(jù)驅(qū)動

對于數(shù)據(jù)驅(qū)動這一點,可能有些人從沒有看數(shù)的習慣到了看數(shù)的習慣那是一大進步,是不是能看幾個數(shù)這就叫數(shù)據(jù)驅(qū)動了呢?這還遠遠不夠,這里來說一下什么是數(shù)據(jù)驅(qū)動?或者現(xiàn)有的創(chuàng)業(yè)公司在進行數(shù)據(jù)驅(qū)動這件事情上存在的一些問題。

 

一種情況大家在公司里面有一個數(shù)據(jù)工程師,他的工作職責就是跑數(shù)據(jù)。

 

不管是市場也好,產(chǎn)品也好,運營也好,老板也好,大家都會有各種各樣的數(shù)據(jù)需求,但都會提給他。然而,這個資源也是有限的,他的工作時間也是有限的,只能一個一個需求去處理,他本身工作很忙,大家提的需求之后可能并不會馬上就處理,可能需要等待一段時間。即使處理了這個需求,一方面他可能數(shù)據(jù)準備的不全,他需要去采集一些數(shù)據(jù),或做一些升級,他要把數(shù)據(jù)拿過來。拿過來之后又在這個數(shù)據(jù)上進行一些分析,這個過程本身可能兩三天時間就過去了,如果加上等待的時間更長。

對于有些人來說,這個等待周期太長,整個時機可能就錯過了。比如,你重要的就是考察一個節(jié)日或者一個開學這樣一個時間點,然后想搞一些運營相關(guān)的事情,這個時機可能就錯過去了,許多人等不到了,有些同學可能就干脆還是拍腦袋,就不等待這個數(shù)據(jù)了。這個過程其實就是說效率是非常低的,并不是說拿不到這個數(shù)據(jù),而是說效率低的情況下我們錯過了很多機會。

 

對于還有一些公司來說,之前可能連個數(shù)都沒有,現(xiàn)在有了一個儀表盤,有了儀表盤可以看到公司上個季度、昨天總體的這些數(shù)據(jù),還是很不錯的。

 

對老板來說肯定還是比較高興,但是,對于市場、運營這些同學來說可能就還不夠。

比如,我們發(fā)現(xiàn)某一天的用戶量跌了 20%,這個時候肯定不能放著不管,需要查一查這個問題出在哪。這個時候,只看一個宏觀的數(shù)那是遠遠不夠的,我們一般要對這個數(shù)據(jù)進行切分,按地域、按渠道,按不同的方式去追查,看到底是哪少了,是整體少了,還是某一個特殊的渠道獨特的地方它這個數(shù)據(jù)少了,這個時候單單靠一個儀表盤是不夠的。

 

理想狀態(tài)的數(shù)據(jù)驅(qū)動應(yīng)該是怎么樣的?就是一個自助式的數(shù)據(jù)分析,讓業(yè)務(wù)人員每一個人都能自己去進行數(shù)據(jù)分析,掌握這個數(shù)據(jù)。

前面我講到一個模式,我們源頭是一堆雜亂的數(shù)據(jù),中間有一個工程師用來跑這個數(shù)據(jù),然后右邊是接各種業(yè)務(wù)同學提了需求,然后排隊等待被處理,這種方式效率是非常低的。理想狀態(tài)來說,我們現(xiàn)象大數(shù)據(jù)源本身整好,整全整細了,中間提供強大的分析工具,讓每一個業(yè)務(wù)員都能直接進行操作,大家并發(fā)的去做一些業(yè)務(wù)上的數(shù)據(jù)需求,這個效率就要高非常多。

三、數(shù)據(jù)處理的流程

2016-3-12 17-38-50

大數(shù)據(jù)分析這件事用一種非技術(shù)的角度來看的話,就可以分成金字塔,自底向上的是三個部分,第一個部分是數(shù)據(jù)采集,第二個部分是數(shù)據(jù)建模,第三個部分是數(shù)據(jù)分析,我們來分別看一下。

【數(shù)據(jù)采集】

 

首先來說一下數(shù)據(jù)采集,我在百度干了有七年是數(shù)據(jù)相關(guān)的事情。我最大的心得——數(shù)據(jù)這個事情如果想要更好,最重要的就是數(shù)據(jù)源,數(shù)據(jù)源這個整好了之后,后面的事情都很輕松。

用一個好的查詢引擎、一個慢的查詢引擎無非是時間上可能消耗不大一樣,但是數(shù)據(jù)源如果是差的話,后面用再復雜的算法可能都解決不了這個問題,可能都是很難得到正確的結(jié)論。

我覺得好的數(shù)據(jù)處理流程有兩個基本的原則,一個是全,一個是細。

●?全:就是說我們要拿多種數(shù)據(jù)源,不能說只拿一個客戶端的數(shù)據(jù)源,服務(wù)端的數(shù)據(jù)源沒有拿,數(shù)據(jù)庫的數(shù)據(jù)源沒有拿,做分析的時候沒有這些數(shù)據(jù)你可能是搞歪了。另外,大數(shù)據(jù)里面講的是全量,而不是抽樣。不能說只抽了某些省的數(shù)據(jù),然后就開始說全國是怎么樣??赡苡行┦》浅L厥?,比如新疆、西藏這些地方它客戶端跟內(nèi)地可能有很大差異的。

●?細:其實就是強調(diào)多維度,在采集數(shù)據(jù)的時候盡量把每一個的維度、屬性、字段都給它采集過來。比如:像 where、who、how 這些東西給它替補下來,后面分析的時候就跳不出這些能夠所選的這個維度,而不是說開始的時候也圍著需求。根據(jù)這個需求確定了產(chǎn)生某些數(shù)據(jù),到了后面真正有一個新的需求來的時候,又要采集新的數(shù)據(jù),這個時候整個迭代周期就會慢很多,效率就會差很多,盡量從源頭抓的數(shù)據(jù)去做好采集。

【數(shù)據(jù)建模】

有了數(shù)據(jù)之后,就要對數(shù)據(jù)進行加工,不能把原始的數(shù)據(jù)直接報告給上面的業(yè)務(wù)分析人員,它可能本身是雜亂的,沒有經(jīng)過很好的邏輯的。

這里就牽扯到數(shù)據(jù)建框,首先,提一個概念就是數(shù)據(jù)模型。許多人可能對數(shù)據(jù)模型這個詞產(chǎn)生一種畏懼感,覺得模型這個東西是什么高深的東西,很復雜,但其實這個事情非常簡單。

 

我春節(jié)期間在家干過一件事情,我自己家里面家譜在文革的時候被燒教了,后來家里的長輩說一定要把家譜這些東西給存檔一下,因為我會電腦,就幫著用電腦去理了一下這些家族的數(shù)據(jù)這些關(guān)系,整個族譜這個信息。

我們現(xiàn)實是一個個的人,家譜里面的人,通過一個樹型的結(jié)構(gòu),還有它們之間數(shù)據(jù)關(guān)系,就能把現(xiàn)實實體的東西用幾個簡單圖給表示出來,這里就是一個數(shù)據(jù)模型。

數(shù)據(jù)模型就是對現(xiàn)實世界的一個抽象化的數(shù)據(jù)的表示。我們這些創(chuàng)業(yè)公司經(jīng)常是這么一個情況,我們現(xiàn)在這種業(yè)務(wù),一般前端做一個請求,然后對請求經(jīng)過處理,再更新到數(shù)據(jù)庫里面去,數(shù)據(jù)庫里面建了一系列的數(shù)據(jù)表,數(shù)據(jù)表之間都是很多的依賴關(guān)系。

 

比如,就像我圖片里面展示的這樣,這些表一個業(yè)務(wù)項發(fā)展差不多一年以上它可能就牽扯到幾十張甚至上百張數(shù)據(jù)表,然后把這個表直接提供給業(yè)務(wù)分析人員去使用,理解起來難度是非常大的。

這個數(shù)據(jù)模型是用于滿足你正常的業(yè)務(wù)運轉(zhuǎn),為產(chǎn)品正常的運行而建的一個數(shù)據(jù)模型。但是,它并不是一個針對分析人員使用的模型。如果,非要把它用于數(shù)據(jù)分析那就帶來了很多問題。比如:它理解起來非常麻煩。

另外,數(shù)據(jù)分析很依賴表之間的這種格子,比如:某一天我們?yōu)榱颂嵘阅?,對某一表進行了拆分,或者加了字段、刪了某個字短,這個調(diào)整都會影響到你分析的邏輯。

 

這里,最好要針對分析的需求對數(shù)據(jù)重新進行解碼,它內(nèi)容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數(shù)據(jù)來說,就可以對它進行一個抽象,然后重新把它作為一個判斷表。

用戶在產(chǎn)品上進行的一系列的操作,比如瀏覽一個商品,然后誰瀏覽的,什么時間瀏覽的,他用的什么操作系統(tǒng),用的什么瀏覽器版本,還有他這個操作看了什么商品,這個商品的一些屬性是什么,這個東西都給它進行了一個很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什么,對分析來說也更加方便。

 

在數(shù)據(jù)分析方,特別是針對用戶行為分析方面,目前比較有效的一個模型就是多維數(shù)據(jù)模型,在線分析處理這個模型,它里面有這個關(guān)鍵的概念,一個是維度,一個是指標。

維度比如城市,然后北京、上海這些一個維度,維度西面一些屬性,然后操作系統(tǒng),還有 IOS、安卓這些就是一些維度,然后維度里面的屬性。

通過維度交叉,就可以看一些指標問題,比如用戶量、銷售額,這些就是指標。比如,通過這個模型就可以看來自北京,使用 IOS 的,他們的整體銷售額是怎么樣的。

這里只是舉了兩個維度,可能還有很多個維度。總之,通過維度組合就可以看一些指標的數(shù),大家可以回憶一下,大家常用的這些業(yè)務(wù)的數(shù)據(jù)分析需求是不是許多都能通過這種簡單的模式給抽樣出來。

四、數(shù)據(jù)分析方法

接下來看一下互聯(lián)網(wǎng)產(chǎn)品采用的數(shù)據(jù)分析方法。

 

對于互聯(lián)網(wǎng)產(chǎn)品常用的用戶消費分析來說,有四種:

(1)?第一種是多維事件的分析,分析維度之間的組合、關(guān)系。

(2)第二種是漏斗分析,對于電商、訂單相關(guān)的這種行為的產(chǎn)品來說非常重要,要看不同的渠道轉(zhuǎn)化這些東西。

(3)第三種留存分析,用戶來了之后我們希望他不斷的來,不斷的進行購買,這就是留存。

(4)第四種回訪,回訪是留存的一種特別的形式,可以看他一段時間內(nèi)訪問的頻次,或者訪問的時間段的情況

【方法 1:多維事件分析法】

首先來看多維事件的分析,這塊常見的運營、產(chǎn)品改進這種效果分析。其實,大部分情況都是能用多維事件分析,然后對它進行一個數(shù)據(jù)上的統(tǒng)計。

1.????【三個關(guān)鍵概念】

 

這里面其實就是由三個關(guān)鍵的概念,一個就是事件,一個是維度,一個是指標組成。

l?事件就是說任何一個互聯(lián)網(wǎng)產(chǎn)品,都可以把它抽象成一系列事件,比如針對電商產(chǎn)品來說,可抽象到提交、訂單、注冊、收到商品一系列事件用戶行為。

l?每一個事件里面都包括一系列屬性。比如,他用操作系統(tǒng)版本是否連 wifi;比如,訂單相關(guān)的運費,訂單總價這些東西,或者用戶的一些職能屬性,這些就是一系列維度。

l?基于這些維度看一些指標的情況。比如,對于提交訂單來說,可能是他總提交訂單的次數(shù)做成一個指標,提交訂單的人數(shù)是一個指標,平均的人均次數(shù)這也是一個指標;訂單的總和、總價這些也是一個指標,運費這也是一個指標,統(tǒng)計一個數(shù)后就能把它抽樣成一個指標。

2.????【多維分析的價值】

來看一個例子,看看多維分析它的價值。

 

比如,對于訂單支付這個事件來說,針對整個總的成交額這條曲線,按照時間的曲線會發(fā)現(xiàn)它一路在下跌。但下跌的時候,不能眼睜睜的看著它,一定要分析原因。

怎么分析這個原因呢?常用的方式就是對維度進行一個拆解,可以按照某些維度進行拆分,比如我們按照地域,或者按照渠道,或者按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數(shù)據(jù)到底是不是整體在下跌,還是說某一類數(shù)據(jù)在下跌。

 

這是一個假想的例子——按照支付方式進行拆開之后,支付方式有三種,有用支付寶、阿里 PAY,或者用微信支付,或者用銀行看內(nèi)的支付這三種方式。

通過數(shù)據(jù)可以看到支付寶、銀行支付基本上是一個沉穩(wěn)的一個狀態(tài)。但是,如果看微信支付,會發(fā)現(xiàn)從最開始最多,一路下跌到非常少,通過這個分析就知道微信這種支付方式,肯定存在某些問題。

比如:是不是升級了這個接口或者微信本身出了什么問題,導致了它量下降下去了?

【方法 2:漏斗分析】

漏斗分析會看,因為數(shù)據(jù),一個用戶從做第一步操作到后面每一步操作,可能是一個雜的過程。

 

比如,一批用戶先瀏覽了你的首頁,瀏覽首頁之后可能一部分人就直接跑了,還有一部分人可能去點擊到一個商品里面去,點擊到商品可能又有很多人跑了,接下來可能有一部分人就真的購買了,這其實就是一個漏斗。

 

通過這個漏斗,就能分析一步步的轉(zhuǎn)化情況,然后每一步都有流失,可以分析不同的渠道其轉(zhuǎn)化情況如何。比如,打廣告的時候發(fā)現(xiàn)來自百度的用戶漏斗轉(zhuǎn)化效果好,就可能在廣告投放上就在百度上多投一些。

【方法 3:留存分析】

 

比如,搞一個地推活動,然后來了一批注冊用戶,接下來看它的關(guān)鍵行為上面操作的特征,比如當天它有操作,第二天有多少人會關(guān)鍵操作,第 N 天有多少操作,這就是看它留下來這個情況。

【方法 4:回訪分析】

 

回訪就是看進行某個行為的一些中度特征,如對于購買黃金這個行為來說,在一周之內(nèi)至少有一天購買黃金的人有多少人,至少有兩天的有多少人,至少有 7 天的有多少人,或者說購買多少次數(shù)這么一個分布,就是回訪回購這方面的分析。

上面說的四種分析結(jié)合起來去使用,對一個產(chǎn)品的數(shù)據(jù)支撐、數(shù)據(jù)驅(qū)動的這種深度就要比只是看一個宏觀的訪問量或者活躍用戶數(shù)就要深入很多。

五、運營分析實踐

下面結(jié)合個人在運營和分析方面的實踐,給大家分享一下。

【案例 1:UGC 產(chǎn)品】

 

首先,來看 UGC 產(chǎn)品的數(shù)據(jù)分析的例子??赡軙治鏊脑L問量是多少,新增用戶數(shù)是多少,獲得用戶數(shù)多少,發(fā)帖量、減少量。

諸如貼吧、百度知道,還有知乎都屬于這一類的產(chǎn)品。對于這樣一個產(chǎn)品,會有很多數(shù)據(jù)指標,可以從某一個角度去觀察這個產(chǎn)品的情況。那么,問題就來了——這么多的指標,到底要關(guān)注什么?不同的階段應(yīng)該關(guān)注什么指標?這里,就牽扯到一個本身指標的處理,還有關(guān)鍵指標的問題。

【案例 2:流失用戶召回】

 

這種形式可能對其他產(chǎn)品就很有效,但是對我們這個產(chǎn)品來說,因為我們這是一個相對來說目標比較明確并且比較小眾一點的差別,所以這個投放的效果可能就沒那么明顯。

在今年元旦的時候,因為之前申請試用我們那個產(chǎn)品已經(jīng)有很多人,但是這里面有一萬人我們給他發(fā)了帳號他也并沒有回來,我們過年給大家拜拜年,然后去匯報一下進展看能不能把他們撈過來一部分。

 

這是元旦的時候我們產(chǎn)品的整體用戶情況,到了元旦為止,9月25號發(fā)布差不多兩三個月時間,那個時候差不多有 1490 個人申請試用了我們這個產(chǎn)品。但是,真正試用的有 724 個,差不多有一半,另外一半就跑了,就流失了。

我們就想把這部分人抽出來給他們進行一個招回活動,這里面流失用戶我們就可以把列表導出來,這是我們自己的產(chǎn)品就有這樣的功能。有人可能疑惑我們怎么拿到用戶的這些信息呢?

 

這些不至于添加,因為我們申請試用的時候就讓他填一下姓名、聯(lián)系方式,還有他的公司這些信息。對于填郵箱的我們就給發(fā)郵件的,對于發(fā)手機號的我們就給他發(fā)短信,我們分析這兩種渠道帶來的效果。

 

先說總體,總體我們發(fā)了 716 個人,這里面比前面少了一點,我把一些不靠譜的這些信息人工給它干掉了。接下來,看看真正有 35 個人去體驗了這個產(chǎn)品,然后 35 個人里面有 4 個人申請接入數(shù)據(jù)。

因為我們在產(chǎn)品上面做了一個小的改進,在測試環(huán)境上面,對于那些測試環(huán)境本身是一些數(shù)據(jù)他玩一玩,玩了可能感興趣之后就會試一下自己的真實數(shù)據(jù)。這個時候,我們上來有一個鏈接引導他們?nèi)ド暾埥尤胱约旱臄?shù)據(jù),走到這一步之后就更可能轉(zhuǎn)化成我們的正式客戶。

這兩種方式轉(zhuǎn)化效果我們其實也很關(guān)心,招回的效果怎么樣,我們看下面用紅框表示出來,郵件發(fā)了 394 封。最終有 32 個人真正過來試用了,電話手機號322 封,跟郵件差不多,但只有 3 個過來,也就是說兩種效果差了 8 倍。

這其實也提醒大家,短信這種方式可能許多人看短信的比較少。當然,另一方面跟我們自己產(chǎn)品特征有關(guān)系,我們這個產(chǎn)品是一個 PC 上用起來更方便的一個產(chǎn)品。許多人可能在手機上看到這個鏈接也不方便點開,點開之后輸入帳號也麻煩一點。所以,導致這個效果比較差。

0 0 0

東方智慧,投資美學!

我要投稿

申明:本文為作者投稿或轉(zhuǎn)載,在概念股網(wǎng) http://www.chiang1015.com/ 上發(fā)表,為其獨立觀點。不代表本網(wǎng)立場,不代表本網(wǎng)贊同其觀點,亦不對其真實性負責,投資決策請建立在獨立思考之上。

< more >

ABCDEFGHIJKLMNOPQRSTUVWXYZ0-9
暫無相關(guān)概念股
暫無相關(guān)概念股
go top