收集方法
1、調查法
調查方法一般分為普查和抽樣調查兩大類(lèi)。
2、觀(guān)察法
主要包括兩個(gè)方面:一是對人的行為的觀(guān)察,二是對客觀(guān)事物的觀(guān)察。觀(guān)察法應用很廣泛,常和詢(xún)問(wèn)法、搜集實(shí)物結合使用,以提高所收集信息的可靠性。
3、實(shí)驗方法
實(shí)驗方法能通過(guò)實(shí)驗過(guò)程獲取其他手段難以獲得的信息或結論。
實(shí)驗方法也有多種形式,如實(shí)驗室實(shí)驗、現場(chǎng)實(shí)驗、計算機模擬實(shí)驗、計算機網(wǎng)絡(luò )環(huán)境下人機結合實(shí)驗等。現代管理科學(xué)中新興的管理實(shí)驗,現代經(jīng)濟學(xué)中正在形成的實(shí)驗經(jīng)濟學(xué)中的經(jīng)濟實(shí)驗,實(shí)質(zhì)上就是通過(guò)實(shí)驗獲取與管理或經(jīng)濟相關(guān)的信息。
4、文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過(guò)程。文獻檢索分為手工檢索和計算機檢索。
5、網(wǎng)絡(luò )信息收集
網(wǎng)絡(luò )信息是指通過(guò)計算機網(wǎng)絡(luò )發(fā)布、傳遞和存儲的各種信息。收集網(wǎng)絡(luò )信息的最終目標是給廣大用戶(hù)提供網(wǎng)絡(luò )信息資源服務(wù),整個(gè)過(guò)程經(jīng)過(guò)網(wǎng)絡(luò )信息搜索、整合、保存和服務(wù)四個(gè)步驟,
參考資料來(lái)源:搜狗百科-信息收集
業(yè)務(wù)上
1.業(yè)務(wù)為核心,數據為王
了解整個(gè)產(chǎn)業(yè)鏈的結構
制定好業(yè)務(wù)的發(fā)展規劃
了解衡量的核心指標
有了數據必須和業(yè)務(wù)結合才有效果
需要懂業(yè)務(wù)的整體概況,摸清楚所在產(chǎn)業(yè)鏈的整個(gè)結構,對行業(yè)的上游和下游的經(jīng)營(yíng)情況有大致的了解。然后根據業(yè)務(wù)當前的需要,指定發(fā)展計劃,從而歸類(lèi)出需要整理的數據。最后一步詳細的列出數據核心指標(KPI),并且對幾個(gè)核心指標進(jìn)行更細致的拆解,當然具體結合你的業(yè)務(wù)屬性來(lái)處理,找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業(yè)務(wù)現況的全面掌握非常關(guān)鍵。
2.思考指標現狀,發(fā)現多維規律
熟悉產(chǎn)品框架,全面定義每個(gè)指標的運營(yíng)現狀對
比同行業(yè)指標,挖掘隱藏的提升空間
拆解關(guān)鍵指標,合理設置運營(yíng)方法來(lái)觀(guān)察效果
爭對核心用戶(hù),單獨進(jìn)行產(chǎn)品用研與需求挖掘
業(yè)務(wù)的分析大多是定性的,需要培養一種客觀(guān)的感覺(jué)意識。定性的分析則需要借助技術(shù)、工具、機器。而感覺(jué)的培養,由于每個(gè)人的思維、感知都不同,只能把控大體的方向,很多數據元素之間的關(guān)系還是需要通過(guò)數據可視化技術(shù)來(lái)實(shí)現。
3.規律驗證,經(jīng)驗總結
發(fā)現了規律之后不能立刻上線(xiàn),需要在測試機上對模型進(jìn)行驗證。
技能上
1.Excel是否精鉆?
除了常用的Excel函數(sum、average、if、countifs、sumifs、offset、match、index等)之外,Excel圖表(餅圖、線(xiàn)圖、柱形圖、雷達圖等)和簡(jiǎn)單分析技能也是經(jīng)常用的,可以幫助你快速分析業(yè)務(wù)走勢和異常情況;另外,Excel里面的函數結合透視表以及VBA功能是完善報表開(kāi)發(fā)的利器,讓你一鍵輕松搞定報表。
2.你需要更懂數據庫
常用的數據庫如MySQL,Sql Server、Oracle、DB2、MongoDB等;除去SQL語(yǔ)句的熟練使用,對于數據庫的存儲讀取過(guò)程也要熟練掌握。在對于大數據量處理時(shí),如何想辦法加快程序的運行速度、減少網(wǎng)絡(luò )流量、提高數據庫的安全性是非常有必要的。
3.掌握數據整理、可視化和報表制作
數據整理,是將原始數據轉換成方便實(shí)用的格式,Excel在協(xié)同工作上并不是一個(gè)好工具,報表FineReport比較推薦。項目部署的Tableau、FineBI、Qlikview一類(lèi)BI工具,有沒(méi)有好好培訓學(xué)習,這些便捷的工具都能淡化數據分析時(shí)一些重復性操作,把精力更多留于分析。
試讀結束,如需閱讀或下載,請點(diǎn)擊購買(mǎi)>
原發(fā)布者:陽(yáng)夏秋天
數據中心數據管理方案1、公司現有數據現狀現公司主要的大數據容量的主要為公司的航片數據和衛片數據、警用調查成果的照片數據,以及用來(lái)做調查的大比例尺地形圖數據,目前公司勘測、數據、軟件部門(mén)加起來(lái)大概50T的容量。考慮到以后的擴展和數據備份,數據中心此次預計100T的容量進(jìn)行數據管理。針對這種大容量數據管理有三種解決方案:1、支持大容量的存儲+磁帶庫備份2、多個(gè)NAS級存儲3、購買(mǎi)大量1T和2T的硬盤(pán)(一份存儲+一份備份)+行之有效的數據進(jìn)出及保存制度。前段時(shí)間與公司領(lǐng)導從管理的方便性、投入的成本等各方面考慮討論的結果來(lái)看,決定采用第三種解決方案——用大容量硬盤(pán)進(jìn)行管理。2、硬盤(pán)購買(mǎi)的數量及總價(jià)存儲100T左右的數據,可以采購1T或2T的硬盤(pán)進(jìn)行存儲(1T的硬盤(pán)相對比較穩定)。選購硬盤(pán)時(shí)需考慮到硬盤(pán)的轉速、硬盤(pán)的緩存容量、硬盤(pán)的平均尋道時(shí)間、硬盤(pán)的功耗以及硬盤(pán)的價(jià)格。單碟容量是目前硬盤(pán)發(fā)展的重點(diǎn),幾乎就是決定硬盤(pán)檔次的標準,目前盤(pán)片數量最多為5張,在盤(pán)片數無(wú)法增加的情況下,提升單碟容量是提升硬盤(pán)容量的唯一辦法。所以,我們在購買(mǎi)硬盤(pán)的時(shí)候,選擇采用垂直記錄技術(shù)的產(chǎn)品,在性能方面表現更出色。緩存就作為硬盤(pán)中的一個(gè)緩沖的區域,調節兩者之間的數據傳輸,緩存的大小直接影響到硬盤(pán)的性能,緩存區域越大數據的穩定性就越好,自然數據等待時(shí)間也就越短,一般反應到實(shí)際操作中就是運行速度越快。轉速是影響硬盤(pán)性能的主要因素,目前主流硬盤(pán)都采用了
業(yè)務(wù)上1.業(yè)務(wù)為核心,數據為王了解整個(gè)產(chǎn)業(yè)鏈的結構制定好業(yè)務(wù)的發(fā)展規劃了解衡量的核心指標有了數據必須和業(yè)務(wù)結合才有效果需要懂業(yè)務(wù)的整體概況,摸清楚所在產(chǎn)業(yè)鏈的整個(gè)結構,對行業(yè)的上游和下游的經(jīng)營(yíng)情況有大致的了解。
然后根據業(yè)務(wù)當前的需要,指定發(fā)展計劃,從而歸類(lèi)出需要整理的數據。最后一步詳細的列出數據核心指標(KPI),并且對幾個(gè)核心指標進(jìn)行更細致的拆解,當然具體結合你的業(yè)務(wù)屬性來(lái)處理,找出那些對指標影響幅度較大的影響因子。
前期資料的收集以及業(yè)務(wù)現況的全面掌握非常關(guān)鍵。2.思考指標現狀,發(fā)現多維規律熟悉產(chǎn)品框架,全面定義每個(gè)指標的運營(yíng)現狀對比同行業(yè)指標,挖掘隱藏的提升空間拆解關(guān)鍵指標,合理設置運營(yíng)方法來(lái)觀(guān)察效果爭對核心用戶(hù),單獨進(jìn)行產(chǎn)品用研與需求挖掘業(yè)務(wù)的分析大多是定性的,需要培養一種客觀(guān)的感覺(jué)意識。
定性的分析則需要借助技術(shù)、工具、機器。而感覺(jué)的培養,由于每個(gè)人的思維、感知都不同,只能把控大體的方向,很多數據元素之間的關(guān)系還是需要通過(guò)數據可視化技術(shù)來(lái)實(shí)現。
3.規律驗證,經(jīng)驗總結發(fā)現了規律之后不能立刻上線(xiàn),需要在測試機上對模型進(jìn)行驗證。技能上1.Excel是否精鉆?除了常用的Excel函數(sum、average、if、countifs、sumifs、offset、match、index等)之外,Excel圖表(餅圖、線(xiàn)圖、柱形圖、雷達圖等)和簡(jiǎn)單分析技能也是經(jīng)常用的,可以幫助你快速分析業(yè)務(wù)走勢和異常情況;另外,Excel里面的函數結合透視表以及VBA功能是完善報表開(kāi)發(fā)的利器,讓你一鍵輕松搞定報表。
2.你需要更懂數據庫常用的數據庫如MySQL,Sql Server、Oracle、DB2、MongoDB等;除去SQL語(yǔ)句的熟練使用,對于數據庫的存儲讀取過(guò)程也要熟練掌握。在對于大數據量處理時(shí),如何想辦法加快程序的運行速度、減少網(wǎng)絡(luò )流量、提高數據庫的安全性是非常有必要的。
3.掌握數據整理、可視化和報表制作數據整理,是將原始數據轉換成方便實(shí)用的格式,Excel在協(xié)同工作上并不是一個(gè)好工具,報表FineReport比較推薦。項目部署的Tableau、FineBI、Qlikview一類(lèi)BI工具,有沒(méi)有好好培訓學(xué)習,這些便捷的工具都能淡化數據分析時(shí)一些重復性操作,把精力更多留于分析。
如何提高數據分析能力? (2012-02-19 16:19:19)轉載▼
標簽: 數據分析 數據挖掘 雜談
作為一個(gè)合格的咨詢(xún)師,除了快速的學(xué)習能力和敏捷的分析能力,強大的數據分析能力也是必不可少的。筆者根據自己的經(jīng)驗,總結出以下幾個(gè)對提高數據分析能力有幫助的方法,以供參考。一、熟悉公司業(yè)務(wù) 首先要熟悉公司業(yè)務(wù)及流程。若脫離行業(yè)認知和公司業(yè)務(wù)背景,分析的結果只會(huì )是脫了線(xiàn)的風(fēng)箏,沒(méi)有太大的實(shí)用價(jià)值。數據分析的最終目的是作為一種分析方法來(lái)為整個(gè)項目服務(wù)。二、明確分析目的 常常會(huì )有人問(wèn)這些數據可以做什么分析?這是典型的“為了分析而分析”。數據分析的前提是先明確分析目的,這樣的分析才有意義;三、運用營(yíng)銷(xiāo)、管理等理論 營(yíng)銷(xiāo)、管理等理論是數據分析的指導思想,使分析思路系統化。例如4P理論等,從哪幾個(gè)維度去分析?考慮哪幾個(gè)方面?只有這樣做才能使數據分析變得有血有肉有脈絡(luò ),真正做到理論指導實(shí)踐;四、掌握有效數據分析方法 了解數據分析流程,掌握數據分析基本原理與方法,并靈活運用到實(shí)踐工作中,不論簡(jiǎn)單還是復雜的分析方法,只要能解決問(wèn)題的方法就是好方法;五、玩轉數據分析工具 數據分析工具,建議先玩轉excel數據透視表,有興趣、實(shí)踐、需要的話(huà),再學(xué)習SPSS、SAS等統計分析工具。同樣,只要能解決問(wèn)題的工具就是好工具;六、學(xué)會(huì )用圖表說(shuō)話(huà),玩轉PPT等工具 學(xué)會(huì )如何用圖表有效展現分析結果,PPT有助于數據分析結果展現,達人必備;水晶易表亦對分析結果的展現有很大幫助,選擇性使用;思維導圖可幫助理清分析思路,根據需要選用。光做數據分析是不夠的,真正要做的是將數據分析結果清晰地展現給其他人看;七、勤思考、多動(dòng)手、多總結 需要經(jīng)常發(fā)問(wèn)為什么是這樣的、為什么不是那樣的。只有這樣勤于思考才有突破點(diǎn); 光靠腦袋想是不夠的,需要多動(dòng)手實(shí)踐,不要怕錯,大不了錯了重來(lái),數據分析就是一個(gè)不斷假設、驗證的過(guò)程; 不斷總結分析方法、分析思路、分析流程,在總結中前行;八、關(guān)注行業(yè)動(dòng)態(tài) 關(guān)注數據分析行業(yè)動(dòng)態(tài),積極地學(xué)習他人的數據分析經(jīng)驗;九、收藏幾本分析秘籍 可在家中收藏一些使用的分析工具書(shū),以便隨時(shí)查閱,如《用圖表說(shuō)話(huà)》、《excel圖表之道》等; 數據分析不僅是個(gè)工具,而且是門(mén)藝術(shù),希望能與大家共勉,提高自己的數據分析能力。
參照這個(gè)來(lái)提升自己。希望對你有所幫助
我以前收藏的,挺不錯:
1、存儲
將硬盤(pán)分成NTFS格式,NTFS比FAT32快,并看你的數據文件大小,1G以上你可以采用多數據庫文件,這樣可以將存取負載分散到多個(gè)物理硬盤(pán)或磁盤(pán)陣列上。
2、tempdb
tempdb也應該被單獨的物理硬盤(pán)或磁盤(pán)陣列上,建議放在RAID 0上,這樣它的性能最高,不要對它設置最大值讓它自動(dòng)增長(cháng)
3、日志文件
日志文件也應該和數據文件分開(kāi)在不同的理硬盤(pán)或磁盤(pán)陣列上,這樣也可以提高硬盤(pán)I/O性能。
4、分區視圖
就是將你的數據水平分割在集群服務(wù)器上,它適合大規模OLTP,SQL群集上,如果你數據庫不是訪(fǎng)問(wèn)特別大不建議使用。
5、簇索引
你的表一定有個(gè)簇索引,在使用簇索引查詢(xún)的時(shí)候,區塊查詢(xún)是最快的,如用between,應為他是物理連續的,你應該盡量減少對它的updaet,應為這可以使它物理不連續。
6、非簇索引
非簇索引與物理順序無(wú)關(guān),設計它時(shí)必須有高度的可選擇性,可以提高查詢(xún)速度,但對表update的時(shí)候這些非簇索引會(huì )影響速度,且占用空間大,如果你愿意用空間和修改時(shí)間換取速度可以考慮。
7、索引視圖
如果在視圖上建立索引,那視圖的結果集就會(huì )被存儲起來(lái),對與特定的查詢(xún)性能可以提高很多,但同樣對update語(yǔ)句時(shí)它也會(huì )嚴重減低性能,一般用在數據相對穩定的數據倉庫中。
8、維護索引
你在將索引建好后,定期維護是很重要的,用dbcc showcontig來(lái)觀(guān)察頁(yè)密度、掃描密度等等,及時(shí)用dbcc indexdefrag來(lái)整理表或視圖的索引,在必要的時(shí)候用dbcc dbreindex來(lái)重建索引可以受到良好的效果。
不論你是用幾個(gè)表1、2、3點(diǎn)都可以提高一定的性能,5、6、8點(diǎn)你是必須做的,至于4、7點(diǎn)看你的需求。
表格的應用 由于工作原因,經(jīng)常接觸到表格。
我們發(fā)現,表格不但廣泛的運用在各類(lèi)數據收集和分析,同時(shí)通過(guò)表格這樣一種二維矩陣來(lái)整理和陳列信息時(shí)(即便最后的展示方式并非一個(gè)典型的表格樣式),能夠很好的表達信息之間的邏輯關(guān)系,易于幫助理解橫縱信息之間的關(guān)系。在實(shí)際的網(wǎng)頁(yè)設計應用中,表格橫縱相互獨立又相互關(guān)聯(lián)的模式尤其適用于:1.組織和展示大量的信息 表格簡(jiǎn)單的結構不但能包含大量的信息,且同時(shí)保證信息的可讀性,便于讀者快速掃描信息、從大量的條目中找到所需的信息。
2.展示對比性信息 通過(guò)合理的布局,表格能清晰的展示出同類(lèi)對比信息,便于讀者分辨不同條目信息之間的關(guān)聯(lián)和區別,從而關(guān)注到關(guān)鍵、問(wèn)題條目。總的來(lái)說(shuō),一個(gè)構造清晰的表格布局,將大大提升讀者對信息的接收速度和理解程度。
例如下圖中蘋(píng)果官網(wǎng)對不同型號mac book的信息陳列方式,就采用了表格的結構,清晰的展示了4款不同的macbook,及各自的性能、售價(jià)等屬性,同時(shí)讀者第一眼就可以?huà)呙璧讲⒗斫獗砀窠Y構,橫向是4款macbook的排列,縱向分別列出了各自的屬性,然后進(jìn)一步就可以根據自己的興趣點(diǎn)就4款macbook的不同屬性進(jìn)行對比,信息完整且便于掃描。如上所述,表格常用來(lái)展示大量的、對比性的信息,因此提高表格的可讀性、便于用戶(hù)快速掃描,是表格設計的關(guān)鍵。
本文僅就筆者閱讀過(guò)的幾篇關(guān)于表格設計的文章結合工作中的一些拙見(jiàn),整理成文,分享如下。表格的要素 研究如何提高表格可讀性之前,我們先簡(jiǎn)要闡述下表格的組成要素,這里我們暫且這么總結:表格 = 標題 + 表頭 + 行標簽 + 單元格數據(信息),如下圖 表格標題是對表格整體的描述,應包含表格數據的來(lái)源及屬性,使讀者對表格內容有所認識,例如數據收集的日期、地區及其表格數據的其他屬性。
行標簽和列標簽(表頭) 是對本行/本列數據的描述,可以理解為是表格的骨架,是用戶(hù)快速掃描并接收表格布局的關(guān)鍵要素。單元格數據(單元格信息)這里就不在多說(shuō),是表格的主體內容。
提高表格可讀性的一些技巧 1. 根據表格的用途,設計表格的布局 如下圖,兩張表格中所包含的數據完全相同,是關(guān)于10座山峰的高度和人類(lèi)登頂年份數據。不同的是他們的成列方式:表1a根據山峰的高度排序陳列,而表1b則根據人類(lèi)登頂山峰的年份排序陳列,一眼之下,這兩張表無(wú)設計優(yōu)劣高下之分,決定使用兩站表中的哪一張的根據是這組數據的用途,如果這張表是用于向讀者展示世界上的TOP 10山峰,則山峰的高度則是重點(diǎn)信息,a表的展示方式會(huì )更加合適;反之,如果這張表意在展示10大高峰中,哪座山峰是人類(lèi)最先登頂的,人類(lèi)先后登頂的時(shí)間順序是讀者的主要興趣點(diǎn),則表b就更加適用。
2. 減少讀者計算 其實(shí)類(lèi)似上一點(diǎn),表格的指標也不是永遠固定的,而是從讀者閱讀表格的目的出發(fā),調整所需展示的指標。在原始數據的基礎上給出差值、總計等分析性的數據,可以直達用戶(hù)閱讀的目標,而盡量減少用戶(hù)心算或者線(xiàn)下處理的過(guò)程。
例如下圖展示了2010年與2009年兩年的公司財政報表,查看兩年的具體數據當然必要,但深入分析,讀者之所以要并列查看兩年的數據,目的在于對比兩年的數據變化,因此將指標變化情況列出能幫助用戶(hù)更快的達成目標。3.精簡(jiǎn)指標,創(chuàng )造信息層級 盡量減少或壓縮指標數量,避免出現用戶(hù)不需要的數據,默認只展示用戶(hù)所必須的信息,用戶(hù)需要的非重點(diǎn)輔助信息可以通過(guò)提供深入細節的入口(彈窗、下拉)等形式來(lái)解決,僅在用戶(hù)需要時(shí)進(jìn)行提供。
創(chuàng )造信息層級,避免無(wú)主次的鋪出所有信息,干擾用戶(hù)快速掃描定位目標條目。例如易迅的“我的訂單”列表中,就將用戶(hù)的信息、訂單狀態(tài)跟蹤信息進(jìn)行了默認隱藏,同時(shí)通過(guò)鏈接色很好的提示了進(jìn)一步細節信息的入口,在用戶(hù)需要時(shí),可以方便的查閱。
4.不留空白單元格 當表格單元格中沒(méi)有相應數據時(shí),要避免直接留出空白單元格。空白單元格容易造成讀者的困惑甚至誤解,讀者會(huì )搞不清楚到底是沒(méi)有數據,還是根本沒(méi)有值?正確做法,沒(méi)有數據的顯示0,給沒(méi)有值的單元格劃線(xiàn)或者打叉。
如下圖:5.斑馬條的運用 橫向或縱向的斑馬線(xiàn)以及懸停高亮底色能夠很好的引導用戶(hù)的視線(xiàn),避免在閱讀時(shí)出現錯行、迷失的情況:斑馬線(xiàn)會(huì )使得行與行的界限更為分明,尤其對數據列較多時(shí)的橫向引導得到加強,這樣看行內的內容時(shí)不容易錯行,而懸停變色行主要是配合操作交互,明確區分出光標所在的行。6.高亮重點(diǎn)信息,提高閱讀速度 通過(guò)合理的使用icon、背景色等視覺(jué)元素高亮重點(diǎn)信息,能夠提高用戶(hù)的閱讀速度,幫助讀者更快定位重點(diǎn)信息,例如下表中利用紅綠的上下箭頭很好的向用戶(hù)表達了年度財務(wù)的變化情況。
7.對齊,便于用戶(hù)快速瀏覽 對比的數據如果有了明確的對齊方式,會(huì )大大提升數據的瀏覽效率,增加對比的效果。通常,我們將數據右對齊,便于對比:通過(guò)數字位數的長(cháng)短即可對比數字的量級和大小;文字左對齊,符合人們閱讀從左到右的習慣;而對一些固定長(cháng)度的狀態(tài)文字(如已完成,待支付等)采用居中對齊,使這些狀態(tài)文字更突出。
像下面的圖中,如果數據居中對齊沒(méi)。
數據分析的三個(gè)常用方法:
1. 數據趨勢分析
趨勢分析一般而言,適用于產(chǎn)品核心指標的長(cháng)期跟蹤,比如,點(diǎn)擊率,GMV,活躍用戶(hù)數等。做出簡(jiǎn)單的數據趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數據的變化,以及對變化原因進(jìn)行分析。
趨勢分析,最好的產(chǎn)出是比值。在趨勢分析的時(shí)候需要明確幾個(gè)概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統計數據與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會(huì )有些季節性差異。為了消除季節差異,于是有了同比的概念,例如2019年2月份和2018年2月份進(jìn)行比較。定基比更好理解,就是和某個(gè)基點(diǎn)進(jìn)行比較,比如2018年1月作為基點(diǎn),定基比則為2019年2月和2018年1月進(jìn)行比較。
比如:2019年2月份某APP月活躍用戶(hù)數我2000萬(wàn),相比1月份,環(huán)比增加2%,相比去年2月份,同比增長(cháng)20%。趨勢分析另一個(gè)核心目的則是對趨勢做出解釋?zhuān)瑢τ谮厔菥€(xiàn)中明顯的拐點(diǎn),發(fā)生了什么事情要給出合理的解釋?zhuān)瑹o(wú)論是外部原因還是內部原因。
2. 數據對比分析
數據的趨勢變化獨立的看,其實(shí)很多情況下并不能說(shuō)明問(wèn)題,比如如果一個(gè)企業(yè)盈利增長(cháng)10%,我們并無(wú)法判斷這個(gè)企業(yè)的好壞,如果這個(gè)企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長(cháng),則5%很多,如果行業(yè)其他企業(yè)增長(cháng)平均為50%,則這是一個(gè)很差的數據。
對比分析,就是給孤立的數據一個(gè)合理的參考系,否則孤立的數據毫無(wú)意義。在此我向大家推薦一個(gè)大數據技術(shù)交流圈: 658558542 突破技術(shù)瓶頸,提升思維能力 。
一般而言,對比的數據是數據的基本面,比如行業(yè)的情況,全站的情況等。有的時(shí)候,在產(chǎn)品迭代測試的時(shí)候,為了增加說(shuō)服力,會(huì )人為的設置對比的基準。也就是A/B test。
比較試驗最關(guān)鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁(yè)改版的效果,就需要保持A/B兩組用戶(hù)質(zhì)量保持相同,上線(xiàn)時(shí)間保持相同,來(lái)源渠道相同等。只有這樣才能得到比較有說(shuō)服力的數據。
3. 數據細分分析
在得到一些初步結論的時(shí)候,需要進(jìn)一步地細拆,因為在一些綜合指標的使用過(guò)程中,會(huì )抹殺一些關(guān)鍵的數據細節,而指標本身的變化,也需要分析變化產(chǎn)生的原因。這里的細分一定要進(jìn)行多維度的細拆。常見(jiàn)的拆分方法包括:
分時(shí) :不同時(shí)間短數據是否有變化。
分渠道 :不同來(lái)源的流量或者產(chǎn)品是否有變化。
分用戶(hù) :新注冊用戶(hù)和老用戶(hù)相比是否有差異,高等級用戶(hù)和低等級用戶(hù)相比是否有差異。
分地區 :不同地區的數據是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產(chǎn)生,可以分拆不同的店鋪。
細分分析是一個(gè)非常重要的手段,多問(wèn)一些為什么,才是得到結論的關(guān)鍵,而一步一步拆分,就是在不斷問(wèn)為什么的過(guò)程。
統計數據的搜集方法:
在實(shí)際調查中,搜集數據的具體方法主要有訪(fǎng)問(wèn)調查、郵寄調查、電話(huà)調查、座談會(huì )、個(gè)別深度訪(fǎng)問(wèn)、網(wǎng)上調查。
1、訪(fǎng)問(wèn)調查:
訪(fǎng)問(wèn)調查又稱(chēng)派員調查,它是調查者與被調查者通過(guò)面對面地交談從而得到所需資料的調查方法。
2、郵寄調查:
郵寄調查是通過(guò)郵寄或其他方式將調查問(wèn)卷送至被調查者,由被調查者填寫(xiě),然后將問(wèn)卷寄回或投放到指定收集點(diǎn)的一種調查方法。
3、電話(huà)調查:
電話(huà)調查是調查人員利用電話(huà)通受訪(fǎng)者進(jìn)行語(yǔ)言交流,從而獲得信息的一種調查方式。電話(huà)調查優(yōu)點(diǎn)是時(shí)效快、費用低;不足是調查問(wèn)題的數量不能過(guò)多。
4、座談會(huì ):
座談會(huì )也稱(chēng)為集體訪(fǎng)談法,它是將一組受訪(fǎng)者集中在調查現場(chǎng),讓他們對調查的主題發(fā)表意見(jiàn),從而獲取調查資料的一種方法。這種方法適用于搜集與研究課題有密切關(guān)系的少數人員的傾向和意見(jiàn)。
5、個(gè)別深度訪(fǎng)問(wèn):
個(gè)別深度訪(fǎng)問(wèn)是一次只有一名受訪(fǎng)者參加的特殊的定性研究。常用于動(dòng)機研究,以發(fā)掘受訪(fǎng)者非表面化的深層次意見(jiàn)。這種方法最適宜于研究較隱秘的問(wèn)題,如個(gè)人隱私;較敏感的問(wèn)題等。
6、網(wǎng)上調查:
網(wǎng)上調查主要有E-mail、交互式CATI系統、互聯(lián)網(wǎng)CGI程序三種方法。
拓展資料:
統計數據搜集的組織形式:
統計數據搜集的組織形式有普查、抽樣調查、統計報表、重點(diǎn)調查、典型調查等。
1、普查:
普查是為了某種特定的目的而專(zhuān)門(mén)組織的一次性的全面調查,用以搜集重要國情國力和資源狀況的全面資料,為政府制定規劃、方針政策提供依據。
2、抽樣調查:
抽樣調查是實(shí)際應用中最廣泛的一種調查方法,他是從調查對象的總體中隨機抽取一部分單位座位樣本進(jìn)行調查,并根據樣本調查結果來(lái)推斷總體數量特征的一種非全面調查方法。
3、統計報表:
統計報表是一種以全面調查為主的調查方式,它是由政府主管部門(mén)根據統計法規,以統計表格形式和行政手段自上而下布置,而后由企、事業(yè)單位自下而上層層匯總上報逐級提供基本統計數據的一種調查方式
4、重點(diǎn)調查:
重點(diǎn)調查是專(zhuān)門(mén)組織的一種非全面調查,它是在總體中選擇個(gè)別的或部分重點(diǎn)單位進(jìn)行調查,以了解總體的基本情況。
5、典型調查:
典型調查也是專(zhuān)門(mén)組織的一種非全面調查,它是根據調查研究的目的和要求,在對總體進(jìn)行全面分析的基礎上,有意識的選擇其中有代表性的典型單位進(jìn)行深入細致的調查,借以認識事物的本質(zhì)特征、因果關(guān)系和發(fā)展變化規律。
一、掌握基礎、更新知識。
基本技術(shù)怎么強調都不過(guò)分。這里的術(shù)更多是(計算機、統計知識), 多年做數據分析、數據挖掘的經(jīng)歷來(lái)看、以及業(yè)界朋友的交流來(lái)看,這點(diǎn)大家深有感觸的。
數據庫查詢(xún)—SQL 數據分析師在計算機的層面的技能要求較低,主要是會(huì )SQL,因為這里解決一個(gè)數據提取的問(wèn)題。有機會(huì )可以去逛逛一些專(zhuān)業(yè)的數據論壇,學(xué)習一些SQL技巧、新的函數,對你工作效率的提高是很有幫助的。
統計知識與數據挖掘 你要掌握基礎的、成熟的數據建模方法、數據挖掘方法。例如:多元統計:回歸分析、因子分析、離散等,數據挖掘中的:決策樹(shù)、聚類(lèi)、關(guān)聯(lián)規則、神經(jīng)網(wǎng)絡(luò )等。
但是還是應該關(guān)注一些博客、論壇中大家對于最新方法的介紹,或者是對老方法的新運用,不斷更新自己知識,才能跟上時(shí)代,也許你工作中根本不會(huì )用到,但是未來(lái)呢?行業(yè)知識 如果數據不結合具體的行業(yè)、業(yè)務(wù)知識,數據就是一堆數字,不代表任何東西。是冷冰冰,是不會(huì )產(chǎn)生任何價(jià)值的,數據驅動(dòng)營(yíng)銷(xiāo)、提高科學(xué)決策一切都是空的。
一名數據分析師,一定要對所在行業(yè)知識、業(yè)務(wù)知識有深入的了解。例如:看到某個(gè)數據,你首先必須要知道,這個(gè)數據的統計口徑是什么?是如何取出來(lái)的?這個(gè)數據在這個(gè)行業(yè), 在相應的業(yè)務(wù)是在哪個(gè)環(huán)節是產(chǎn)生的?數值的代表業(yè)務(wù)發(fā)生了什么(背景是什么)?對于A(yíng)部門(mén)來(lái)說(shuō),本月新會(huì )員有10萬(wàn),10萬(wàn)好還是不好呢?先問(wèn)問(wèn)上面的這個(gè)問(wèn)題:對于A(yíng)部門(mén),1、新會(huì )員的統計口徑是什么。
第一次在使用A部門(mén)的產(chǎn)品的會(huì )員?還是在站在公司角度上說(shuō),第一次在公司發(fā)展業(yè)務(wù)接觸的會(huì )員?2、是如何統計出來(lái)的。A:時(shí)間;是通過(guò)創(chuàng )建時(shí)間,還是業(yè)務(wù)完成時(shí)間。
B:業(yè)務(wù)場(chǎng)景。是只要與業(yè)務(wù)發(fā)接觸,例如下了單,還是要業(yè)務(wù)完成后,到成功支付。
3、這個(gè)數據是在哪個(gè)環(huán)節統計出來(lái)。在注冊環(huán)節,在下單環(huán)節,在成功支付環(huán)節。
4、這個(gè)數據代表著(zhù)什么。10萬(wàn)高嗎?與歷史相同比較?是否做了營(yíng)銷(xiāo)活動(dòng)?這個(gè)行業(yè)處理行業(yè)生命同期哪個(gè)階段?在前面二點(diǎn),更多要求你能按業(yè)務(wù)邏輯,來(lái)進(jìn)行數據的提取(更多是寫(xiě)SQL代碼從數據庫取出數據)。
后面二點(diǎn),更重要是對業(yè)務(wù)了解,更行業(yè)知識了解,你才能進(jìn)行相應的數據解讀,才能讓數據產(chǎn)生真正的價(jià)值,不是嗎?對于新進(jìn)入數據行業(yè)或者剛進(jìn)入數據行業(yè)的朋友來(lái)說(shuō):行業(yè)知識都重要,也許你看到很多的數據行業(yè)的同仁,在微博或者寫(xiě)文章說(shuō),數據分析思想、行業(yè)知識、業(yè)務(wù)知識很重要。我非常同意。
因為作為數據分析師,在發(fā)表任何觀(guān)點(diǎn)的時(shí)候,都不要忘記你居于的背景是什么?但大家一定不要忘記了一些基本的技術(shù),不要把基礎去忘記了,如果一名數據分析師不會(huì )寫(xiě)SQL,那麻煩就大了。哈哈。
你只有把數據先取對了,才能正確的分析,否則一切都是錯誤了,甚至會(huì )導致致命的結論。
新同學(xué),還是好好花時(shí)間把基礎技能學(xué)好。因為基礎技能你可以在短期內快速提高,但是在行業(yè)、業(yè)務(wù)知識的是一點(diǎn)一滴的積累起來(lái)的,有時(shí)候是急不來(lái)的,這更需要花時(shí)間慢慢去沉淀下來(lái)。
不要過(guò)于追求很高級、高深的統計方法,我提倡有空還是要多去學(xué)習基本的統計學(xué)知識,從而提高工作效率,達到事半功倍。以我經(jīng)驗來(lái)說(shuō),我負責任告訴新進(jìn)的同學(xué),永遠不要忘記基本知識、基本技能的學(xué)習。
二、要有三心。1、細心。
2、耐心。3、靜心。
數據分析師其實(shí)是一個(gè)細活,特別是在前文提到的例子中的前面二點(diǎn)。而且在數據分析過(guò)程中,是一個(gè)不斷循環(huán)迭代的過(guò)程,所以一定在耐心,不怕麻煩,能靜下心來(lái)不斷去修改自己的分析思路。
三、形成自己結構化的思維。數據分析師一定要嚴謹。
而嚴謹一定要很強的結構化思維,如何提高結構化思維,也許只需要工作隊中不斷的實(shí)踐。但是我推薦你用mindmanagement,首先把你的整個(gè)思路整理出來(lái),然后根據分析不斷深入、得到的信息不斷增加的情況下去完善你的結構,慢慢你會(huì )形成一套自己的思想。
當然有空的時(shí)候去看看《麥肯錫思維》、結構化邏輯思維訓練的書(shū)也不錯。在我以為多看看你身邊更資深同事的報告,多問(wèn)問(wèn)他們是怎么去考慮這個(gè)問(wèn)題的,別人的思想是怎么樣的?他是怎么構建整個(gè)分析體系的。
四、業(yè)務(wù)、行業(yè)、商業(yè)知識。當你掌握好前面的基本知識和一些技巧性東西的時(shí)候,你應該在業(yè)務(wù)、行業(yè)、商業(yè)知識的學(xué)習與積累上了。
這個(gè)放在最后,不是不重要,而且非常重要,如果前面三點(diǎn)是決定你能否進(jìn)入這個(gè)行業(yè),那么這則是你進(jìn)入這個(gè)行業(yè)后,能否成功的最根本的因素。 數據與具體行業(yè)知識的關(guān)系,比作池塘中魚(yú)與水的關(guān)系一點(diǎn)都不過(guò)分,數據(魚(yú))離開(kāi)了行業(yè)、業(yè)務(wù)背景(水)是死的,是不可能是“活”。
而沒(méi)有“魚(yú)”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高業(yè)務(wù)知識,特別是沒(méi)有相關(guān)背景的同學(xué)。
很簡(jiǎn)單,我總結了幾點(diǎn):1、多向業(yè)務(wù)部門(mén)的同事請教,多溝通。多向他們請教,數據分析師與業(yè)務(wù)部門(mén)沒(méi)有利益沖突,而更向是共生體,所以如果你態(tài)度好,相信業(yè)務(wù)部門(mén)的同事也很愿意把他們知道的告訴你。
2、永遠不要忘記了google大神,定制一些行業(yè)的關(guān)鍵字,每天都先看看定制的郵件。3、每天有空去瀏。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.365秒