看完政大數據分析社期末專案,給數據分析人的五個建議

2022 NCCU DA 上學期期末發表合照

摘要:從一場成發開始

最近政大的上學期剛結束,政大數據分析社(NCCU DA)也結束了成果發表,有幸與 Alyssa 社會學半路出家資料科學彭其捷Jack 一起擔任評審,在其中看到了很多有趣的作品,卻也看到許多剛接觸數據分析的人可以改進的地方.於是在最後的環節中給了一些反饋。

轉頭一想,這些點也不只出現在學生或者數據分析新手中,許多經常碰到數字的人也會無意識出現這些小毛病,卻會對分析與後續報告造成很大的問題。因此對於大量接觸數字的人、或者做數據分析時,我有五點小建議,這五個點分別是:

  • 避免過度分析,善用機器學習
  • 思考數據資產,要假說而非猜想
  • 在提出策略前,先確保了解問題
  • 確保你的目標明確,通過取捨來思考策略
  • 思考你的建議不確定性,並透過分析來降低這些不確定性

避免過度分析,善用機器學習

分析開始時,一個很常見的問題就是大家在拿到一張表的時候就想要看不同類別之間的關聯。這是一個幫助我們理解數據的過程,但終究不是目的。許多人會在簡報前部分畫許多圖,美其名是探索性數據分析(EDA),但是都跟目標沒什麼關聯,只是抓到數字就拿過來畫圖解釋一番。又或者當欄位眾多時就會對數據表感到乏力,而忘記從假說出發來排序數據驗證的優先級。

如何避免:掌握更多種分析工具是一種避免過度分析的方法

機器學習層面:比如可以先建立Lasso 等具有特徵篩選功能的模型,再根據比較重要的特徵去檢視與思考,這樣就能反推數據產生的方式與潛在模式,進而找到更多分析機會點。

統計層面:如圖; 具體做法包含寫好一些可以快速看到成果的函數,針對顯著的變數去畫圖了解,如圖就是通過統計檢定特定變數對目標的影響:

Table

思考數據資產,要假說而非猜想

我們在社課前期就開始講述假說思考,簡單來說就是「對答案有個現在的預期」,好處包括可以在專案前期就了解這個分析可以產生什麼樣的洞察,進而知道需要做什麼分析,然後反推需要的數據為何。

假說思考易學難精,我們看到比較多同學往往會把假說誤用為「猜想」,猜想就是基於自己的經驗與場景了解提出點子,但卻不一定可證。

舉例來說,今天看到一個男性比女性流失率還要高的柱狀圖,許多人會開始想原因:「是因為男生對客戶服務比較沒耐心嗎?是因為男生比較容易轉移到競品?」

我覺得brain storm 絕對是好的,尤其是在專案初期,應該要先跳脫手上的數據欄位來集體發想可以收集的數據、針對目標的潛在特徵會有哪些,這些思考過程都有助於對問題本身與商業流程的理解,可以幫助我們更好對不同的行為或者關注的方向建模。

但是隨著展開分析工作與程式碼實作,在有數據的時候應該先從「可以驗證」的假說來開始,因為你可以很快知道這件事情對不對,反之則有無限的猜想冒出,無法驗證、或者驗證成本過高就沒有意義。以上面的例子來說,「對客戶服務比較沒耐心」就可能需要客戶服務的語音數據來觀察情感變化、撥打時間等來衡量耐性,「男生比較容易轉移到競品」就需要有流失後的去向數據,但這些數據在目前階段可能都沒有,如果額外收集就會有數據收集的成本,而這些成本會拖延到專案的預期完成時間。

如何避免:回到數據資產,擁有數據就代表你具有可證的資產。

以上面例子來說,你擁有的數據欄位還有居住地點、會員等級等等……… 你可以據此提出的假說包含「因為某個城市的男生流失率特別高」、「因為某個會員等級的男生流失率特別高」,更進階一點你可以建模來找到不同變數對目標的解釋效果,有可能這些差異其實都來自其他變數的貢獻而非性別本身,而如果來自性別本身,你可能需要找到幾個數據點所代表的人事物,透過質化(如訪談)的方式了解並收斂。

如圖; 再進階一點甚至可以通過Shap與交互作用來分析(比如持有某張卡的男性流失率特高),而不是想了一堆難以驗證、且難以收斂的點子,卻不知道下一步分析該從哪邊開始。

交互作用視覺化範例

在提出策略前,先確保了解問題

許多人喜歡「策略」,因為這是做分析的人最可口的點,只要看到一個問題就可以提出各種想法來試圖解決它,在開始分析前,我們就要求社員需要提出分析可以落地的行動方案,也因此在DA看到每一組的簡報都花了蠻多篇幅在講述不同可能行動與策略,但是很多人對問題描述都不夠深,具體來說比較大的問題就是多數人會只針對問題給單頁的描述,卻花了五頁提出不同數據的觀察與提出對應方案

這也是我們故意讓社員去踩的坑,因為數據分析要先跳出題目的範疇,先在外面看:這個問題有多嚴重?真的值得你花這麼多時間「分析」嗎?

如何避免:對問題陳述本身多提問,不要害怕問問題與釐清問題

頒發獎狀給表現好的組別

做得比較好的組別都是在問題定義比較清楚的,他們知道這個問題對商業流程的重要性,知道「何謂問題」,幫助定義清楚問題可以讓你不會在數據海中載浮載沉,而是透過直覺性的想清楚問題本身,再用數據驗證。

NCCU DA上課簡報, 作者:Dennis

而不同商業階段要處理的問題也不同,比如在新產品前期,比起預測銷售,更在意會影響銷售的因子是什麼,這也是回到問題本身,針對問題定義清楚之後才更容易產生分析價值。

確保你的目標明確,通過取捨來思考策略

在分析策略,我們注意到許多同學在提出想法與策略時往往難以比較或者排序出「最重要的點子」,大家可能會畫一張表格,裡面有各種好點子,但是對於落地與執行的人來說,他們希望你告訴他要先做哪些事情、哪件事情最重要、以及為何重要。畢竟什麼都講了 = 什麼都沒講,經過進一步分析,我才了解到許多同學難以排序點子的原因在於覺得每個點子都很好,且都看似能解決問題,因此難以排序策略與點子間的重要性。

如何避免:清楚目標,並列出相關關注的指標來協助做決策

這就要回到問題定義了,如果我們知道這個問題很重要,那就能推出衡量這個問題最關鍵的指標是什麼,但是知道最重要的指標還不夠,還要知道哪些指標也是不可以忽視、甚至有可能跟這個問題產生衝突的。

舉例來說,有一組是做線上禮品電商的銷售數據分析,期望透過數據找出提升銷售額的方法與影響力,但是點子包山包海,大到改變客流量的大型廣告,小到針對主要客群的折扣提供,我們需要認知到這些行動伴隨的成本,如果從銷售額的角度可能會覺得都可行,但是考慮成本限制,從ROI的角度來看就能一目瞭然不同方案的推薦排序。你可以用高成本換來較不穩定的成功,也可以用小成本換來穩定的增長,這時候就需要你對風險與成長速度做取捨。

思考你的建議不確定性,並透過分析來降低這些不確定性

從數據分析衍伸而來的策略都有不確定性藏在裡頭,我們發現很多同學的建議都過於樂觀XD 比如電商的營收 = 客流量 x 轉換率 x 價格 x 複購率 ,看似是完美公式,用樣本統計量沒什麼問題,想估計轉換率可以把數據表的轉換率統計、客流量可以用數據大小、價格可以算出平均單價、複購率同樣可以統計出來,然而這裡面都有不確定性,如果不先思考可能的不確定性會讓行動伴隨風險。

如何避免:在針對行動方案時,善用數據來分析你對這件事情的掌握程度

如圖 ; 這是我上學期幫DA上課做的其中兩頁教材內容:

NCCU DA上課簡報, 作者:Dennis
NCCU DA上課簡報, 作者:Dennis

如果是一個習慣看第一層分析結果的人,可能會直接判定柱狀圖 = 最高的營收來源,於是鎖定Companies 這個客群來當作首選經營客群,但如果畫出分佈圖就知道該族群的營收其實集中於少數人,Companies層級不足以讓我們提出「想經營這群人」的策略,而應該做更深入的分析,但這卻是很多人會忽略的,我們看到很多同學會習慣看到柱狀圖就寫下comment ,但卻少看了數據分佈,這可能會造成分析粒度過粗,連帶影響到策略的精準性,如果提出不夠精準的策略,在落地與行動方案階段時可能就會有不如預期的結果,然而這很正常,因為你沒有事先分析好數據告訴你的風險。

我會建議多去思考這個指標背後的風險、以及還有哪些因素會影響到這個指標,我們該怎麼考慮它。

那麼以上,就是這一次的數據分析成發與給分析人的小建議,下學期數據分析社會展開跟企業的合作專案,我們也很期待可以跟不同產業的專家們合作,並讓學生們嘗試透過解決真實世界的問題來更懂得如何應用數據分析,敬請期待!

歡迎想學習Python資料科學、商業分析、金融知識的人一起交流!本部落格的內容全部都是基於「分享」的實作、理論兼顧文章,希望能夠幫助到所有對資料科學領域有興趣的人們,長期關注可按左手邊的Follow!若喜歡我在 Medium 的內容,可以拍個手(Claps)這邊想做個實驗,好讓我知道你/妳喜不喜歡這篇文章:
拍 10 下:簽個到,表示支持(謝謝鼓勵!)
拍 20 下:想要我多寫「商管相關」
拍 30 下:想要我多寫「資科相關」
拍 50 下:我有你這讀者寫這篇也心滿意足了!

敬請期待下一篇!或是您也可以逛逛我的其他資料科學文章,到我的主頁置頂文章獲得良好的目錄體驗。

Python資料科學系列:

如果想跟著我實作資料科學,開始寫程式必知必會基礎系列:

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com