五個數據分析的解決問題指南,政大數據分析社企業專案回顧

期末發表當天的合照

背景

自一年前 看完政大數據分析社期末專案,給數據分析人的五個建議 ,2023 下學期 政大數據分析社 NCCU DA 與企業合作,學生分成5~6人小組,每組一個助教來帶領學生完成專案。在這個過程中,學生們需要親自與業主釐清問題、訪談背景狀況、清洗、分析數據,並提交分析報告,通過數據分析解決企業的真實問題。

NCCU DA 的背景組成不限科系,學生們在加入社團之前約半數沒有實際數據分析專案的經驗,大部分從頭學起。多數還是以商管、社科學生為主,也有理工與文學院學生,從跟學生的互動中,我們可以觀察到剛畢業的數據分析人才執行實際數據專案與Kaggle專案的區別,從中了解到執行真實數據分析專案額外需要的能力方向。

同時,我也會列出同學們值得稱讚的地方與一些企業發展、執行數據分析專案的觀念,讓大家了解該如何充分運用洞察來解決問題,以及避免在溝通時出現「你說的我早就知道了」、「這個分析很有趣,不過然後呢?」等數據分析人員在表達分析結果時可能會碰到的問題。

結尾也會有其他對數據人才的觀察:

  • 有了ChatGPT之後,數據分析專案的改變
  • 跟業主方向一致的重要性
  • 新數據人才(大學畢業)的特點

那麼以下開始正文,這五個解決問題指南分別是:

  1. 培養用數據定義問題的能力
  2. 不只找洞察,也要設計解決方案
  3. 理解問題背景來規劃分析優先順序
  4. 團隊要學會共同收斂分析問題
  5. 簡單的機器學習模型也足夠強大

培養用數據定義問題的能力

原本的命題看起來是找到銷量最大的產品特徵

在其中一個專案中,我們的分析目標是找到服裝業者的「金牛產品」。

這是一個原本的命題,但是「何謂金牛」?就是一個需要大家動腦的命題。

在與業主原本的討論中,本來是以「銷量」作為主要指標來去定義高銷量產品為金牛,看似合理,對原本就熟悉商管理論的同學來說銷量也是一個容易接受、好懂的指標,然而專案中的「核心指標」有沒有問題,就是第一步我們要思考與理解的。

  • 方向性:業主想知道什麼?
  • 缺陷性:用銷量來定義金牛產品會有什麼問題?
  • 意義性:一個金牛產品對企業的意義只在於提高收入(通過高銷量)嗎?

從這三個點去思考,我們可以有很多延伸要與業主討論的方向,以及更嚴謹地去定義命題,確保該指標定義可以幫助我們去更好認識、分析問題。

方向性

如果只從「銷量」去思考,大家可能就會直覺性把「銷量」這個變數跟所有資料庫中能組合的欄位做交叉分析,畫出不同區域與銷量、不同品類與銷量的關係等柱狀圖,但這樣窮舉所有資料庫的欄位做視覺化其實挺發散,且無法讓人聚焦要深入分析的地方,簡報篇幅也會變得非常長。

以方向性來說,業主想做的決策可能是選品,讓採購有更數據驅動的方法去開發新品,而非仰賴個人經驗。

因此「業主想知道的」,其實是可以用來支持選品決策的不同知識與資訊,比如衣服質地、類別、價位等,那麼這些變數就可以作為分析的特徵、維度,讓我們知道要用哪些變數去分析原本的指標。因為可以回答諸如「什麼價位的衣服賣比較好呢?」、「圖片是否會影響銷量呢?」這些選品上想知道的問題。

在選定分析指標前,務必要了解關係利益人想做的決策是什麼

對比上學期的Kaggle專案,之前大家可能都是把不同變數的分布、關係用 Python 畫出來說是數據分析,然而這樣缺乏明確決策方向的視覺化通常比較發散,也常常讓人覺得「好我看完了,所以呢?」

了解決策與後續行動,就可以知道哪些變數的分析很有意義

有了決策方向,就知道為了該決策需要哪些資訊,而這些資訊可能才是沒分析數據前無法得知的事情。這樣整個分析的脈絡就會變得鮮明,也可以確保在分析之後我們可以確實創造影響力。

同時,也可以幫助思考影響「銷量」高低的因素是否真的是我們想要分析的方向,更審慎在定義指標上。

缺陷性

指標的缺陷,有些指標看似合理,但不一定能回答業主想知道的問題。以銷量為例,如果我們把不同品類的銷量分佈畫出來,可以了解到不同類別的銷售規模差異很大,那麼單純以銷量的絕對數字作為指標,很可能會讓問題的答案侷限於「熱門的短袖/長褲是什麼?」而忽略包包、夾克、配件、球衣、海軍帽等其他產品。

這就是個很嚴重的問題了,我們不會想要分析半天還得到一個業主早就知道的答案。而業主可能也沒意識到自己想問的問題其實是跨品類的,有時候一個指標的挑選其實就決定了答案的上限,當答案的上限明確的時候很難產生一些業務所不知道的洞察,就容易出現「你說的,其實我們都知道。」的尷尬情境。

另外,銷量指標波動性也大,因為容易受到促銷影響,因此短期銷量高的金牛不見得是企業真的想要的金牛,而是人為操作出來的結果。既然是人為的,業務人員在分析前大概就會知道結果如何,對應到分析結果就更難產生他們所不知道的洞察。

意義

這裡也有很多值得討論的地方,從前面的指標缺陷來說,可以依照不同品類、用一樣的指標(此指銷量)分開分析,也可以換個更好的指標來定義原本的問題。

而要訂定指標,就要跳脫原本看待銷售的視角,從對業主的意義來思考。

比如金牛產品可以用生命週期長來定義,因為在時尚、服裝產業流行退化得很快,生命週期長是一件很了不起的事情,且可以避免銷量規模不一的問題。

也可以用跨售能力來定義,也許一個金牛產品的能耐體現在它可以把零售快消痛恨的庫存清掉,如果對業主來說現在亟欲解決的其實是庫存問題,那麼量化「帶庫存能力很優異的產品」也可以定義為一種金牛產品,比如有些褲子在搭售上就是賣得特別好(可能是很好配穿搭?)、有些小包包總會被丟到塞滿外套的購物籃中(可能是為了湊減免單?),這些產品關聯的故事在該命題下都值得挖掘。

小組簡報範例:指標挑選

具體的定義需要回歸到跟業主本身的討論中,但從上面我們可以了解到,這兩個指標都是根據業主訪談中「時尚服飾類產品是一種難以忍受庫存、生命週期短的行業」理解下所定義出的指標。

因此,在商業分析類的問題前要對商業有所了解,理解產業的特性與提問背後的意圖,才可以定義出更具體描繪問題的指標,而該指標又會讓我們對問題理解得更深。

不只找洞察,也要設計解決方案

數據分析不能只停留在洞察,還要提出進一步的行動

提前討論到解決方案有助於更進一步確認分析的影響力,比如有小組想要替一間連鎖餐飲集團品牌驗證「餐廳距離對於跨品牌消費的關係」。因為大家都會懷疑分店開得遠,則不同門市互相導流的效果越低。

但是當他們辛苦串接了Google Map API、計算出不同門市的位置與點位距離資訊、映射會員消費紀錄到地圖上時,出現的是難以分析、複雜的巨大網路圖,而用柱狀圖去呈現距離與跨店消費時,即使觀察到的發現令人興奮,但可能會讓業主納悶:「聽起來很有趣,但是可以做什麼呢?」

以這個例子來說,假設證明了分店距離相近,則導流效果好,那麼下一步的行動是要為了導流效果,因此把分店都聚集在一個商圈嗎?如果我們在分析、寫Code 前就先去嘗試思考解決方案,就可能會注意到還有幾個問題必須得先行回答,才值得做這樣的分析:

  • 導流的好處是什麼?或者,真的有好處嗎?
  • 假設能通過數據理解距離是否影響導流,那麼除了開店/關店,業主還可以做哪些策略來影響距離?(比如外送,但外送相關的分析跟本次專案的目標方向有「順路」嗎?)
  • 如果業主要開店,這個決策要考慮哪些因素?這個分析對開店決策有幫助嗎?

更甚者,我們可能也要想所有的技術實踐都有時間成本,拋開問題重要性不談,「距離越遠、則越不容易互相消費」的陳述聽起來有充滿不確定嗎?一定需要仰賴數據分析來證明,還是其實是邏輯本就通順、無需嚴謹證明的假設呢?

同時該組也有做得很好的地方,他們分析了現有折價券的兌換數據、搭配會員消費資料呈現出的消費瓶頸,以及研究現有積累點數方案,找到目前集團點數機制存在的問題。過程清晰明瞭且圖表、邏輯上都十分具有說服力,針對這項點數使用行為的洞察,團隊提出了新的點數積累架構與機制,讓業主與系統商可以跳出「提升點數使用率」的思考盲點,轉而從更根本的點數設計問題來思考與優化。這就是一種洞察、策略並行,且具有影響力的數據分析。

理解問題背景來規劃分析優先順序

或者通過更前一步的數據分析找到最重要的指標

在分析時,有小組會覺得每個指標好像都很重要,都應該花時間去看、去分析,讓整個專案架構變得龐大,分工也變得錯綜複雜,而這樣的專案模式在企業中容易會讓時間變長、延宕、甚至增加很多溝通成本。

這也要回到商業分析去思考,當有了專案的明確北極星指標時我們就可以知道該把時間花在盯緊哪個指標。

舉例來說,有小組想要通過「預測顧客下一次購買的時間」,建立機器學習模型來提供APP通知發送、顧客管理等建議,但這些其實只是「手段」,真正想做的應該是提升營業額。那麼,邏輯就是「預測下一次購買時間」可得知要怎麼更優化「一來再來」的顧客回訪,而「一來再來」可以提升最終的「營業額」。

但這很明顯是有前提的,如果商業本質上是高頻次消費(如該集團下的麵包店、飲料店),這麼做就很有意義 ; 但如果是拼客單價的品牌,理解、分析加價購與其他提升客單價的商業手段可能會比提升頻次有意義得多。

具體來說,對一家手搖飲品牌我覺得小組用這個模型作為專案的切角並無不妥 ; 但對一個講究氛圍、無固定客群的新開餐酒館來說,可能得再想想為什麼不是先做充滿機會點的套餐綁售分析。

學會共同收斂分析問題

若多人分析分開,沒切好範疇容易造成重工與視角過度延展

延續上一點,剛開始做數據分析的人才在一開始可能比較難去解析與排序問題的重要性。容易陷入「有多少資料就做多少事」,資料庫多大、業主訪談多少場就增加專案範疇,導致大家焦頭爛額。

因此會建議寫一個小組共同維護的文件,裡面有明確的專案目標、業主(關係利益人)期待、專案限制、需要做的決策、決策支持所需要的資訊、以及得到資訊需要做的分析。

有了這份文件,就可以在每一次跟業主、小組內部開會討論時,能夠專注在排除朝專案目標走的障礙,而不是沒完沒了的討論新得到的資訊與開許多難以結合的分支。

個人覺得這一點蠻容易出現在多人分析團隊,如果分工不當,很可能出現重工、不同人看同個圖表不同視角而產生更多激辯的狀況。多討論不是壞事,畢竟數據分析通常沒有絕對正確的答案,然而過度展開分析,以及每個個人想法的延伸往往會讓整個分析鏈路鋪得很長,在有限的時間內其實是可以避免的。

舉例來說,有小組是與一間連鎖遊樂場品牌合作分析數據,分工則是其中三人分別負責分析一個地區分館,看似合理好分工,然而在經營上即使三個分館面臨的問題不同,背後的資料格式跟分析邏輯的設計上其實應當是一樣的。與其三個人分別交三個架構、變數命名、函數寫法、分析切角都不同的jupyter notebook,不如整體先把分析脈絡跟寫法定義清晰,然後以區塊的方式分工會更有效率。如此一來也能夠在開會時,讓每人在更具有一致性的圖表貢獻自己對數據的看法與觀察,達到維持多人討論、視角又能不跑偏、不重工的效果。

簡單的機器學習模型也足夠強大

社課懶人包:https://www.facebook.com/photo/?fbid=611538227662132&set=pcb.611538444328777

在這學期的社課中我們放入機器學習的內容。機器學習對於初學者老實說並不容易,即使只是對於分類、迴歸的入門介紹,要用不到10小時讓人了解這些工具的用途、跟BI 類型的視覺化分析結合(visual analytics)並應用於專案上是很有挑戰的事情。

示意圖ˋ

不過有小組就嘗試通過迴歸線找到被低估、過往沒被發現的金牛產品(具體思路類似於財務上的CAPM),並針對這些「遺珠產品」做質化研究,找到讓人充滿驚喜又合理的洞察。在數據分析上這個流程可能是很簡單的程式碼(sklearn + seaborn),但是通過數據與機器學習收斂問題,並應用其他專長也能找到非常棒的洞察。

其他觀察 :

有了ChatGPT之後的數據分析專案有兩個特別的點:

  • 用程式做數據分析普及率提高:前一年的社員可能比較多還是擅長用Excel, Tableau等方便簡單的工具來做分析,不擅長程式的同學可能就會專注在發想假說、分析脈絡並讓擅長寫程式的同學幫忙驗證,但這一屆有感受到每個人幾乎都會自己寫Code,也就是做分析的個人自主性提高了。ChatGPT讓每個人都能通過問的方式寫程式碼,讓每個人實際做分析的參與感增加。個人認爲現在開始PM、MKT等不同職能也會逐漸開始自己寫一些程式、腳本來做分析。
  • 發想專案方向變簡單,收斂變困難:首先,把問題丟給ChatGPT,不管問題多麽含糊,ChatGPT通常還是會直接拋出答案,因此也少了來回釐清、定義問題的過程。GPT同時會告訴大家非常多分析可以看的方向、可能的原因等等…….,這代表團隊在一開始就可以充分借助ChatGPT提升對問題背景(產業、公司、產品)的瞭解以及發想許多待證明的假說,然而具體問題的收斂與實際上有無數據會決定接下來專案執行的走向,在排序議題上人類因為還是有比較多資訊(包含業主的訪談、對問題、背景的理解)所以比較擅長一些,因此怎麼收斂廣大的分析方向就是團隊要進一步思考的。

與關係利益人的策略方向一致很重要:某組通過分析的方法找到娛樂場館的「Aha moment」,在期末回饋上業主也表示他們內部討論過類似的Aha moment ,之後會把這個機制整合到近期營運策略中。這意味著三個月左右的數據分析專案意外證明了內部策略的正確性,對業主與團隊都是一種很好的鼓舞。

數據分析人才的特徵:從這次的專案中,也觀察到在實際執行企業分析專案時,學生們能夠:

  1. 靈活使用外部數據:包括外部調查、市場報告、論壇,而不是只侷限在內部資料庫的分析上,並且結合業主訪談得到期待結果
  2. 不限工具使用:Looker, Python, R,哪個可以解決問題用哪個
  3. 思維彈性:如通過企業、分店具體狀況提出策略與行動建議,而不是一個通用廣泛的結論做結尾。

以上就是這次從政大學生與企業合作的數據分析專案學到的觀察。

對於過往專案有興趣的讀者,也可以參考我在一年前寫的:看完政大數據分析社期末專案,給數據分析人的五個建議 ,當時是以Kaggle專案的評析為主。

特別感謝過往參與的合作企業們。也歡迎未來有想要嘗試跟社團合作的企業聯絡 國立政治大學 數據分析社 NCCUDA ,也可以直接寄信給我(dennis.dai.1011@gmail.com),讓我們一起看看還有什麼可以合作的專案。

NCCU DA 2.0
歡迎想學習Python資料科學、商業分析、金融知識的人一起交流!本部落格的內容全部都是基於「分享」的實作、理論兼顧文章,希望能夠幫助到所有對資料科學領域有興趣的人們,長期關注可按左手邊的Follow!若喜歡我在 Medium 的內容,可以拍個手(Claps)這邊想做個實驗,好讓我知道你/妳喜不喜歡這篇文章:
拍 10 下:簽個到,表示支持(謝謝鼓勵!)
拍 20 下:想要我多寫「商管相關」
拍 30 下:想要我多寫「資科相關」
拍 50 下:我有你這讀者寫這篇也心滿意足了!

敬請期待下一篇!或是您也可以逛逛我的其他資料科學文章,到我的主頁置頂文章獲得良好的目錄體驗。

Python資料科學系列:

如果想跟著我實作資料科學,開始寫程式必知必會基礎系列:

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com