數據科學家淺談 ChatGPT 對工作技能的潛在影響

https://openai.com/blog/chatgpt/

寫在前面:AI 普及來得會很快,因此必須儘早思考

最近不管文章、影片、短影音媒體都在風風火火傳著ChatGPT的應用 ,從去年開始自己就十分關注Chat GPT的應用與發展,該AI的強大在使用過後實在讓我佩服,網路上不同領域(行銷、工程、財務)也有許多聲音在討論 Chat GPT 對於不同行業的影響,因此今天這篇文章記錄下2023 年初自己對於AI 對數據行業的思考,更多是個人對於未來的預測與想法

什麼是Chat GPT?

https://www.engadget.com/openai-chatgpt-professional-paid-chatbot-143004442.html

ChatGPT是由OpenAI開發的一個人工智慧聊天機器人程式,於2022年11月推出,因為對話與高度接近真人、摘要的能力驚人,因此用戶快速增長,連帶讓許多人都意識到AI的發展速度有多麽驚人,根據報導,推出短短5天內,每天活躍用戶數就超過百萬人;2個月後,突破每月活躍用戶數達1億人,隨著商用服務出現,AI的商業化進度將更迅速滲透到每個人的生活。自從微軟火速開啟商業策略整合ChatGPT進自己的瀏覽器BING,我們也可以注意到 Google與微軟的AI大戰開打,這同時會讓我們更透明了解AI技術的發進度與增加前端研發者的開發速度壓力,兩兩都會推動AI的應用化更快速。

大綱:職業影響與個人專業能力啟示

本文分為以下兩個子節,先說明個人對職業影響的思考,尤其以數據分析行業為主,包括商業分析師、數據科學家、數據分析師、機器學習工程師、數據工程師,以及泛數據行業(如大量接觸數據的金融、行銷、供應鏈、生醫職能) ; 至於其他行業從業者可自動將本文的技術能力(Coding, 算法)替換為從業的知識要求,而軟實力我想大部分行業都是共同的,因此也可以斟酌服用

職業影響

  • 數量:開發需求減少、部署需求增加
  • 質量:對於領域知識與問問題的要求更為重要

個人專業能力啟示

  • 學習:如何培養下一階段的AI技能
  • 經驗:應累積何種技能因應AI浪潮
How AI disrupt work of future?

職業影響

首先是專業層面,我會從兩個方向切入,Quality & Quantity ,我認為ChatGPT在未來會從這兩個層面對數據分析從業人員產生影響:

  1. 數量:工程、報表需求人員減少,交付、部署人員需求增加
  2. 質量:工作內容改變,會花更多時間在設計符合「Context」的算法與應用產品

預測一:多數職業的工作性質改變 > 人力需求減少 > 取代

Photo by Magnet.me on Unsplash 人真的會被機器完全取代嗎?

首先是最多人擔心的取代問題,「AI到底會不會取代我的工作呢?」我認為這取決於你的工作多標準化,其實絕大多數工作本質上都是相當標準化的,我相信每個工作流程都能通過流程圖、網路圖被描繪出來,只是過去因為流程過於複雜、判斷因素更多,因此難以用機械取代,但隨著AI從資料學習的能力越來越好,這些判斷因素將更容易被機器學習,因此複雜性顯然不是一個要素

複雜的工作流程AI 也可以幫助分解,算力提高下我認為不存在AI解決不了的複雜性議題

從我過去參與的轉型經驗來看,我認為「人的信賴」是一個關鍵要素,你的職業有多麽「需要信賴」更難被取代,信賴意味著要與人交流,因此在「雙向溝通」上,比如分析的交流、回應疑慮、做出診斷這些任務上,我認為還是需要人類的,而許多職業如律師、醫師都需要診斷,顧問需要針對客戶疑慮回答,醫生可能會花更多時間在病人諮詢與安撫上,診斷與評估會通過AI輔助更有效率。但是「單向交流」諸如回應答案、分析報告,這些我認為AI 都是相當好取代的,比方數據分析單方面報數、客服回應等可能就要小心,因此如果你的工作有高比例都是不需要交流、單純會報的,我會建議更專注在開發「交流」與「主動溝通」上,不要做個被動的回答者,而是多去發掘問題與考量對方處境做出應對。

在具體數據分析從業人員上,分析價值會提高,因為人們可以考慮更複雜的要素與其中的交互作用,而工程、數據基礎建設、演算法方面,交付、部署人員需求增加,比起參與端到端的自建複雜系統開發、開發報表、工程建置,人們應該會有更多機會接觸到大量的微服務與API建構的混合雲系統,這也是一種雙向交流,通過對於自身需求的理解來設計系統與分析關鍵零組件,以後會更偏向混合的專業分工模式。

第一個衝擊,就是多數職業的工作性質會改變,雙向交流、刺激思考,遠高於單方向給出答案/解決方案的工作

取代的核心在於「信賴」,因此要做到完全取代我認為不太可能,但因為生產力提高,人力需求減少是相當可能的

第二個衝擊:特定職能人力需求的減少

Source : https://www.mckinsey.com/featured-insights/future-of-work/the-future-of-work-in-america-people-and-places-today-and-tomorrow

上面這張圖可以大致看麥肯錫是怎麼想未來工作樣貌的,雖然忽略了很多細節,但還是可以看到生產、數量驅動為主的工作替代性的優先級更高一些。

我認為人力需求會減少是必然的(假設業務量不變),比方說我以前在管顧公司這種高密集知識、對資料收集整合與梳理需求高的工作,有了ChatGPT初步估計至少可以增加5~6倍的生產力,這意味著公司只需要原本20%左右的人就可以達到類似的效果,資深人員若不能發揮經驗優勢反而容易被取代

大量資訊收集助理人員:管顧、律師、證券分析師的助理們的人數會減少,但高階人員的人數也可能受到負面影響,因為資深人員成本高,採用新進人員可大幅降低成本,結果不一定更差,可能以後的配置會更偏向一個經驗豐沛者與更多中階人員,而初階人員的需求將大幅減少,但高階人才在單一團隊的密度也會下滑。

或者走向另一種質量的改變,新進人員跳過助理階段,更多在協助驗證AI的資訊品質,包括違反基本邏輯、前提條件的資訊排查,以及為AI提供更清楚、具體的問題上,比如將大問題拆解,並通過人類語言與AI合作。

第三個衝擊:工作性質上Knowledge-based 的價值減少,懂得問問題與拆解問題、足夠了解情境並能將這些轉換為問題的價值將大幅提高

也就是說,Why 類型的問題將比 How 問題更重要,ChatGPT 是非常好的老師與資料彙整者,但當你問為什麼時,缺乏明確理論基礎與實驗論證的問題答案將變得模糊,人類依然需要通過進一步地探索與實踐才能得到初步的答案,以後光知道如何寫SQL、Python 不太重要,重點是知道要問什麼問題、以及為什麼會有這種現象。

單純將LeetCode 作為考試的話,ChatGPT本身就很好回答

這會作用於分析行業的面試上,比如將不太需要SQL、Python語法特性的強硬要求(手寫Code、白板題),因為有機器代為轉譯,ChatGPT 之於工程師可能會有如計算機之於會計師,變成基本與必備的工具。如果要考察面試者的分析與思考能力,這種情況下與其用高度抽象、元認知的演算法題,我認為Take Home Challenge, Case Study (如系統設計、問題分析)更能考察面試者的專業能力,並且也可以考察AI時代上述的「雙向溝通」能力,此外,原本對於資料結構與數學的問題考察也可以自然融入其中的個案問題裡面。

當然研發為主的工作還是需要考察這些基礎能力,但對於應用為主的從業人員,我覺得考察Coding 刻算法的意義與重要性會越來越低,尤其工程師更懶,也沒有多少人想當碼農,多數人還是更想參與高層次的設計與架構工作,我覺得這會是工程師未來更重要的價值之一。

模板性質、產品性質的工具價值將大幅降低,因為受AI可複製性與取代性高

比較特別的是,目前專注於機器學習工程職位的人員需要靜下心來思考自己專注的方向,ChatGPT在各種任務場景下的表現都非常好,如果只能做一個「還不錯」的模型出來,站在管理者的角度我寧願外包科技大廠的雲端模型,不只更省錢、更具體可預期成效,還有許多支援(Key Account, Document, Case Sharing)。有過大型轉型經驗的人都知道,雇用一個機器學習工程師的成本不只是開發時間、溝通成本,還有更多是此人離職後該怎麼繼續維護模型、怎麼留下公司本身的分析資產,否則每招一批人每個人都開發自己的工具跟專案,不但難以維護,也徒增成本,尤其是沒辦法累積自己的數據與分析資產這件事,因此字節跳動、McKinsey QB等就很聰明,他們都有所謂的Analytics Asset Team,專注於開發公司自有的分析工具、Inner Source,而不會過度依賴在幾個工程師自己開發的服務上。

個人專業能力啟示

Photo by NordWood Themes on Unsplash

學習:掌握基礎工程與算法能力,並多花時間在思考如何整合到眼前的問題上

除了可以使用ChatGPT 當自己的家教,包括練習寫Code、做出Code Template

簡單的SQL指令ChatGPT的答案稍作修改就可以直接使用

更重要是花更多時間在對問題的思考上:包括這個子問題到底要回答什麼議題,有沒有其他切入方向等等

由於工具變得簡單(人類通過自然語言就能操作電腦的技術會更成熟),分析本身的執行會因為工具與AI的便利性變得更有效率,人們應該回到數據本身去思考:「我還需要什麼數據?面對這個問題要考慮什麼因子?這樣的數據還需要怎麼清洗?」數據再多也多不過問題,花更多時間思考、想清楚解決的議題與數據潛在的偏誤,會更有競爭力,也比較不容易被取代。

經驗培養:更專注於產業、職能領域的培養

產業如金融、製造,職能如供應鏈、行銷等,在經驗部分,我會從數據科學的三個主要成分 — 領域、工程、算法來分析:

工程:簡單的 AI 工具會有如 Office tool 親民

累積經驗上,Coding 會變得類似於現在的Excel、PPT,每個人多少都會一點、或者可以通過ChatGPT的幫助建立漂亮的作品,就好像現代多數人做PPT都會先開一套模板再來修改、Excel 也有一些格式跟腳本方便處理資料,現在 ChatGPT 將扮演這種「模板」 的角色,只要是工具都脫不開這種標準形式的替代效果。隨著雲端大廠的工具建立與轉型經驗(AWS, Azure, GCP, IBM 等consulting),未來導入與工程建置門檻會大幅降低,因此除非作為前端、尖端研發人員,否則我認為從事數據科學的人們工程能力在個人能力上差距不會很明顯

有些人可能會說:但是工程師才看得懂Code呀,不懂 Code 要怎麼幫忙Debug與應用模板?我認為隨著AI 對於自然語言的理解提高,短期這個問題除了可以通過程式註解來理解,也可以通過分拆問題到子任務解決(分批問),大型系統依然需要人類協助組織與規劃,但是小任務、多例子與具體的應用其實即使不懂語法也可以仰賴Google與註解來逐一解決,因此長期來看普及化這個趨勢還是存在的。

而顧問公司的服務如雲端導入,將會給予人們更多該如何與AI合作、導入AI的經驗學習,這也是未來工程能力的重點,比如掌握基礎的PySpark語法與設計架構後,就該學習怎麼使用GCP的工具來實際應用到眼前的任務上,雲端工具的操作學習、API是低成本與AI合作、應用與組織內普及的短期重點。

算法:掌握基礎知識點,然後思考算法整合的商業分析

規則與學院派形式的算法將會更大量被普及,以往可能是傳統的機器學習模型如羅吉斯、線性迴歸算法等被大量應用,我認為未來深度學習下游任務,如影像辨識、對話智能都將更容易被實現,因此純數學算法與應用單純的算法差異性也會縮小。

理解業務知識與應用更為重要

ChatGPT 可以作為很好的輔助工具,幫助我在使用算法時快速回顧算法的原理,會產生差異化的地方在於結合領域知識的算法設計,比方說NLP中的 Word2Vec 可能過去多被用在主題模型的生成、詞意理解,但應用到零售中我們可以將購物籃看做句子、購買項目當作文字,藉此創造出Sku2Vec,以了解消費者的購買目標(Topic),這種嵌入算法到不同領域場景的算法能力是數據科學家們所需要培養更核心、且更難被取代的能力。而對於不同場景與數據該用什麼算法也是更重要的能力,應用層面算法知識的廣度將取代深度,因為深度知識的搜索容易通過網路資料與學術資源沈澱下來,並通過AI快速找到,而個人對於問題的解決能力需要廣度的培養來有的放矢

快速複習基本原理

領域知識:培養深度思考力

這是我認為最難被取代的部分,領域知識的吸收可以跟ChatGPT合作快速了解,但是對於問題與場景的梳理是ChatGPT比較難辦到的,這部分很靠人本身的能力,包括感知利益合作方的訴求、具體問題的限制、解決問題的效益評估、以及複雜多樣的因子

因此,「Engagement」的能力個人認為將十分重要,包括聆聽、說服的能力,以及怎麽將對於問題的目標與限制想得足夠透撤,帶領團隊解決問題,並將較為基礎的、實踐性的問題交給ChatGPT輔助。

ChatGPT 可以提供基礎行業知識的摘要

領域知識不同算法,許多產業層級的知識可以通過資料沈澱,但是具體場景與公司、團隊當前的問題都是特定時空下的自己才會面臨到,因此領域知識更需要著重個人思考,這部分不用交給AI,而是你和自己的團隊共同發想與理解。

總結:個人應更專注在高級的設計、思考、與分析工作上

總結來看,越 General 的東西 AI 取代效果越好,因為有非常多類似的資料點可以教會AI這件事情,工程先天就有這種標準化的性質,因此其實很危險 ; 而領域知識與問題解決非常Specific,AI 在數據不夠多的狀況之下難以處理單一個案,若要回到單一個案就會變得很死板,比如你可以讓ChatGPT為你讀某一間公司的財報甚至比較,但就變成Summary 的功能,這是現在多數財務產品就已經可以提供的價值:如下圖

財報分析應用,可以看到其實並不成熟,但很快有效率

另外 Chat GPT 也絕不會只是「取代」人,我認為 AI 這一塊Chat GPT 與人類將會走到共生的機制,包括共同合作去解決問題,如AI的牙醫、財務、顧問、工程師助理,初始與耗費時間的資訊整理、發想工作可以交給AI,但對於決策評估、數據盲點、數據偏頗都還是需要人類專家意識與參與,才可以讓AI更好被利用到社會上。AI確實也讓人們回歸到更本質、重要的事情上,分析思考與數據本身的重要性會被更凸顯,反而基礎建設如數據倉儲、工程實踐、算法落地的工作都會藉由AI變得更有效率,尤其隨著數據服務商更加集中,市場趨向壟斷,經驗累積與交付、導入的效率會更好,加上基礎建設多為一次性成本,因此維運、問題思考與分析、設計更具體、貼近自身的解決方式就是每個數據團隊未來要重點關注的。

最重要的是:同時思考如何避面濫用 AI

ChatGPT 的 Prompt 容易受到操弄,即使開發者已經針對特殊的內容做過考量與對應警告設計:

實驗 1:無情境,單純索取答案

但是人卻可以通過誤導性的問法得到答案,且容易在網路上大量傳播

實驗2 : 給予看似正當的情境並索取答案

上方例子可以看到,隨著AI普及的速度可能比我們預期得更快,我同時認為法律、政策更需要優先回應該怎麼應對人與AI的結合(如無人車傷亡的責任判定),學者們也應思考該怎麼處理AI倫理與訓練數據污染、毒藥的問題(如惡意輸入假資料來污染數據、干擾AI學習)藉此避免AI對人倫的傷害,確實現在多位前沿學者,包括多數科技公司如微軟、IBM、BCG GAMMA 的Medium 、官方部落格就是在研究 XAI 與 Responsible AI,數據科學家與機器學習工程師在訓練模型時,以往可能都是在取捨開發時間與準度,現在也要開始考慮倫理與精度的取捨(比如是否要為了避免性別偏見捨棄性別變數犧牲精度,又能找到代理變數來控制?)該如何教會AI 無特定偏差、又能很好輔助我們的工作,這是每個人都將要思考的問題。

謝謝你看到這邊,歡迎一起討論!

歡迎想學習Python資料科學、商業分析、金融知識的人一起交流!本部落格的內容全部都是基於「分享」的實作、理論兼顧文章,希望能夠幫助到所有對資料科學領域有興趣的人們,長期關注可按左手邊的Follow!若喜歡我在 Medium 的內容,可以拍個手(Claps)這邊想做個實驗,好讓我知道你/妳喜不喜歡這篇文章:
拍 10 下:簽個到,表示支持(謝謝鼓勵!)
拍 20 下:想要我多寫「商管相關」
拍 30 下:想要我多寫「資科相關」
拍 50 下:我有你這讀者寫這篇也心滿意足了!

敬請期待下一篇!或是您也可以逛逛我的其他資料科學文章,到我的主頁置頂文章獲得良好的目錄體驗。

Python資料科學系列:

如果想跟著我實作資料科學,開始寫程式必知必會基礎系列:

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com