回首十年數據職涯路:從大數據的過去,展望AI的未來
講者介紹
陳向豪 Vincent Chen 目前擔任數創智能的 CEO,同時也是「數創實驗室」社群的創始人,致力於通過顧問與教育訓練的方式,協助企業透過數據與 AI 創造最大商業價值。過去,Vincent在 eBay 曾領導多項跨國大數據專案,並曾在台灣的特力集團擔任企業資料技術處負責人,累積了豐富應用與分析實戰經驗。
摘要
本文將分成以下部分進行探討
- Vincent 個人簡介與過往項目經驗
- LLM引領的自動化趨勢
- AI未來趨勢以及關鍵看點
- Q&A 問答精華
Vincent 個人與過往項目經驗
** 現任工作**
陳向豪 Vincent Chen 是「數創實驗室」社群與同名 Podcast 的創始人,致力於在快速演進的 AI 時代中,打造華語圈最具影響力的 AI 與大數據領域學習生態,推動社會AI素養的提升。透過社群活動、業界講座與 Podcast 節目,他不斷促進專業者與企業之間的知識交流,協助聽眾掌握前沿趨勢並於職場中實踐數據驅動思維。
同時 Vincent 也提供中/大型企業 AI、機器學習 (ML)、大數據應用的「策略顧問」與「員工教育訓練」服務,包含:
- 顧問服務:企業 AI 應用需求釐清、AI 落地場景識別、技術選型規劃、系統搭建與系統導入陪跑
- 課程內容 : 高階主管 AI 通識課、企業 AI 導入通識指南、生成式 AI 生產力工具等課程
** 過往工作**
Vincent 曾在美國電商 eBay 擔任數據分析師以及數據分析主管,當時常駐於上海,隸屬於亞太區的數據分析中心,該中心是 eBay 全球三個分析據點之一,負責支援亞太市場的跨國數據與 AI 應用項目。之後於2022年回到台灣,加入特力集團,特力集團旗下擁有特力屋、HOLA 等多個零售品牌。他在特力集團中帶領數據分析與機器學習團隊,規模約為七至八人,從電商平台到本地零售,他都有相關的技術以及領導經驗。
** 學術經驗**
Vincent 最初就讀於國立陽明交通大學,取得企業管理碩士學位;後來因為對大數據、AI、機器學習領域的熱情,後來到英國利茲大學深造,取得資料科學碩士。他同時也是個開發者,在英國期間,他曾自行以 R 語言套件 “embc”,開發機器學習演算法,並將研究成果開源到社群,目前該套件已累積超過 25,000 次全球下載。
** 產業趨勢 - 大數據、資料科學發展**
Vincent 將大數據、資料科學劃分出以下兩大塊:
- 經典機器學習 Classic ML (2005 — Now) :經典應用包含 — 監督式學習、非監督式學習、網絡分析、傳統商業分析,技術處於較成熟階段。
- 生成式 AI 突破進展 (2023 — Now) :生成式 AI 是從傳統機器學習中的NLP (Natural Language Processing) 發展出來的,應用場景包含文本生成、圖像生成、語音生成以及影片生成,技術處於快速發展階段。
Press enter or click to view image in full size
已有許多公司已經應用以上提到的這些技術、工具在他們的產品上
LLM (Large Language Model) 引領的自動化趨勢
Vincent 先向我們展示了Google 近期推出的 Data Science Agent,這個 AI Agent 高度自動化資料工作流程,Vincent 展示將一個資料集上傳至 Google Colab,並使用 Data Science Agent (Powered by Gemini) 來分析該資料,在 Demo 中 (請參考以下精選截圖)可以看到 Data Science Agent 自動規劃出分析計畫,等待使用者確認後,Agent 就會自己開始執行分析,從資料探索、資料清理、特徵工程到訓練模型,所有過程中生成的 Code 都會寫入到 Colab 的 Jupyter Notebook,過程中間使用者也都可以打斷並插手介入分析。
Vincent 解釋到有了這項工具,以往可能要花一個禮拜才能完成的分析工作,可以壓縮至一天就可以完成。而對於在資料科學這個領域工作的朋友來說,未來不是要想怎麼樣更好的寫 Code 來做分析,而是要能夠看懂、能夠糾正所 AI 所生成的 Code,更重要的是如何應用這些工具,並且要在哪些場景上應用它們。
💡 AI Agent : 在過去兩年我們跟 LLM (Large Language Model) 大語言模型互動大多以答 (Prompting) 的這種方式,假設我們有個問題,我們提問給大語言模型,然後得到答案後,我們自己要去把這件事情做完。但是在理想情境中,AI Agent 是我們告訴他問題,然後 AI Agent 會告訴我們他會想怎麼做、並幫我們完成該項工作。
Press enter or click to view image in full size
Demo — 上傳資料集並向 Gemini 提問分析資料集
Press enter or click to view image in full size
Demo — Gemini 自動規劃出的分析計劃
Press enter or click to view image in full size
Demo — Gemini 執行分析計劃範例
Vincent 認為在這個時代,從事數據工作的朋友需要稍微淡化這種狹義「數據人」的自我認知,改以「我們是幫企業解決問題的人 」來思考自己的角色。這樣的心態轉變,來自於一個重要的趨勢:業務與技術的界線正在模糊化 。他和我們分享他觀察到 AI 對以下三個數據領域可能有的具體影響:
- Data Analytics (資料分析) :資料分析師的角色,可能不再是獨立的一個職稱,而會轉變成一項基本技能的存在。舉例來說,一個產品經理之所以需要資料分析師的支援,是因為他們不會寫 SQL、不會用 R 或 Python。但現在,在 LLM 與自動化分析工具的輔助下,產品經理其實可以自己處理大約六、七成的分析需求。在未來,只會寫 Code 的數據分析師反而未來的發展可能相對危險,因為這些能力將會被自動化或部分取代。相對的,有深入理解產業、能結合商業知識與資料的「有分析能力的業務專家」,反而會更吃香。
- Data Science (資料科學) :以前,資料科學家也許可以在一個在 Jupyter Notebook 裡建立好的模型,這就可以當工作交付的成果,但未來的資料科學家,將需要懂得如何把模型部署到線上、讓它能在實際環境中穩定運作。這意味著這個職位就需要學會 API 開發、系統架構、底層運算效力、效能優化等更多工程端的技能。
- Data Engineering (資料工程) :相對來說,資料工程的影響就較小,但是同樣有許多 Low / No Code 的 AI 工具、平台正在崛起,很多資料處理與轉換的工作已經被大幅簡化,未來可能與傳統的軟體工程師的界線會越來越模糊。
Press enter or click to view image in full size
數據職務未來發展預測
Vincent 接著拋出他對於市場上另一個觀察,非常值得關注的新職位正在崛起,也就是 AI Engineer,其實這個職位的定義目前還沒有完全定型,非常類似十年前的資料科學家一樣,大家對 AI Engineer 的工作內容、職責都還在摸索當中,但 Vincent 引用一位非常有代表性的業界人物,Andrej Karpathy,他是OpenAI 的聯合創辦人之一。他提到,隨著大型語言模型(LLM)普及,整個 AI 生態其實可以用一條 API 作為分界線劃分成兩端 (如下圖):
- 研究者與大模型開發者 (左邊) :這些人負責訓練基礎模型,例如 GPT、Claude、Gemini 等,這需要大量的算力與資金,通常是少數幾家大公司能負擔的領域。
- 應用者與實作者 (右邊) :他們不需要重新訓練模型,而是透過 API 調用這些預訓練模型來開發實際應用,讓 AI 真正落地產生價值。
Press enter or click to view image in full size
AI Engineer — 生成式 AI 的職業風口
對大部分資源較少的公司來說,能自己訓練大模型的機會非常少,所以如何善用訓練好的大模型,就變成一個很重要的技能,這正是 AI Engineer 的核心價值所在。這個角色要能夠調用不同大模型 API 的接口、把它們串接到實際產品或流程中。
Vincent 以 eBay 的 Magic Listing Tool 舉例來說明為何 AI Engineer可能是生成式 AI的職業風口,以及 AI Engineer可能需要具備什麼技能。以 Magic Listing Tool 為例,eBay 想解決的問題很明確,他們想讓賣家上架商品的流程更輕鬆、更快速。過去,賣家需要手動填寫產品名稱、分類、屬性、描述等等,這不但繁瑣,而且如果賣家填得不精準會影響搜尋與銷售轉換。而有了 Magic Listing Tool 後,他們只要上傳一張商品照片,多模態的 AI 模型就可以根據圖片內容,自動生成這些上架所需的資訊,大幅解決賣家的痛點。
大家可以想像一下,假設你是做這個專案的人,其實你不太可能真的從無到有去訓練多模態大型語言模型,比較有可能的情境是你要調用已有大模型,將它整合進 eBay 的內部系統,而這就需要前面提到的 AI Engineer,這個角色就必須要知道怎麼樣調用大語言模型 API、系統之間怎麼串接、如何處理大語言模型可能產生的 Hallucination (幻覺)等技能。
Vincent 接著總結 AI Engineer 所需要的技能,他認爲此職位所需的技能已超越了 Prompt Engineer 的範疇,更要懂得搭配更多不同的技能點,包含Prompt Engineering + Agentic Workflow + RAG (硬技能) 以及 Domain Knowledge (產業知識)。他用一個式子來表達:Domain Knowledge x (Prompt + Agent Workflow + RAG) ,這也呼應到了前面所提及的,所有技術的價值都是通過應用場景體現出來,要知道解決什麼樣的問題並且可以創造出哪些商業加值。所以 Vincent 很鼓勵大家,不管你想做什麼,一定要加強自己的軟實力,去了解你所屬產業裡真的要解決的「痛點」是什麼。
Press enter or click to view image in full size
** AI Engineer 技能組成**
AI未來趨勢以及關鍵看點
最後,Vincent 也和我們分享 AI 未來趨勢,他認為未來 AI 三大看點為:
- AI Agent 與模型多模態 :今年將是 AI Agent 快速發展的一年,理想的 AI Agent,不應該只是提供建議,而是能真正自動化、幫我們去做事。這代表模型不只要理解自然語言,還要會調用工具 (Functional Calling、Tool Use)、串接不同的 API,自動完成任務。像剛剛前面所提到的 Data Science Agent,那個 AI Agent 就要得能夠精準找到他所需要使用的工具 (例如Python),來去完成指定的任務。再來是模型的多模態發展。現在的新模型都已經不再只是單純的語言模型,而是整合語音、影像、影片等不同模態。多模態的模型將成為主流,並且模態之間的切換會是未來的重點。舉例來說,以前的 LLM 就像是大腦,現在透過多模態,我們幫它裝上了眼睛 (圖片)、耳朵 (語音) 等等,這會開啟更多新應用場景,非常值得持續關注的趨勢。最後是在 Hallucination (幻覺) 的控制,如果有關注模型的朋友會發現在很多 Benchmark 上,這些大型語言模型即便已經刷新了紀錄,但整體的準確率大多還是落在 80% 之間。換句話說,從絕對的角度來看,對一位使用者來說,如果模型準確率是 80%,那代表每問五個問題或請他做五件事,就可能出錯一次。這在日常使用上或許還可以接受,但在商業場景中卻是難以落地的,因為企業端無法容忍這樣的錯誤率。正因如此,如何控制模型的幻覺、提升正確性,也會是未來發展的一個重點。
- 推理、開源、小模型 :過去我們以為只要砸更多資料、加入更多算力、建造更大的模型,在預訓練 (Pre Training) 中,模型就會變得更強、更準,但這件事目前看請來已經開始撞牆了,大模型在資料與運算效能上的邊際效益正在減弱,但是同時有另外一個新的 Scaling Law 正在崛起「 Test Time Compute 」(測試時計算),也就是現在很多推理模型 (像 DeepSeek),都是利用輸出 Token 來進行思考,這類的模型透過延長思維鏈,可以進一步提升模型的邏輯推理能力而提高準確性,這是一個正在興起的技術方向。再來是開源模型,年初的時候大家應該都有被 DeepSeek 的新聞給震撼到,原本我們可能都被閉源的大模型給綁住了,但 DeepSeek 出來後,它為開源模型也打開了另一條路。另外,大模型相對跑起來比較慢、效率較低,許多應用場景沒辦法接受過長的等待時間,而小模型可以在不失精準度的情況下,更快得提供回覆。總結來說,Vincent 認為企業有可能可以不再依賴大型閉源模型,而是透過開源或者較小模型,加上一些客製化訓練或微調,在內部打造符合自己需求的 AI。
- LLM 新型資安挑戰 :現在有許多例子已經開始證明,LLM 其實是可以被攻破的,例如 Prompt Injection,可以透過在 Prompt 裡加入各種各樣的指示來迫使 AI Agent 違背原始指令、做不該做的事情。舉例來說,如果你是在零售業工作負責 LLM 的客服,而他又連接了一個後端重要的資料庫,有可能就會有人利用 Prompt Injection 來攻擊你的 AI Agent,把所有的客戶資料都駭走,這就會造成巨大損失、對公司帶來無法承受的後果。再來,這些大語言模型有可以會說謊,有研究發現,當模型覺得被威脅要被刪掉時,它可能會說謊、甚至偷偷備份自己,更不用說其他問題像是著作權侵權、Deep Fake 等等,這些都會法律風險。目前業界對這些問題也都還沒有標準解法,但卻是我們在使用 LLM 時,無法忽視的風險。
Press enter or click to view image in full size
生成式 AI 發展看點
👉 數創實驗室 — AI時代的學習指南
Press enter or click to view image in full size
Q&A 問答精華
Q1 : 如何增強軟實力?
A : 對於在公司工作的朋友們,Vincent的建議是從兩個層面切入:
- 從宏觀的角度去了解公司以及公司所屬產業,包括獲利方式以及產業發展週期。舉例來說,如果是在發展初期的公司以及產業,他們會較專注於用戶增長,相反的,如果是在穩定期或是已經在市場佔有一席之地的公司以及產業,他們可能就不會特別著重在用戶增長,而是更重視用戶留存,這些往往都決定了你可能會做怎麼樣的分析、建立什麼樣的模型。
- 從微觀的角度在公司工作都需要和人共同合作,要讓別人了解你在做的事情是什麼以及理解別人的需求是什麼,尤其是對於偏技術出身的朋友們,一定要懂得利用非技術的語言與其他部門(業務、行銷等等)合作。
Q2 : 如果想更了解公司目前的產品階段或市場狀態,有哪些方式?
A : Vincent認為要活用AI(像Perplexity或Deep Research),利用這些AI工具來快速了解你所屬公司以及產業的趨勢、挑戰與競爭者現況。若公司可能不夠知名或者資訊不足,可透過同產業的競爭者來反推自己所屬公司目前大概的狀況。在使用這些AI工具時,也可以適時利用關鍵字像「公司成長性」、「產業目前的發展方向」等,來更快速的了解你想知道的內容。
Q3 : 在Colab Demo中所使用的資料是一個Toy Data,Gemini可能相對熟悉該筆資料,但許多真實場景的資料,Gemini是完全沒有見過的,如果分析過程中有跟原本想的不一樣甚至是出錯,會透過怎麼樣的過程來溝通跟迭代?同時在這個過程中,或建議我們具備哪些技能?
A : 確實目前Colab的Data Science Agent才剛推出,會有許多地方需要改進。但從所需的技能來看,像是數學、機器學習的基礎知識都是必須的,Vincent覺得最後被自動化的部分可能會是Coding的部分,數學邏輯以及產業知識(Domain Knolwedge)是會不可取代的。舉例來說,以數學或機器學習來說,假設今天有個二元分類的模型,如模型的準確率高達99.9%,但AUC只有0.5,這代表著這個模型有什麼樣的問題呢?其實這就是出現類別不平衡問題(Class Imbalance)的問題,而要了解或者發現這個問題,這就需要對數學、機器學習算法有足夠深入才能發現,所以在未來大部分Coding會由AI來完成後,我們就必須要加深對於數學、機器學習知識的理解。
Q4 : 近期有觀察到以前很熱門的資料科學(Data Science)職缺需求越來越少了,取而代之的是AI、LLM工程師,而像Colab Data Science Agent會不會在未來取代資料科學家(Data Scientist)原本應用面的工作,而原本資料科學家轉而專注在研究,想問Vincent的看法?
A : Vincent同意目前確實觀察到的現象確實是原本資料科學家(Data Scienctist)和資料分析師(Data Analyst)的需求正在快速緊縮,有些公司甚至都開始優化人力, 資料科學家(Data Scienctist)和資料分析師(Data Analyst)職涯發展天花板大概到35歲主管職、帶個小團隊, Vincent建議來是要回歸到自身有熱情的方面,如果是更想往技術方面深入,那建議往工程/AI應用發展,但如果是對喜歡業務與策略整合,那建議是往產品/商業分析可能是一個更適合的方向。
- 筆記手:Jason Wang
- 校稿:Vincent Chen、Joe Tsai
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!
https://www.facebook.com/groups/datasciencemeetup