2024 領航計畫已開放報名,請點擊後查看報名資訊
前往 Medium 閱讀好讀版

美國資料科學家職涯分享

Joey | Data Scientist (Ads Interface & Growth) @Pinterest & Ming Hao | Data Scientist @Amazon

活動主辦單位:Taiwan Data Science Meetup 台灣資料科學社群

摘要

本次講座邀請了在 Pinterest 擔任 Data Scientist 的 Joey 以及在 Amazon 擔任 Data Scientist 的 Ming-Hao 來討論資料科學家的日常工作任務、大小型公司對 Data Scientist 的定位和差異,以及找工作、面試技巧、內部晉升的經驗分享,講座內容主要分成 5 段:

  • Part 1 — 資料科學家日常工作任務
  • Part 2 — 不同公司對資料科學家的定位
  • Part 3 — 資料科學家的不同工作面向與工作內容
  • Part 4 — 講者視角中的公司文化
  • Part 5 — QA 精選

講者介紹

Joey 目前在 Pinterest 擔任 Data Scientist (Ads Interface & Growth),大學時唸經濟系,大三大四時發現對計量經濟有興趣,在 Texas 念了商業分析碩士,之後進到 Visa 擔任 Data Scientist。

Ming Hao 目前在 Amazon 擔任 Data Scientist,從電機系畢業,認為自己在寫程式及數學相對有優勢,又喜歡把程式及數學應用在金融領域,後來在 UCLA 念財務工程碩士,畢業後在當地的金融新創公司做 Data Scientist 做了大約 1年半左右。

Part 1 — 資料科學家日常工作任務

** Q1 — 請問兩位目前擔任資料科學家的日常工作任務、時間分配大致是什麼樣子?**

Joey

每天早上會先翻開行事曆、確定今日工作項目、昨天做了什麼、今天準備做了什麼通常來說比較傾向以下時間分配:

  • 早上 — Documentation, planning。
  • 下午 — Meeting, focus time — coding, dashboard。

每天下班前會整理今天做了什麼、明天準備做什麼,這樣和 manager 1 on 1 可以提供素材。

總體來說,約有 40% 時間在開會、30% 時間 coding、30% 時間做 dashboard。

Ming Hao

每天不太一樣,會議以每週來說會集中在週一和週二,所以比較傾向以週來做時間規劃:

週一、週二 — 和 PM , stakeholder 同步專案進度。

週三、週四、週五 — 取決於目前的專案階段,例如以下專案階段對應的工作項目:

  1. 資料盤點期 — 主要做資料盤點、哪些資料可以被使用、評估該資料在專案中可用性、通常發生在專案初期或專案未開始前。
  2. 模型研究期 — 主要研究哪些模型方法適合此專案、收斂至一兩個候選方法後才開始寫 code。
  3. 模型開發期 — 主要進行多次模型開發迭代、特徵開發迭代、增強模型成效、最後會和 PM 報告成效、寫文件。

** Q2 — 工作上的 Tech stack**

Joey

  • SQL — 拉資料、資料探索
  • Python — 模型開發
  • Airflow-like — 模型部署(公司的內部工具)

以重要性來說,SQL 可能是最重要的,不論從拉資料、資料探索、模型開發到部署,都有機會用到 SQL。

Ming Hao

  • SQL 拉資料
  • Python — 資料探索、模型開發
  • AWS SageMaker, AWS Tech Stack — 模型部署

Part 2 — 不同公司對資料科學家的定位

** Q3 — 兩位目前分別在 Amazon 與 Pinterest 擔任資料科學家,屬於大型跟中型的公司,先前也有在中型及 startup 的經驗,想請問兩位對於資料科學家這個職缺,在不同規模的公司裡面,定位分別有什麼不同?**

Ming Hao (Amazon)

Applied Scientist — 根據不同的單位會有不同的業務內容,進而產生不同的工作項目:

  • Alexa 部門 — 博士畢業、鑽研核心機器學習演算法。
  • Amazon Factory 部門 — 會著重在 optimization。

Data Scientist — 面向分析、將既有的模型應用到真實世界中,如果組內很幸運又有 Machine Learning Engineer,那 Data Scientist 就只要做模型開發,程式碼產品化則會交給 Machine Learning Engineer。

Machine Learning Engineer — 定位在軟體工程師、模型部署、產品化。

Joey(Pinterest, ex-Visa)

因為講者待過兩家公司, Visa 偏向大型公司,而 Pinterest 偏向中型公司,講者覺得對於 Data 相關職位的分類差不多,通常分為 Machine Learning Engineer, Research Scientist, Data Scientist。其實跟 Amazon 是有點像的,不過在 Visa 下有不同的部門,同樣職位做的事情可能也很不一樣。

Pinterest 雖然是中型公司,但行事風格也蠻像新創的, Joey 之前有機會碰到 Generative AI 的工作,公司也不會因為你是做廣告的,就不讓你做,文化上會更有彈性一些,也看自己願不願意做嘗試,例如 Data Scientist 想轉 Machine Learning Engineer 或是 Business Intelligence Engineer 其實都是可以互轉:

Visa — Engineering Department

  • Machine Learning Engineer — 把模型包起來,放到 production 上。
  • Research Scientist — phd,看很多 paper,針對不同的 use case 想優化方法。
  • Data Scientist — 跟 PM 很像,把實驗、模型和商業目標關聯在一起。

Visa — Customer Department

  • Data Scientist — 更偏向資料顧問,透過客戶的提供的資料以及公司內部的資料及 know-how 來提供資料解決方案,可能是 payment 方案,或是跟 Sales Team 合作去跟客戶提案。

Pinterest — Advertisement Department

  • Product Data Scientist — 做實驗設計、指標設計、A/B Testing、因果分析, Modeling 的工作比較少。

Part 3 — 資料科學家的不同工作面向與工作內容

** Q4 — 方便和我們大致介紹一下你們所在公司,做資料科學相關的職缺及工作內容有什麼不同嗎?**

Joey

先前在 Visa 做 Data Scientist 是隸屬於 Engineering 部門下,偏向在 Modeling 的工作。而在 Pinterest 屬於 AdTech Company (例如 Google, Meta, Snapchat) 都偏向做產品,以下展開說明:

  • Visa — 在 Visa 擔任 Data Scientist 非常講求有 production 的能力,就講者的經驗,整個 ML Lifecycle 中,建立一個模型並不是特別困難的事情,但 Problem Statement 則非常重要,Data Scientist 必須非常了解自己要解決什麼樣的問題,並且有對應的數據說明,將需解決的問題的影響量化,這可能才是整個專案中花最多時間的地方,接下來才是用 ML 方法來解決問題。
  • 對於常做模型的 Data Scientist 來說,講者認為較需要掌握的則是 Statistical Learning ,才會比較知道碰到什麼樣的資料,要用什麼樣的模型做出 Stakeholder 會滿意的結果,同時也強調 production 的能力,建完一個模型後,這個模型的預測是 realtime, daily or monthly ,大概要有個底,而跟合作的 Machine Learning Engineer 如何介接模型也可驗工程能力,講者的經驗是需要寫 Spark, Java 將模型程式碼上到 Production ,這是講者以前在經濟系的訓練所沒有的,這樣的工作內容,講者認為是非常吃重軟體工程經驗。
  • Pinterest — 在 Pinterest 擔任 Data Scientist 主要跟 PM 合作,職責則是根據公司需要來強化產品功能,工作範圍則從如何定義功能強化成功還失敗、事件埋點、資料取得、計算和資料轉換、驗證功能成效等,工作技能會偏向 A/B Testing 以及 Cacusal Inference,而 Machine Learning & Modeling 就會比較少。

Ming Hao

目前位於 Amazon 內部的 IT Support 部門,類似內部的 IT 客服部門,當員工電腦有問題,或是相關電腦配備有問題時,會找 IT Support。部門內有一項工作任務是讓需求者找到適合的維修者,就像是如果今天是 Iphone 送修,如果配對到的維修工程師是主攻 Mac,那最後可能解決不了問題,這種情況下必須媒合主攻 Iphone 的維修工程師,這個配對問題中, IT Support 企圖使用 Machine Learning 的方式做問題分類以及媒合,例如:

  • 一位員工發出請求,他大概是有什麼樣類型的設備問題
  • 對應的設備問題,應該配對到哪一個 Support Engineering Group?

如同 Joey 所說,當接到商業需求時,需要知道手邊有哪些可用資料,而在給定商業需求以及可用資料時,有哪些 algorithm 可以達成目標,根據這些 algorithm ,哪些可以做 fine tuning 哪些可以做 optimization,因此這份職位會需要工作者對 ML 的認識足夠廣泛,且認識新出現的模型,例如在推薦系統領域,一般的 Classification 可能比較難有好的效果,需要工作者對推薦系統常用的模型有一定的了解,才能夠在工作上較好的實作且解決問題。

模型完成後,也需要將模型上線,這部分就和 Machine Learning Engineer 或對應的軟體工程師有很深的合作,就不會僅限於讓程式碼活在 jupyter notebook , 這部分就需要吃重工作者的軟體工程經驗。

Part 4 — 講者視角中的公司文化

** Q5 — 公司文化分別是什麼樣呢?**

Ming Hao

要面試 Amazon 的面試者應該都知道 Amazon 有所謂的 14 條軍規 (現在應該是 16 條, Amazon Leadership Principles),內容有客戶至上、節儉、快速交付等等,這些軍規會形成公司文化:

  • 客戶至上 — 內部 stakeholder 都叫客戶,不是只有外部的使用者才叫做客戶,因此需求方不論是內部合作還是外部合作,都必須秉持客戶至上的精神,例如思考客戶沒說出的需求,以及丟出自己最好的解決方案等。
  • 充滿挑戰、壓力稍大 — 除了客戶至上之外,還有快速交付,這些文化會影響考績如何評定。

此外 Amazon 不同組別之間的文化與Tech Stack 有很大的差別,像是亞馬遜叢林的不同部落,這也會影響到組織文化,所以講者的描述僅供參考,不代表整體 Amazon 的文化走向。

Joey (ex-Visa, Pinterest)

  • Visa — 充滿挑戰,主要是因為公司規模較大,工作者本身比較像是公司的小齒輪,但管理者的 KPI 會直接影響到工作項目。
  • Pinterest — 公司規模沒有 Visa 大,文化上偏向新創公司,不太會 push 工作者要達成什麼樣的 KPI ,也尊重每個工作者之間的合作模式。以講者過去的經驗來看, Data Scientist 在公司內部是稀缺資源,所以話語權較高,對談的對象幾乎都是 Manager 等級,所以在內部會感覺到,自己做出來的成果,可以被公司中高層看到,也會影響決策,有相當的成就感。

Q6 — 兩位目前所在的公司以及先前的經歷,包含幾個不同類型的產業及領域,有做廣告與內部客服,以及支付領域,想請問不同的領域是否需要不同的技能、背景與經歷,怎麼樣的人會是加分的?

Ming Hao

  • 關於面試技巧,講者自己認為最有幫助的是 — 嘗試自己當一次面試官,可以找同學或是學弟妹幫忙,演練時可以體會到在面試桌的另一邊,也是會緊張的,就算是面試官也不會知道所有的事情,雖然有些題目有標準化答案的就沒辦法,但自己體驗過面試官過後,之後面試起來就比較能感同身受面試官的想法,也能夠比較輕鬆的將面試過程轉換成和一位朋友在討論事情。
  • 如果回到學生時期,覺得最有幫助的事情,講者認為會是多看各大科技公司的 Tech Blog,以及社群 Meetup,這些文章以及社群講座中,突嘗試有實際工作經驗的人的分享,講者認為透過此過程,能夠認知到,”知道自己不知道什麼”,從 ”不知道自己不知道什麼” → “知道自己不知道什麼” ,後續對職涯學習上有絕對的幫助,可以定位該學的內容為何,比方說如果想當 Data Scientist,要做一個偏向產品分析的 Data Scientist,還是偏向 Modeling 的 Data Scientist,各自又開學習什麼,反之,如果不確定該學習什麼,會以為作為一個 Data Scientist,好像要有 phd,會 A/B Testing,會 Modeling,會 Statistics,這會讓人感到相當的恐慌。

Joey

  • 一部分是創造英文的交談環境 — 如果是準備國外的面試,多多使用英文,創造使用英文的環境也相當重要,過去覺得自己面試時的表達使用英文可能不及使用中文的 50% , 也不一定要是面試的場合,日常場合也行。
  • 另一部分則是眼界的拓展 — 如同 Ming Hao 所說多看產業上大家在做什麼 → 從不知道自己不知道什麼 → 知道自己不知道什麼,比如 Joey 自己面試人的經驗,如果知道面試者知道 Facebook Tech blog 關於 Language Model / Recommendation System 有什麼突破,這會讓面試官眼睛為之一亮,而實際上工作卡關時,也都會上 medium 找答案,這是為什麼如果發現面試者會逛各大科技公司的 blog 如此加分的原因。

Part 5 — 精選 QA

** Q1. 想請問兩家公司的 ML platform 是否成熟,會不會有很多 scalability and stability 的 issue? 遇到時通常如何處理?**

Ming Hao

Amazon 有對外發布的 ML Platform,所以整體來說算是成熟,真的遇到問題時,內部會有工程師解說目前極限。

Joey

Pinterest 的 ML Platform scalability 沒有問題,但 stability 有點問題,有時候不知道發生什麼事,要自己找為什麼壞掉了,要跟 stakeholder 做溝通,說目前產品端的工程有問題。

** Q2. 最近開始寫數據分析相關的作品集 想請問 1、整體專案的data overview 需要寫的內容會是什麼樣的呈現方式比較合適呢?(SQL畫面➕關聯性建立結果?)還是強調 features & entries 數量? 2、內容著重在呈現的成果為重?還是分析過程的問題解決?**

(共同說明) 取決誰會看你的結果:

  • High level 管理層,如 C Level (CEO, CTO, CXX) — 不講細節,只說明 Impact。
  • 放在履歷上或者主管職 — 分析過程、 選題邏輯,特徵分類、選特徵的邏輯,如何從 baseline 一路往上改善準確度效能。

** Q3. 想詢問零售業 Data Analyst or Business Analyst 履歷著重的能力 (過去有零售管理背景/目前自營 ig 商店),且目前有的硬實力是 Python、SQL、Tableau 有推薦增加軟實力與商業思維能力的管道嗎?**

Podcast

  1. 商業分析眨眨眼
  2. How I Built This with Guy Raz (訪談創業家創業歷程)

Medium / Blog

1. How would you measure the success of Facebook Stories?

2. Cracking the Facebook Data Scientist Interview — Part 1

3. Stellar Peer (以前好像是免費的資源)

4. Netflix Techblog

5. Spotify Research Techblog

6. Uber Techblog

** Q4. 如果不懂模型本身就直接應用會有什麼潛在問題嗎(ex: 每次都暴力使用 xgboost),然後預測指標如果都不錯的話(ex: F1 score, AUC),是不是影響沒那麼大?**

和專案目的有關,有些專案是 insights 重要,可解釋性就很重要,例如對應到財務部門,準確度則未必。

** Q5. 想問一下生成式 AI 的發展,對資料科學家、資料分析師這類的職務影響大嗎**

Joey

在 Pinterest 目前不會用到,但公司內部開始思考如何利用生成式 AI。

Ming Hao

工作中已經在使用 ChatGPT,減少了 google 的時間,消化知識、吸收知識的時間變得更短了,害怕被該東西取代就去學習他,過去當 excel 出現時,會計師並沒有因此失業,多嘗試新出現的工具,其實會讓自記得工作效率更好。

** Q6. 請問一個庸俗的問題 Data Scientist 全 remote, hybrid 或全 on site 會影響薪資高低或者員工福利嗎?**

(共同回覆) 所有職位都會這樣,remote 會根據所在的地區的薪資水平來配薪水

** Q6.2 Follow-up — remote 在升遷上潛在的影響 畢竟在公司內部的互動變少**

看公司,在 Pinterest 的 remotion 有比較完整的管道,所以其實覺得沒差。

** Q7. 在美國或你們所在的公司裡,會有 work life balance 嗎**

Joey

Pinterest — 文化重視 work-life balance ,每次和主管 1 on 1 都在討論最近會不會很忙,需不需要休假XD。

Ming Hao

Amazon — 看組別,且 Amazon 有 PIP 壓力, work 會有比較重的壓力,但上手後就取決於自己,想不想要更快速地升職。

筆手 : Joe Tsai

校稿:Ting Yu, Joey, Ming-Hao
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!

資料科學協會

資料科學協會

社群分享筆記 更新紀錄

Copyright 2020-2024 資料科學協會 All Rights Reserved.

本網站由 資料科學協會 維護