彭其捷 Jack,交大資管所畢業,至今出版十本 IT 相關專書,主要著重於數據分析、資料視覺化、UI/UX 等議題。其中撰寫「大數據時代必學的超吸睛視覺化工具與技術:Excel+Tableau成功晉升資料分析師」以及同系列的「Tableau打造30個經典數據圖表」,皆為數據領域暢銷書。
講者課程資源
文中節錄講者簡報部分內容(點此下載完整簡報),FB 直播(點此觀看)
講者觀察在中文世界裡,「利用 ChatGPT 產出程式碼,將資料做視覺化呈現」這類分享很多,但講者認為資料視覺化不只有程式碼, 如何利用 ChatGPT 協助產出「良好的」資訊視覺化成果? 是今天講座主要回答的命題。
講者分享了 4 個定義「良好的」視覺化資訊的面向,並且利用 12 個提問,探索人與 ChatGPT 如何在這 4 個面向上合作,更有效率地產出視覺化資訊。
講者在開場拋出一個題目與聽眾互動,這個題目用到的資料筆數根表格內容比較簡單,因此大多聽眾會回覆使用1. Excel/Google Sheet。但當資料量變更大、或是資料維度更複雜,大家會選用的工具就會不同,而上述提及的主流工具,ChatGPT 已經可以在部分流程上當作輔助工具使用。
ChatGPT 會被質疑使用過去的資料進行訓練,是否能適用於真實使用情境?免費版本的 ChatGPT 的確無法讀取外部資料,但講者分享付費版本的 ChatGPT 是可以讀取外部資料(講者直接輸入 Google Sheet 網址)再搭配合適的 Plugin,就可以依照外部的資料進行資料處理。(講者分享當下為 2023 年 6 月,ChatGPT 讀取外部資料仍不太穩定,需要多嘗試幾次才能成功)
如果讀取外部連結行不通,也可以直接輸入資料集,下 Prompt 要求 ChatGPT 直接產生圖表。但講者也提醒,如果請 ChatGPT 生成描述性統計資訊,ChatGPT 3.5 版本給出的結果可能會有錯,因為 3.5 版本是使用歷史資料去預測字與字之間該怎麼接續,但 4.0 版本搭配 Plugin,是真的去跑計算模型,提供的結果正確性較高。
講者接著再拋出一個題目,請大家評斷 ChatGPT 產出的視覺化資料好或不好?聽眾回應以「不好」為主。講者藉此帶出今分享的重點:我們如何評估一個資料視覺化的好壞?
講者引用一位英國記者 David McCandless 提出的結構:一個好的資料視覺化可分成4件事
講者認為不是每個視覺化圖表都需要滿足 4 個條件才叫成功,仍需回到資訊化圖表的目的,舉例:當你需要的是 Eye Candy 的圖表,那這個圖表只要符合有資料與訊息、視覺元素即可,即使沒有資料故事也可以是一個成功的視覺化圖表。
講者分享了幾個例子,讓聽眾熟悉這 4 個判斷條件,當然每個人對於每個圖表是否符合 4 個條件也會有各自的見解,這個框架比較是提供討論的工具,講者認為不需要爭對與錯。
Q1:可以幫忙提供資料來源嗎? YES
講者提醒 ChatGPT 提供的網址與內容還是需要確認,有可能提供 10 個網址,會有部分對部分錯,有句話說:最可怕的假資料是部分真、部分假。所以講者建議還是要檢查過,但 ChatGPT 的優勢就是能有效率的聚焦在可能的答案上,無論是找 Open Data 或是找指標,ChatGPT 都可以輔助。
講者分享幾個實用的 Prompt,像是:「可否提供一個適合進行資料視覺化練習的資料集,且具備多種資料欄位的類型?」
ChatGPT 就回覆一個經典的資料集:「Iris」,並且提出可以怎麼分析或將這個資料集視覺化。
Q2:可以幫忙生成資料嗎? YES
講者在準備資料面向的教學,會使用 ChatGPT 生成範例資料。接續第三題,講者也示範如何使用 ChatGPT 生成需要清洗的資料集。
Q3:可以幫忙清洗資料嗎? Y…ES
ChatGPT 是有能力可以列出從外部匯入的資料是否有存在缺失?或是有特殊符號?講者還測試過年齡欄位填入 120 歲,ChatGPT 也有能力指出一般人類的年齡不太會超過120歲,所以那個資料可能是錯的。
「請協助分析資料有什麼錯誤格式,並且直接進行修正」這個情境下 ChatGPT 是可以完成任務的。
但對於事實查核部分,講者認為還有待考驗,因為 ChatGPT 本身就可能吐出假資料,這個是在使用上需要特別小心的。
Q1:可以協助選擇視覺化技能? YES
講者分享可以請 ChatGPT 列出視覺化軟體跟網站技術,也可以再描述你要完成的工具,詢問 ChatGPT 適不適合?
另外也可以使用 ChatGPT 詢問不同硬體環境下適用的工具,舉例 ChatGPT 可以回答 PowerBI 目前無法在 Mac 電腦上做使用,這個回答是正確的。
講者也分享自己在教學上,會將資料視覺化工具切分兩個面向:
Q2:可以幫忙生成資料視覺化圖表? YES
講者簡報中有分享一篇文章,將 GatGPT 橋接到colab(google所出的雲端執行python環境),程式碼完全由 GatGPT 產出,包含修正 Bug。
講者也曾測試過,請 GatGPT 將圖表轉換成烏克蘭國旗風格,GatGPT會處理色碼的挑選並且提供完整的程式碼,推薦大家可以玩玩看。
Q3:協助培養資料視覺化美感? Y…ES
由於 ChatGPT 提供的建議有限,講者不認為可以得到立即幫助,因此分享了一些書單:
這些書比較是概念書,而講者寫的書比較是實作面,另外講者也分享最近在玩的線上工具: Canva,如果對自己視覺美感沒有什麼信心,而處理的資料量大小在 Canva 可接受的大小,就可以利用 Canva 提供的模板產出漂亮的圖表。
Q1:幫忙了解圖表有哪些常見類別? YES
講者分享可問的Prompt:「資料視覺化圖表,有哪些常見功能與目的呢?」,就可以得到滿基本的建議,如果針對特殊目的,也可以再詳述追問。
講者也分享圖表常見的核心目的會分成:比較、關聯、分佈、組成,並且可以使用 datavizcatalogue 網站,依照目的篩選出合適的圖表呈現方式
Q2:幫忙挑選圖表? YES
講者提醒不建議把工作上機敏資料匯入 ChatGPT,但可以用一個抽象範例詢問要使用哪種圖表,舉例:成本跟收入要怎麼呈現?
另外在挑選圖表上,講者認為跟圖表目的與溝通對象有關。閱讀圖表的人可能是:高階主管、工程師、普羅大眾、記者…等;而目的性舉例還說,日常大眾常見的圖表類型不一定適用於學術研究上。
Q3:幫忙釐清有哪些對象呢? YES
講者除了分享 ChatGPT 的回答範例之外,也分享講者自己會把閱聽者大致分成三類,分別需要的看到的圖表類型也會不同:
舉例同樣是政府預算的資料,分析者會希望用表格看得更細,但決策者會希望看到摘要,而大眾會需要互動性較高的圖表,跟自己有相關性才願意觀看。
Q1:如何請 ChatGPT 幫忙生成資料故事?
資料故事之所以重要,是因為人看完圖表後,還是會想看故事,想知道脈絡,但如果只有故事又會想要看圖表知道細節,因此在資料視覺化中,圖表與資料故事都很重要,而講者認為 ChatGPT 對生成資料故事的輔助是最強的。
過去需要寫成資料故事視需要花很多時間爬梳資料,而使用 ChatGPT 可以提升生成資料故事的效率。講者示範將11年監察院的政治獻金資料提供給 ChatGPT, ChatGPT 可以在幾秒鐘的時間裡快速進行摘要,如果對結果不滿意,可以請 ChatGPT 再生成一版資料故事。
這就是個人與 ChatGPT 合作的範例,ChatGPT 的優勢是可以短時間提供多個產出結果,讓人類可以挑選適合的內容使用。講者也特別提醒,ChatGPT 提供的結果是故事而不是事實,在引用上還是需要人類做最終的判斷。
Q2:可以加入故事風格的指定嗎? YES
講者分享 ChatGPT 提供的第一版產出比較像新聞稿,因此講者嘗試了下不同的 Prompt:「溫馨版本」、「民間監督版本」,就可以獲得不同故事風格的產出。
Q3:可以幫忙發想行動(CTA)嗎? YES
很多的資料視覺化之所以會成功,是因為它有很明確的呼叫大家做什麼事情。而 ChatGPT 也確實有能力生出 Call to Action,只要在指令上增加:生成重要的 Call to Action。
資料視覺化可以聊的東西很多,講者挑選的主題是:人類對高品質視覺化的期待,ChatGPT 是否能達成?
ChatGPT 直接生成的圖表是無法達到的,但人與 ChatGPT 可以在 4 個面向協作,獲得更高品質的視覺化資料,而講者也分享了一個資料分析 Prompt 共編計畫,歡迎大家可以加入貢獻。
Q 1:是否可以請 ChatGPT 清洗資料?是可以的,你要請他比如說把空值補上虛擬值
A1:可以。假如丟了一個需要資料清洗的資料給 ChatGPT,它會直接列舉出資料當中的一些問題。 你再加上明確的 Action Sentences,例如:請協助修正負值為正值,重新產生表格,多半都可以得到不錯的結果
Q 2:是否可以請 Jack 分享地理資訊可用的資訊圖表?
A2:我覺得台灣這邊,目前我就是看市場上完全沒有人寫,所以我寫了一本書:地圖視覺化,裡面超級多地圖的,如果你有興趣可以參考。
Q 3:用英文或中文問 ChatGPT 比較好?
A3:我覺得英文應該是比較準,因為英文的文本比中文多很多,然後簡體中文比繁體中文又再多很多。雖然繁體中文相對比較少,可是依然是超級爆多的文本,去訓練出來的模型,還是可以去試試看。
Q 4:請問有試過比較 Google Bard 跟 ChatGPT 處理資料的實用性嗎?
A4:Google Bard 目前還不支援中文,所以我現在對他還沒有到很熟悉,所以我也不會亂講。但謝謝你的提問,我好像可以試試試看:用 Microsoft, Bard, ChatGPT 這 3 款最主流的大型語言模型,比較他們處理資料的能力,可以作為下一次的分享。
Photo by Mojahid Mottakin on Unsplash
Q 5:Call to Action的指令會是正確的嗎?
A5:Call to Action 的指令很多不是正確的,可是因為 ChatGPT 刷新答案的速度一秒就可以產生一個,所以我覺得有點是人類大腦跟機器大腦的搭配,機器大腦可以快速的一兩秒就生成一個新的 Call to Action,然後人類大腦再快速篩選出適合現在工作脈絡的 Call to Action。相較於請人類助理,請助理給參考的 Call to Action 會需要花滿多時間的。
Q 6:請問可以餵入視覺畫圖表,請 ChatGPT 優化該圖表嗎?
A6:目前 ChatGPT 只能輸入文字,未來應該可以,如果有有線上高手們覺得可以的話,歡迎補充。但就我了解,ChatGPT 現在接受的 Input 大部分是文字,但因為 ChatGPT 更新版本可以開始看圖片,未來可以試試看。
Q 7:如何培養說故事能力?
A7:可以參考質化分析,像是田野調查,你也可以去搜尋:厚數據。數據通常會講大數據跟厚數據,我覺得偏理工的人比較多培養大數據的能力,比較少培養這種說故事的能力,但是我覺得在數據分析的視角,這兩者還蠻並重的
Photo by Maegan Martin on Unsplash
Q 8:實驗室要求做一些觀察圖幫助溝通,該如何進行?
A8:這一題有點大,因為每個人溝通對象的個性不一樣,要講到對方的好球帶難度還蠻高的。我這邊分享自己的作法,你可以參考看看。
假設我要挑一個東西來分享,我會先問對方想聽的答案,就是不會直接給答案,因為數據分析的分析點展開會好多面向,你腦中的好球帶,跟老師的好球帶,常常不在同一個好球帶上,你們就會有點沒有對接好。
所以通常我會先問聽者期待的是什麼?
Photo by Volodymyr Hryshchenko on Unsplash
Q 9:什麼樣是好的資料故事圖表?
A9: 這題我覺得沒有標準答案。我覺得好的資料庫圖表,除了圖表本身之外,會需要有能力去解釋細部脈絡,包括一個好的大標題、副標題,還有這張圖表上的重點的 Conflict,就是有一些衝突點,為什麼這個圖表這麼重要?衝突點之外,最好還可以再加上一個 Call to Action。
就是因為這個衝突點,我建議可以再多做一點投資、我建議可以在下一點廣告、我建議這個研究已經成功突破全世界的某一個門檻值了…等等。
圖表不一定只有圖,我覺得圖文是需要並茂的,如果先呈現文字就會讓閱讀者很累,所以資訊階層的設計也還蠻重要。
筆記手:盧姵吟 Lavina Lu
校稿:彭其捷 Jack、曾鈺婷
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!