編者按:在日常工作中,數(shù)據(jù)可視化是數(shù)據(jù)科學(xué)家不可或缺的一個(gè)“好幫手”。它能以圖像的形式生動(dòng)有趣地把數(shù)據(jù)信息有效傳遞給他人,是人與人、部門與部門之間高效溝通交流的工具。但是,這些作用也決定了它必須兼具美學(xué)和統(tǒng)計(jì)功能:太繁則華而不實(shí);太簡(jiǎn)則晦澀難懂。如何把握設(shè)計(jì)與功能之間的平衡,創(chuàng)建出簡(jiǎn)潔直觀的可視化圖像?這是個(gè)連行業(yè)老人都感到頭疼的問(wèn)題。
本文來(lái)自資深統(tǒng)計(jì)學(xué)家Nathan Yau,他向我們展示了如何基于目標(biāo)問(wèn)題,為同一個(gè)數(shù)據(jù)集設(shè)計(jì)14種不同的可視化圖像。
不久前,我寫了一篇關(guān)于如何構(gòu)建動(dòng)態(tài)金字塔圖表的教程。寫完文章后,我偶然看到了一張金字塔圖,制圖人Lisa Charlotte Rost根據(jù)當(dāng)前德國(guó)各年齡段男性、女性人數(shù),用兩個(gè)完全不同的圖表展示了社會(huì)兩性人口分布和社會(huì)兩性人數(shù)在未來(lái)的變化趨勢(shì)。
同一個(gè)數(shù)據(jù)集,不同的焦點(diǎn)。我覺(jué)得這很有趣,于是做了一版美國(guó)版的動(dòng)態(tài)金字塔圖:
如上圖所示,這幅可視化關(guān)注的是2015-2060年間各年齡段男性、女性人口的分布情況。
而這是用相同數(shù)據(jù)繪制的第二幅可視化圖表,可以發(fā)現(xiàn),雖然它仍關(guān)注在具體某個(gè)年齡段是男性多還是女性多,但它能反映整個(gè)年齡段的總?cè)丝谮厔?shì),這個(gè)信息是第一幅圖欠缺的。
那么,哪幅圖更好呢?
答案取決于你想知道什么。如果你只想知道是男性多還是女性多,那么第一幅圖更直觀;但是,如果你想知道總?cè)丝诘淖兓闆r,而不是男女人數(shù)差異大小,第二幅圖更合適。
這個(gè)例子告訴我們,在可視化數(shù)據(jù)之前,多問(wèn)問(wèn)自己可視化的目的會(huì)幫我們更好地選擇圖表。可視化圖像不應(yīng)該只是一堆漫無(wú)目的、沒(méi)有重點(diǎn)的圖形,我們不一定要在上面呈現(xiàn)翔實(shí)的數(shù)據(jù)——盡管它們對(duì)分析和探索很有用,但必須明確闡釋數(shù)據(jù)之間的密切聯(lián)系,這是數(shù)據(jù)演示的意義所在。
接下來(lái),就讓我們?nèi)砸陨鲜雒绹?guó)人口數(shù)據(jù)集為例,看看可視化在實(shí)踐中是如何運(yùn)作的。
首先,這里有一個(gè)數(shù)據(jù)樣本:
Year Age Gender Projected.Population
2014 0 Female 1939928
2014 0 Male 2031919
2014 1 Female 1933019
2014 1 Male 2024845
2014 2 Female 1941924
2014 2 Male 2030157
...
數(shù)據(jù)集地址:wonder.cdc.gov/
已知數(shù)據(jù)集來(lái)源可靠,里面的所有內(nèi)容都由美國(guó)衛(wèi)生與人類服務(wù)部提供。數(shù)據(jù)集中共4個(gè)特征:年份、居民年齡、居民性別和預(yù)計(jì)人口。其中年份的范圍是2014-2060,居民年齡分布在0至100以上之間,性別分為男性/女性,預(yù)計(jì)人口在9000到270萬(wàn)之間。
針對(duì)以上信息,現(xiàn)在我們可以提出一些問(wèn)題并實(shí)現(xiàn)相應(yīng)可視化。
這個(gè)數(shù)據(jù)集大致反映了什么?
如果可視化的目標(biāo)是解答這個(gè)問(wèn)題,動(dòng)態(tài)金字塔圖能提供對(duì)整個(gè)數(shù)據(jù)集的整體反饋。如下圖所示,隨著人口年齡的增長(zhǎng),圖中色塊會(huì)往縱向不斷延伸;隨著人口總數(shù)的增加,圖中色塊會(huì)橫向變寬。圖中展示的內(nèi)容已經(jīng)足以概括數(shù)據(jù)集,如果實(shí)在要跳錯(cuò),它確實(shí)有一個(gè)小問(wèn)題,就是沒(méi)有直觀展示兩性人口數(shù)的對(duì)比情況。
和現(xiàn)在相比,2060年一共有多少人?
如果你只關(guān)心總?cè)丝诙皇悄挲g、性別,一個(gè)簡(jiǎn)單的條形圖就足夠了。
或者,你也可以把它總結(jié)為一句話:從2018年至2060年,人口預(yù)計(jì)將增長(zhǎng)26.5%。
男多女少or女多男少?
對(duì)于這個(gè)問(wèn)題,其實(shí)我們可以用文首的動(dòng)態(tài)金字塔圖來(lái)解釋。但它的不足之處是多了一個(gè)年齡維度,這就使看圖的人只能對(duì)比每個(gè)年齡段的男女人口,而沒(méi)法直接看出兩性的總?cè)丝诓罹啵ㄒ烙?jì)曲線下方的區(qū)域)。
因此,為了解決這個(gè)問(wèn)題,我們可以用最基礎(chǔ)的可視化圖像之一——折線圖,一條表示女性,一條表示男性,上方曲線人多,下方曲線人少。如下圖所示,在未來(lái)幾十年內(nèi),美國(guó)將繼續(xù)維持女多男少的局面。
如果想表現(xiàn)男性和女性人數(shù)之間的差距將隨著時(shí)間推移而減少,你可以在兩條線之間補(bǔ)充一些垂線,更直觀地表現(xiàn)趨勢(shì):
你也可以把人口差算出來(lái),繪制人數(shù)差距圖:
如果不想用折線圖,連接的散點(diǎn)圖也是一種比較男性和女性人口隨時(shí)間變化的方法:
如上圖所示,左上區(qū)域表示女性人數(shù),又下區(qū)域表示男性人數(shù),中間的黑色虛線表示兩性人數(shù)相等的狀態(tài)。由于美國(guó)女多男少,表示實(shí)際人口的藍(lán)色散點(diǎn)線目前在女性一側(cè),但隨著時(shí)間推移,藍(lán)線會(huì)不斷向?qū)蔷€靠近,表示人數(shù)差距將越來(lái)越小。
如何比較男性和女性的年齡分布?
一般情況下,如果要顯示某一時(shí)間點(diǎn)某區(qū)域的男女比例和年齡構(gòu)成,人口金字塔是所有可視化圖像中的首選。之前我們展示了一幅動(dòng)態(tài)金字塔圖,它的優(yōu)點(diǎn)是能體現(xiàn)總?cè)藬?shù)變化和年齡分布趨勢(shì),但考慮到這里我們的目標(biāo)是比較男女年齡分布,鏡像圖結(jié)構(gòu)不夠直觀,動(dòng)態(tài)變化也會(huì)為對(duì)比帶來(lái)麻煩,所以靜態(tài)人口金字塔圖更合適。
一種方法是把男女圖像排列一側(cè),直接上下對(duì)比:
另一種方法是重疊圖表進(jìn)行強(qiáng)制比較。無(wú)論選擇什么樣的展示方法,直觀簡(jiǎn)介始終是第一位的。
每年增加多少人口?
人口增長(zhǎng)率是一種常見(jiàn)可視化對(duì)象,對(duì)于一個(gè)國(guó)家而言,人口增長(zhǎng)的速度肯定不是一成不變的,我們可以計(jì)算人口的同比增長(zhǎng)變化,更合理地反映社會(huì)情況:
除了增速,人口的實(shí)際增長(zhǎng)量也是人們感興趣的點(diǎn),我們可以用下面的圖可視化每年的絕對(duì)增長(zhǎng)量:
每個(gè)年齡的預(yù)計(jì)變化是多少?
如果你感興趣的目標(biāo)是年齡,我們也可以統(tǒng)計(jì)每個(gè)年齡的人口數(shù)變化范圍,如下圖所示,線段越長(zhǎng),人口增長(zhǎng)地越多:
那么全國(guó)哪個(gè)年齡的人數(shù)最多呢?下面的圖能給我們答案:
到目前為止,我們應(yīng)該已經(jīng)看出不同問(wèn)題對(duì)具體可視化方法的巨大影響了。這給了我們一些啟發(fā):
拿到數(shù)據(jù)集時(shí),原問(wèn)題只是一個(gè)開(kāi)始,它可能會(huì)帶來(lái)更多問(wèn)題
問(wèn)題提供了關(guān)注焦點(diǎn),因?yàn)閳D形是對(duì)特定問(wèn)題的解答
要過(guò)濾一切不需要呈現(xiàn)的內(nèi)容
-
可視化
+關(guān)注
關(guān)注
1文章
1203瀏覽量
21040 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24848
原文標(biāo)題:數(shù)據(jù)可視化技巧:提出問(wèn)題,描繪答案
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論