数据可视化 | vis.zone

适用范围 / 分析师

热图是一种数据可视化类型,其中包含在矩阵中的各个值通过不同的颜色显示。术语“热点图”最初是由软件设计师Cormac Kinney在1991年引入的,用来描述2D显示,描述实时金融市场信息,尽管类似的可视化已经存在了一个多世纪。
热图可用于可视化多个变量之间的方差,以显示相关模式
分形映射和树形映射通常都使用相似的颜色编码系统来表示层次结构中变量所取的值。这个词也被用来表示它的主题应用,如科洛普斯地图。
许多人还错误地将热图称为大合唱地图,因为“地图”这个词具有误导性。但是,热图在地理边界内包括不同的阴影或图案,以显示感兴趣变量的比例,而热图的着色并不对应于地理边界。

热图

点图或点图是由以相当简单的比例绘制的数据点组成的统计图,通常使用填充的圆圈。点图有两个常见版本。第一种是由利兰·威尔金森(Leland Wilkinson)描述的,它是一种在手绘(前计算机时代)图表中用来描述分布的图表。另一个版本被威廉·克利夫兰描述为条形图的替代品,条形图中的点被用来描述与分类变量相关的量化值(例如计数)。

点图

直方图是将数字数据分组到存储箱中的图表,将存储箱显示为分段的列。它们被用来描述数据集的分布:值落入范围的频率。直方图最早是由卡尔·皮尔森(Karl Pearson)引入的。
要构建直方图,第一步是将值范围装箱,然后计算每个区间有多少值。绘制的矩形的高度与计数成正比,宽度与箱体大小相等,因此矩形彼此邻接。

直方图

迷你图是一个小的、强烈的、简单的、文字大小的图形,具有排版分辨率。迷你图意味着图形不再是带有标题和方框的卡通特殊场合,而是迷你图可以出现在单词或数字的任何地方:嵌入到句子、表格、标题、地图、电子表格和图形中。数据图形应具有排版的分辨率。(爱德华·塔夫特,美丽的证据,46-63。)

迷你线条

小提琴曲线图是绘制数字数据的一种方法。这是一个箱形图,两边各有一个旋转的内核密度图。小提琴图与盒图类似,不同之处在于它们还显示了不同值下数据的概率密度。通常,小提琴曲线图将包括一个用于数据中值的标记和一个指示四分位数范围的框,就像在标准的框图中一样。

小提琴图

将数据的分布与普通直方图的理论分布进行比较可能非常困难,因为较小的频率由较大的频率主导,很难感知直方图条和曲线之间的差异模式。因此,约翰·图基在1971年推出了吊根图(又称图基吊根图),以解决这些问题。在这种可视化中,通过“悬挂”理论曲线上的观测结果可以更容易地进行比较,这样就可以通过与水平轴的比较而不是与倾斜曲线的比较来看到差异。正如在根图中一样,垂直轴被缩放到频率的平方根,以便引起人们对分布尾部的差异的注意。
他说:
它是直方图和帕累托图概念的变体,它以一种简单的方式将观测和预测结合在一起,其中折线图显示数据在不断变化。

悬根图

泡沫图表是一种显示三维数据的图表。每个实体及其关联数据的三元组(v1,v2,v3)被绘制为一个磁盘,该磁盘通过磁盘的xy位置表示两个vi值,并通过其大小表示第三个vi值。泡沫图表可以促进对社会、经济、医学和其他科学关系的理解。泡沫图表可以被认为是散点图的变体,在散点图中,数据点被气泡取代。

散点气泡图

甘特图是一种条形图,它将各种类别可视化成时间序列。甘特图以时间段为单位说明开始和结束时间。
在项目管理中,甘特图通常被用作显示与时间同步显示的活动(任务或事件)的最流行和最有用的方式之一。图表左侧是活动列表,顶部是合适的时间刻度。每个活动由条形图表示;条形图的位置和长度反映了活动的开始日期、持续时间和结束日期。
与列范围类似,只是指示时间不同。

甘特图

堆积面积图类似于简单面积图,但此处使用多个数据系列,这些数据系列从上一个系列留下的点开始每个点。它对于比较在间隔内变化的多个变量很有用。

堆叠面积图

在描述性统计中,盒图是一种方便的方式,可以通过四分位数以图形方式描述一组数字数据。框图显示中位数、高/低四分位数和最大/最小值。*异常值可以绘制为单个点,框的不同部分之间的间距表示数据中的离散度(Swide)和偏斜度,并显示异常值。框图可以水平绘制,也可以垂直绘制。
小提琴曲线图与盒子曲线图相似,不同之处在于它们还显示了数据在不同值的平均概率密度。

箱线图

瀑布图有助于理解顺序引入的正值或负值的累积效应。瀑布图也被称为飞砖图或马里奥图,因为柱子(砖)明显悬浮在半空中。通常用于了解一系列中间正值或负值对初始值的影响。
不要与可能命名的瀑布情节混淆。

瀑布图

趋势线是在轴心高点上方或轴心低点下方绘制的一条线,用来显示某事的大致进程或趋势。趋势线是任何时间范围内支撑位和阻力位的直观表示。

趋势线

多级饼图是一种特殊类型的图表,允许您在合并的饼状结构中显示对称/不对称的树结构。
虽然类似,但不应将多级碎片图与多级甜甜圈图混淆,因为它不包含连接的层次和树结构,而只显示独立的甜甜圈环以供比较。

多级饼图

连接图用于结合地理数据显示网络。它可用于可视化航班转机、导入/导出或迁移流程,以及不同地点之间的任何类型的连接。通过将粗细、颜色或图案组合到线条或添加其他类型的可视化效果(例如,条形图或点图),您可以向连接地图添加数值。它与流程图相关,但在连接之间不显示任何量化值。

连接映射

饼图地图是饼图数据可视化和地图的简单组合。它被用来以一种简单的方式可视化位置和数值比例。有时你会看到饼图、地图和泡沫的组合。其中饼图圆圈的大小允许可视化多一个维度。

饼图地图

树形图将分层(树形结构)数据显示为一组嵌套矩形。树的每个分支都被赋予一个矩形,然后用表示子分支的较小矩形来平铺该矩形。叶节点的矩形具有与数据上的指定维度成比例的面积。通常,叶节点会着色以显示数据的单独维度。

树状图

点密度地图是一种地图类型,它使用点或其他符号来显示要素或现象的存在。
在点密度图中,点较多的区域表示所选场的值高度集中,而点较少的区域表示浓度较低。
点密度图上的每个点既可以表示现象的一次记录(一对一),也可以表示给定数量的现象(一对多)。

点密度地图

使用三维条形图或直方图绘制多个数据集非常有用。多系列三维条形图可用于具有3个变量(x,y,z)的数据集。
如果演示文稿太拥挤,通常会降低演示文稿的清晰度。

三维条形图

地图可以扭曲地理区域的形状,以便该区域直接对数据变量进行编码。一个常见的例子是根据人口或GDP的比例重新绘制世界上每个国家的规模。可以通过操纵初始贴图的圆形、正方形或扭曲的贴图来完成。
主要用于可视化与国家、地区或州相关的数据,例如选举、人口或收入中的选票。

统计图

堆叠有序面积图适用于显示等级变化。当您想要显示顺序随时间的变化时,请使用它,而不是简单的堆叠面积图。内部类别通过横跨各列的带状连接在一起,以帮助您直观地查看各列之间的排名变化情况。
一种类似的可视化类型是排序流图

堆叠面积图

泡沫时间轴是一种在时间轴上显示一组事件或项目的方式,时间轴上的变量显示为气泡的弧大小。本质上,泡沫时间轴是一种复合的数据可视化,由缩放的时间轴和比例面积图组成。

气泡时间轴

平行坐标是可视化高维几何和分析多变量数据的常用方法。这种可视化与时间序列可视化密切相关,只是它应用于轴不对应于时间点的数据,因此没有自然顺序。因此,不同的轴排列可能是您感兴趣的。

平行坐标

人口金字塔,又称年龄金字塔或年龄图,是一种图形化的图示,显示了人口中各个年龄段的分布,当人口增长时,人口金字塔的形状就形成了金字塔的形状。在生态学中,它也被用来确定一个种群的总体年龄分布;指示一个物种的繁殖能力和延续的可能性。

人口金字塔

散点图是一种使用笛卡尔坐标显示一组数据的两个变量的值的数学图表。数据被显示为点的集合,每个点具有确定在水平轴上的位置的一个变量的值和确定在垂直轴上的位置的另一个变量的值。

散点图

群集分析或群集是对一组对象进行分组的任务,使得同一组(称为群集)中的对象彼此之间比其他组(群集)中的对象更相似(在某种意义上或另一种意义上)。它是探索性数据挖掘的主要任务,也是一种常用的统计数据分析技术,广泛应用于机器学习、模式识别、图像分析、信息检索和生物信息学等领域。

聚类分析

以Vilfredo Pareto命名的帕累托图表是一种同时包含条形图和折线图的图表,其中单个值由条形图以降序表示,累计总数由线条表示。帕累托图的目的是突出一组(通常是大的)因素中最重要的一个。

帕累托图

项目符号图是条形图的变体。似乎是受到了许多仪表盘上传统的温度计图表和进度条的启发,项目符号图表取代了仪表盘上的量规和仪表。开发项目符号图是为了克服仪表和仪表的基本问题:它们通常显示的信息太少,需要太多空间,而且到处都是无用和令人分心的装饰。

项目符号图表

分区层图表是聚类结果的图形显示,之所以称为分区层图表,是因为它类似于悬挂在房屋屋檐上的一排冰柱。

分区分层柱图

烛台图是一种用于描述证券、衍生品或货币在指定时间范围内的价格变动的条形图样式。每条线代表给定时间间隔内的价格变动范围。
它最常用于股票和货币价格模式的技术分析。它们表面上看起来与盒子图相似,但并不相关。
烛台图表的数据集包含低、高、打开和关闭值。最高和最低值显示为每根棍子的顶部和底部,其中打开和关闭值反映在内部的正方形中。

烛台图

泡沫饼图是一种独特的泡沫图表,允许您跨四个参数集(而不是两个参数集)显示/比较/关联性能。第三个值确定泡沫标记的大小,第四个值由饼的百分比确定,而其他两个值由轴上的位置确定。

复合泡沫饼图

扇形图,是以树形结构表示家庭关系的图表。它还有一个带有同心环的半圆形图表:感兴趣的人是内圈,第二个圆圈被分成两个(每边都是一个家长),第三个圆圈被分成四个,依此类推。粉丝排行榜描绘了父辈和母辈的祖先。

扇形图

弯曲条形图是条形图的变体,其中使用弯曲区域而不是矩形。每个弯曲区域的高度与其表示的值成比例。曲线区域可以垂直或水平绘制,图表的一条轴显示正在比较的具体类别,另一条轴代表离散值。
弯曲的条形图经常出现在现代信息图表中,但与正常的条形图相比,曲线条形图被批评为令人困惑和不准确,因为弯曲的区域实际上只有一个维度,那就是高度。

曲线条形图

Mekko图(也称为Marimekko图)是二维堆积图。除了常规堆叠图表的不同区段高度外,Mekko图表还具有不同的列宽。对列宽进行缩放,以使总宽度与所需的图表宽度相匹配。

Marimekko 海图

嵌套圆允许表示层次结构和比较值。这种可视化对于显示元素之间的比例(通过它们的区域和它们在层次结构中的位置)特别有效。

多层聚合图

哑铃形点图-具有两个或两个以上数据系列的点图-是一种替代传统的聚类条形图或斜率图的方法。
哑铃形点图可用于显示两个或三个不同的时间点,或对不同的视点进行三角测量(例如,一个点代表共和党人,另一个点代表民主党人,或者一个点代表校长,另一个点代表教师)。

哑铃线

径向热图是热图的变体,其中表是径向对齐的。热图是数据的图形表示,其中矩阵中包含的各个值以颜色表示。分形映射和树形映射通常都使用相似的颜色编码系统来表示层次结构中变量所取的值。这一术语也被用来表示其主题应用,如全息地图。术语“热点图”最初是由软件设计师Cormac Kinney在1991年创造并注册商标的,用来描述描绘实时金融市场信息的2D显示。

圆形热图

阶梯式折线图(也称为阶梯图)是一种类似于折线图的图表,但线在数据点之间形成了一系列阶梯。当您想要显示不规则间隔发生的变化时,阶梯式折线图很有用。比如奶制品涨价,汽油涨价,税率涨价,利率涨价等等。

阶梯图

冲积图是一种流程图,最初开发的目的是表示网络结构随时间的变化。冲积图以流水沉积的土壤自然形成的冲积扇命名,既有直观的外观,又有对流动的强调。
变量被指定给平行的垂直轴。值由每个轴上的块表示。挡路的高度表示簇的大小,流场的高度表示由流场连接的两个块中包含的组件的大小。
冲积图是两个平行集合的变体,但用于分类变量,并经常显示随时间和阶段的趋势。

冲积图

颠簸图是为探索排名随时间的变化而设计的。

凹凸图

三维散点图类似于散点图,但具有三个变量,假设x,y,z或f(x,y)为实数,则该图可以表示为三维笛卡尔坐标系中的点。它通常使用透视方法(等轴测或透视)绘制在二维页面或屏幕上,因此其中一个维度似乎是从页面中出来的。

三维散点图

弦图是一种显示矩阵中数据之间相互关系的图形化方法。数据围绕一个圆呈放射状排列,点之间的关系通常绘制为将数据连接在一起的圆弧。

弦图

六边形入库是管理许多开始重叠的点问题的另一种方法。六边形装箱图的密度,而不是点。点被放入网格的六边形中,并且使用六边形的颜色或面积来显示分布(每个六边形的点数)。该技术于1987年首次描述(D.B.Carr等人)。大N的散点图矩阵技术,美国统计协会杂志,第389页,第424-436页)。
使用六边形而不是正方形将二维曲面绑定为平面的原因有很多。最明显的是六边形与其说是正方形,不如说是圆形。这可以转化为围绕仓位中心更有效的数据聚合。这可以通过观察六边形的一些特殊属性,特别是六边形镶嵌的一些特殊属性来看出。

六边形分档图

径向折线图是径向图形的一部分,它获取数据并将其呈现为环绕圆的数据点的集合。它还从图表范围的最小到最大映射类别列表。径向折线图是使用连接数据点的直线集合呈现的。

径向线图

袋图是稳健统计中的一种方法,用于可视化二维统计数据。袋图使人们可以直观地看到数据集的位置、扩散、偏度和离群值。袋子图由三个嵌套多边形组成,分别称为“袋子”、“栅栏”和“环”。袋图有时被定义为盒子图的多维(二维)版本。

布袋

三元图是关于三个变量的重心图,它们之和为一个常数。它以图形方式将三个变量的比率描绘为等边三角形中的位置。它在物理化学、岩石学、矿物学、冶金和其他物理科学中被用来显示由三个物种组成的系统的组成。

三元曲线图

瀑布曲线图是同时显示多条数据曲线(通常是光谱)的三维曲线图。通常情况下,曲线在屏幕上和垂直方向上都是交错的,“较近”的曲线掩盖了后面的曲线。结果是一系列看起来并排的“山”形状。瀑布图通常用于显示二维信息如何随时间或某些其他变量(如rpm)变化。
不要与同名的瀑布图混淆。

瀑布图