7 个数据可视化最佳实践
作者:Charles Mahler / 用例
2023 年 2 月 23 日
导航至
本文最初发表于 The New Stack,并经许可在此处转载。
了解最佳实践、您可以使用的无代码和低代码平台、常见的可视化类型、良好数据可视化的标准等等。
组织定期生成大量对于决策至关重要的数据。数据可视化在帮助人们理解复杂数据和观察一段时间内的模式和趋势方面发挥着重要作用。数据可视化是数据专业人员的一项重要技能,它通常与讲故事相结合,旨在有效地传达观察结果并为决策提供信息。
在这篇文章中,我们将讨论什么是数据可视化、可视化的目标、最佳实践、您可以使用的无代码和低代码平台、常见的可视化类型、良好数据可视化的标准以及如何判断数据可视化。
什么是数据可视化?
简而言之,数据可视化是将数据转换为易于理解的视觉效果的过程。这些视觉效果可以是图形、图表、地图、绘图、动画等形式。
在创建数据可视化时,设定目标和目的是很重要的。
数据可视化的主要目标是什么?
在创建数据可视化时,设定目标和目的是很重要的。以下是在组合您自己的数据可视化时需要考虑的一些事项
- 数据可视化对于突出显示数据中的趋势、模式和相关性非常有用。
- 数据可视化是一种有效的决策工具,使关键人员能够做出由数据支持的明智决策。
- 数据可视化使理解大型数据集以及组合来自各种来源的不同数据集变得更容易。
- 这是一种使用讲故事来传达数据支持的想法的有效方法。
- 数据可视化需要吸引目标受众的注意力,同时易于理解和解释。
- 数据可视化使监控重要指标和关注关键绩效指标 (KPI) 变得更容易。
数据可视化的最佳实践
以下是在创建可视化时需要记住的一些最佳实践。
1. 心中有一个目标
在创建数据可视化时,首先要了解您正在处理的数据类型,并对您想要从中获得哪种类型的见解有一个大致的了解。请记住您想要传达的信息、其重要性以及您要呈现给的受众。
2. 选择正确的可视化工具
在为您的可视化设定目标后,请考虑正确的工具来帮助您呈现数据。根据用例,有代码库和无代码/低代码平台,它们各有优势。
无代码/低代码平台
即使几乎没有编码知识,您也可以创建引人入胜的数据可视化,捕捉您想要传达的信息。以下是一些流行的可视化平台,可以使您能够创建可视化、仪表板和报告
- Tableau: Tableau 是一个可视化分析平台,使用户能够创建交互式图表、地图和仪表板。该平台轻松的拖放功能使用户能够使用各种图表、图形和交互式元素快速创建交互式可视化,同时还允许用户集成 Python 和 R 等编程语言。
- Power BI: Power BI 是一个流行的商业智能平台,允许专业人员创建交互式仪表板、图表和图形,提供广泛的选项和交互式元素,同时用户友好且直观。
- Looker Studio(以前的 Google Data Studio): Looker Studio 是一个允许用户创建可自定义仪表板和报告的平台。它为用户提供了一个有效的选项,可以免费创建专业质量的可视化,而无需编写代码。
数据可视化库
另一方面,根据用例,您可以使用代码来创建数据可视化。对于可视化,您可以构建和使用在 JavaScript、Python 和 R 中创建的包。
Python
Python 是一种通用的编程语言,广泛用于数据科学和机器学习。Python 中有几个数据可视化库,您可以根据项目的需要选择库。
以下是一些最常用的 Python 库
JavaScript
JavaScript 是一种流行的编程语言,用于构建 Web 应用程序和网站上的交互式元素,以及创建数据可视化。以下是一些用于创建可视化的流行库
R
R 是一种编程语言和软件环境,用于统计计算和可视化。使用 R,您可以访问多个库和包,用于创建各种可视化,包括简单的绘图和交互式图形。
以下是一些广泛使用的 R 数据可视化包
3. 选择正确的可视化类型
选择正确的可视化类型可以大大提高清晰度和可读性,并确保您的可视化引人入胜。使用这些可视化时,请确保您做出明智的比较并使用非常适合数据类型的图表。正确的可视化取决于您的目标、数据类型和受众。
以下是一些图表及其最适合的用途
- 条形图: 条形图是带有矩形条的图形,用于为分类数据创建视觉效果。它们对于显示分布很有用,并且由于它们是交流信息和比较值的快速方法,因此通常使用。
- 折线图: 折线图使用线条连接不同的数据点。当创建呈现数据趋势和模式的图形(例如时间序列数据)时,它们很有帮助。一些示例是天气、股票价格、销售额等的变化。
- 散点图: 散点图显示变量之间的关系,并且在表示变量如何相互影响或识别数据模式时很有帮助。
- 饼图: 饼图是简单有效的图表,它使用圆形图,饼图的每个部分代表数据的相对大小。它们用于显示数量或百分比是如何分布的,或者通过使用多个图表来表示不同的时间段,从而显示数量或百分比随时间的变化情况。
- 箱线图(或箱须图): 箱线图是用于呈现数据集的最小值、最大值、中位数、第一四分位数和第三四分位数的图形。它们对于查看数据集的整体形状和指出异常值特别有用。
- 小提琴图: 小提琴图类似于箱线图,用于可视化数据集的分布。它们可以用于显示数据集的最小值、最大值、中位数和四分位数,以及使用核密度图显示数据的分布。您可以使用它们来比较不同组之间的数据分布或识别数据中的异常值。
- 热图: 热图是用于呈现数据值的彩色矩阵;较深的颜色用于表示高值,而较冷的颜色表示较低的值。热图对于识别数据中的显着变化以及指出模式和趋势很有用。
示例
让我们使用流行的 Python 库创建一些数据可视化示例
- 条形图: 在这里,我们将使用 x 中的值作为数据值轴,并使用 y 中的值作为频率轴来创建条形图。使用 Matplotlib 和 bar() 函数创建一个条形图。
import matplotlib.pyplot as plt
# Data to plot
x = [1, 2, 3, 4]
y = [10, 20, 30, 40]
# Create the bar chart
plt.bar(x, y, width=0.5, color='b')
# Add labels and title
plt.xlabel('Data values')
plt.ylabel('Frequency')
plt.title('Data distribution')
# Show the plot
plt.show()
您的结果应如下所示
- 小提琴图:让我们使用 Seaborn 和 violinplot() 函数,使用为 x 轴和 y 轴生成的值创建一个小提琴图。
import seaborn as sns
import numpy as np
# Generate data
x = np.random.randint(1, 10, size=30)
y = np.random.randint(1, 30, size=30)
# Create the violin plot
sns.violinplot(x, y)
# Add labels and title
plt.xlabel('Data values')
plt.ylabel('Frequency')
plt.title('Data distribution')
# Show the plot
plt.show()
您的结果应如下所示
- 折线图: 让我们使用 Bokeh 和 line() 函数以及生成的值创建一个折线图。
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
import numpy as np
# Generate data
x = np.arange(20)
y = np.random.randint(1, 20, size=20)
# Create the line graph
p = figure(title="Line graph", x_axis_label="x", y_axis_label="y")
p.line(x, y)
# Show the plot
output_notebook()
show(p)
您的结果应如下所示
- 热图: 使用 Plotly,我们可以使用 heatmap() 函数和随机值创建一个热图。
import plotly.express as px
import numpy as np
# Generate data
data = np.random.randint(1, 10, size=(10, 10))
# Create the heatmap
fig = px.imshow(data, title="Heatmap")
fig.show()
您的结果应如下所示
您可以在此处了解有关数据可视化工具的更多信息。
4. 使用简洁的标签和标题
为您的可视化使用标签和标题很重要,并确保它们易于理解。这些标签应提供上下文并告知读者图形试图传达的内容。
标题和标签需要记住的其他重要实践是使用易于阅读的字体,确保字体足够大,注意标签的位置以及使用也易于阅读的颜色。
您还应避免标签过于密集,这会造成混乱并影响文本的可读性,并避免不必要的缩写;如果您需要使用缩写,请在报告中的键中包含它们的含义。
5. 选择正确的颜色
颜色在数据可视化中起着重要作用,因为它们有助于使您的受众参与到仪表板或报告的内容中,并将受众的注意力吸引到您试图指出的重要信息上。
在选择配色方案时,您可以选择保持品牌一致性(例如,使用您公司的品牌颜色),同时记住标题、标签、图表等的可读性。尽量不要使用过多的颜色,并确保您的可视化具有吸引力。同时,您应该考虑色彩心理学,因为它会影响受众的反应。最后,在为您的可视化选择配色方案时,请考虑有视觉障碍的人。
从本质上讲,为您的可视化坚持清晰一致的配色方案。
6. 避免杂乱和不必要的视觉元素
一个好的数据可视化易于理解、引人入胜且简洁明了。在您的可视化中一次发生太多事情可能会分散受众对他们应该从您的工作中获得的见解的注意力。
为了提高可视化的可读性,请使用简单的设计并避免不必要的元素。不必要的元素可能是过多的标签、分散注意力的背景图像和图案、不必要的数据点或不相关的网格线。确保您的标题和标签易于阅读和理解,并确保图表和其他组件之间有足够的间距。保持您的设计简单,并专注于您试图传达的见解。
您需要清理和预处理数据,以确保数据没有错误和异常。
7. 使用干净且最新的数据
数据质量对于可视化非常重要。您需要清理和预处理数据,以确保数据没有错误和异常。此过程可能包括删除缺失值或重复值、数据规范化等。使用未清理的数据可能会导致误解或不正确的结论——更不用说使用它创建有效的可视化有多么困难。
您不希望使用脏数据或过时信息来支持您组织中的决策。使用最新和最相关的数据也很重要,以确保您的可视化不仅是最新的,而且是准确的。
良好数据可视化的标准是什么?
现在我们了解了一些创建数据可视化的最佳实践,以下是创建良好数据可视化的一些标准
- 一个好的数据可视化以易于理解、清晰、简洁且无杂乱的方式显示复杂的数据连接。
- 您的受众可以快速掌握您试图传达的要点。见解应该很容易被您的受众吸收。
- 可视化应使用正确的视觉元素有效地传达数据中的信息和想法。
- 良好的数据可视化应考虑各种受众的需求,同时通过使用清晰易读的字体和文本大小来实现可访问性和包容性。使用适当的颜色选择和对比度。避免使用红色和绿色等颜色,因为红绿色盲是最常见的。
- 一个好的数据可视化简单明了,没有不必要的干扰或元素。
- 良好的数据可视化基于准确、最新和可靠的数据。
什么是最佳数据可视化?
最佳数据可视化有效地传达您试图传达的信息。它考虑了所涉及的数据类型,并以易于理解和解释的方式呈现数据。它还考虑了设计、可读性和易于理解性。
如何判断一个好的数据可视化
以下是判断数据可视化是否良好时需要考虑的一些标准
- 评估可视化对颜色、标签和其他设计元素的使用。
- 文本是否可读且易于理解,它们是否提供足够的信息?
- 它是否帮助您的目标受众理解数据以及如何使用数据?
- 仪表板/可视化中的所有内容是否成比例?
- 可视化的内容对于有视觉障碍的人是否清晰易读?
- 可视化是否易于理解、简洁明了且引人入胜?
- 可视化中的颜色是否突出显示了关键模式?
结论
数据可视化是观察和跟踪组织中指标和 KPI 的关键。遵循组合数据可视化的最佳实践将确保您创建易于理解且有助于指出模式或异常的报告。您还可以查看这篇关于仪表板设计最佳实践的文章。
InfluxDB 是一个出色的平台,用于可视化您的数据、监控重要指标,并使您能够使用我们直观的仪表板、查询、任务和您需要获得深入见解和分析的其他基本功能来利用您的时间序列数据。