数据可视化的7个最佳实践
作者:Charles Mahler / 用例
2023年2月23日
导航到
本文最初发布在The New Stack,并经授权在此重新发布。
探讨最佳实践、无代码和低代码平台、常见的可视化类型、良好数据可视化的标准以及更多内容。
组织通常会产生大量对于决策至关重要的数据。数据可视化在帮助人们理解复杂数据并观察一段时间内的模式和趋势方面发挥着重要作用。数据可视化是数据专业人员的重要技能,通常与叙事相结合,旨在有效地传达观察结果并影响决策。
在本篇文章中,我们将讨论数据可视化是什么,可视化的目标,最佳实践,可用的无代码和低代码平台,常见的可视化类型,良好数据可视化的标准以及如何评估数据可视化。
什么是数据可视化?
简单来说,数据可视化是将数据转换为易于理解的可视化过程。这些可视化可以是图表、图表、地图、图形、动画等形式。
在创建数据可视化时设定目标和目标是至关重要的。
数据可视化主要有哪些目标?
在创建数据可视化时设定目标和目标是至关重要的。以下是您在制作自己的数据可视化时可以考虑的一些目标
- 数据可视化可以突出数据中的趋势、模式和相关性。
- 数据可视化是一种有效的决策工具,使关键人物能够做出基于数据的明智决策。
- 数据可视化使得理解大型数据集以及组合来自不同来源的不同数据集变得更加容易。
- 这是使用叙事来传达基于数据的思想的有效方式。
- 数据可视化需要在保持目标受众注意力的同时易于理解和解释。
- 数据可视化使得监控重要指标和关注关键绩效指标(KPI)变得更容易。
数据可视化的最佳实践
以下是在创建可视化时需要记住的一些最佳实践。
1. 明确目标
在创建数据可视化时,首先了解你正在处理的数据类型,并对从这些数据中提取的洞察类型有一个大致想法。牢记你想要传达的信息、其重要性和你将要面对的受众。
2. 选择合适的可视化工具
在为你的可视化设定目标后,考虑合适的工具来帮助你展示数据。根据使用案例,有代码库和无代码/低代码平台,它们各自都有自己的优势。
无代码/低代码平台
即使几乎没有编程知识,你也可以创建吸引人的数据可视化,捕捉你试图传达的信息。以下是一些流行的可视化平台,可以帮助你创建可视化、仪表板和报告
- Tableau: Tableau 是一个可视化分析平台,使用户能够创建交互式图表、地图和仪表板。平台简单易用的拖放功能使用户能够快速创建各种图表、图形和交互式元素,同时允许用户集成编程语言,如 Python 和 R。
- Power BI: Power BI 是一个流行的商业智能平台,允许专业人士创建交互式仪表板、图表和图形,提供广泛的选项和交互式元素,同时具有用户友好和直观的特点。
- Looker Studio(前身为 Google Data Studio): Looker Studio 是一个平台,允许用户创建可定制的仪表板和报告。它为用户提供了一个免费且无需编写代码就能创建专业质量可视化的有效选项。
数据可视化库
另一方面,根据使用案例,你可以使用代码创建数据可视化。对于可视化,你可以构建和使用用 JavaScript、Python 和 R 创建的包。
Python
Python 是一种多用途的编程语言,广泛用于数据科学和机器学习。Python 中有几个数据可视化库,你可以根据项目的需求选择库。
以下是一些 Python 中最广泛使用的库
JavaScript
JavaScript 是一种流行的编程语言,用于构建网站上的 Web 应用程序和交互式元素,并创建数据可视化。以下是一些用于创建可视化的流行库
R
R 是一种用于统计计算和可视化的编程语言和软件环境。使用 R,你可以访问用于创建各种可视化(包括简单的图表和交互式图形)的多个库和包。
以下是一些广泛使用的 R 可视化包
3. 选择合适的可视化类型
选择合适的可视化类型可以大大提高清晰度和可读性,并确保您的可视化内容引人入胜。在使用这些可视化图表时,请确保您做出明智的比较,并使用适合数据类型的图表。正确的可视化取决于您的目标、数据类型和受众。
以下是一些图表及其最适用的用途
- 柱状图:柱状图使用矩形条形来创建用于分类数据的视觉表示。它们有助于展示分布情况,并且常被使用,因为它们是一种快速传达信息和比较值的简便方式。
- 折线图:折线图使用线条连接不同的数据点。当需要创建展示数据趋势和模式的图表时,它们非常有用,例如时间序列数据。一些例子包括天气变化、股价、销售额等。
- 散点图:散点图展示了变量之间的关系,并在表示变量如何相互影响或识别数据模式时非常有用。
- 饼图:饼图是一种简单有效的图表,使用圆形图表,其中饼图的一部分表示数据的相对大小。它们用于展示数量或百分比如何分布,或随时间变化,通过使用多个图表来表示不同的时间段。
- 箱线图(或箱须图):箱线图用于展示数据集的最小值、最大值、中位数、第一四分位数和第三四分位数。它们特别有助于观察数据集的整体形状,并指出异常值。
- 小提琴图:小提琴图与箱线图类似,用于可视化数据集的分布。它们可以用来展示数据集的最小值、最大值、中位数和四分位数,并使用核密度图来展示数据的分布。您可以使用它们来比较不同组之间的数据分布或识别数据中的异常值。
- 热图:热图是用于展示数据值的彩色矩阵;深色表示高值,而冷色表示低值。热图有助于识别数据中的显著变化,以及指出模式和趋势。
示例
让我们用代码创建一些数据可视化示例,使用流行的Python库
- 柱状图:在这里,我们将使用
轴上的值作为数据值轴的值,使用 轴上的值作为频率轴的值来创建柱状图。使用Matplotlib的bar()函数创建柱状图。
import matplotlib.pyplot as plt
# Data to plot
x = [1, 2, 3, 4]
y = [10, 20, 30, 40]
# Create the bar chart
plt.bar(x, y, width=0.5, color='b')
# Add labels and title
plt.xlabel('Data values')
plt.ylabel('Frequency')
plt.title('Data distribution')
# Show the plot
plt.show()
您的结果应该看起来像这样
- 小提琴图:让我们使用Seaborn的violinplot()函数,使用为x和y轴生成的值来创建小提琴图。
import seaborn as sns
import numpy as np
# Generate data
x = np.random.randint(1, 10, size=30)
y = np.random.randint(1, 30, size=30)
# Create the violin plot
sns.violinplot(x, y)
# Add labels and title
plt.xlabel('Data values')
plt.ylabel('Frequency')
plt.title('Data distribution')
# Show the plot
plt.show()
您的结果应该看起来像这样
- 折线图:让我们使用Bokeh的line()函数和生成的值创建折线图。
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
import numpy as np
# Generate data
x = np.arange(20)
y = np.random.randint(1, 20, size=20)
# Create the line graph
p = figure(title="Line graph", x_axis_label="x", y_axis_label="y")
p.line(x, y)
# Show the plot
output_notebook()
show(p)
您的结果应该看起来像这样
- 热图:使用Plotly,我们可以使用heatmap()函数和随机值创建热图。
import plotly.express as px
import numpy as np
# Generate data
data = np.random.randint(1, 10, size=(10, 10))
# Create the heatmap
fig = px.imshow(data, title="Heatmap")
fig.show()
您的结果应该看起来像这样
您可以在这里了解更多关于数据可视化工具的信息。
4. 使用简洁的标签和标题
使用标签和标题对您的可视化进行标注非常重要,并确保它们易于理解。这些标签应提供上下文,并告知读者图表试图传达的内容。
在标题和标签中,还有其他一些重要的注意事项,比如使用易于阅读的字体,确保字体足够大,注意标签的位置,以及使用也易于阅读的颜色。
还应避免标签过于密集,这会造成杂乱无章,并影响文本的可读性;同时避免使用不必要的缩写;如果需要使用缩写,在报告中的键入内解释它们的含义。
5. 选择合适的颜色
在数据可视化中,颜色扮演着重要的角色,因为它有助于使观众与仪表板或报告的内容保持互动,并吸引观众的注意力,关注你试图指出的重要信息。
在选择颜色方案时,你可以选择保持品牌一致性(例如,使用公司的品牌颜色),同时考虑到标题、标签、图表等的可读性。尽量少用颜色,并确保你的可视化吸引人。同时,你应该考虑色彩心理学,因为它会影响观众的反应。最后,在选择可视化颜色方案时,要考虑到有视觉障碍的人。
本质上,为你的可视化坚持使用清晰且一致的色彩方案。
6. 避免杂乱和多余的视觉元素
好的数据可视化易于理解、引人入胜且无杂乱。在你的可视化中同时出现太多事物可能会使观众分心,无法从你的工作中获得应有的洞察。
为了提高你可视化的可读性,使用简单的设计并避免不必要的元素。不必要的元素可能包括过多的标签、分散注意力的背景图像和图案、不必要的或不相关的数据点或网格线。确保你的标题和标签易于阅读和理解,并确保图表和其他组件之间有足够的间距。让你的设计保持简单,专注于你试图传达的洞察。
你需要清理和预处理你的数据,以确保它没有错误和异常。
7. 使用干净且最新的数据
数据质量对可视化非常重要。你需要清理和预处理你的数据,以确保它没有错误和异常。这个过程可能包括删除缺失或重复的值、数据归一化等。使用未经清理的数据可能导致误解或错误的结论——更不用说用它创建有效的可视化有多困难了。
你不会想使用脏或过时的信息来支持你组织中的决策。使用最新和相关的数据也很重要,以确保你的可视化不仅是最新的,而且准确无误。
良好的数据可视化有哪些标准?
现在我们已经了解了一些创建数据可视化的最佳实践,以下是一些创建良好数据可视化的标准。
- 良好的数据可视化以易于理解、清晰、简洁且无杂乱的方式展示复杂的数据联系。
- 你的观众可以快速抓住你试图传达的关键点。洞察应该易于被你的观众吸收。
- 可视化应该有效地使用正确的视觉元素来传达数据中的信息和观点。
- 良好的数据可视化应考虑不同观众的需求,同时使用清晰易读的字体和文本大小来实现可访问性和包容性。使用合适的颜色选择和对比度。避免使用红色和绿色等颜色,因为红绿色盲最常见。
- 优秀的数据可视化简单直接,没有不必要的干扰或元素。
- 优秀的数据可视化基于准确、最新和可靠的数据。
什么是最优的数据可视化?
最优的数据可视化能够有效地传达你试图传达的信息。它考虑涉及的数据类型,并以易于理解和解释的方式呈现数据。它还考虑设计、可读性和易理解性。
如何判断优秀的数据可视化
以下是判断数据可视化是否优秀的几个标准
- 评估可视化对颜色、标签和其他设计元素的使用。
- 文本是否可读且易于理解,并且是否提供了足够的信息?
- 它是否帮助目标受众理解数据及其使用方法?
- 仪表板/可视化的所有内容是否以准确的比率呈现?
- 对于视觉障碍者,可视化内容是否可读?
- 可视化是否易于理解、无杂乱且引人入胜?
- 可视化中的颜色是否突出了关键模式?
结论
数据可视化是观察和跟踪您组织中指标和KPI的关键。遵循创建数据可视化的最佳实践将确保您创建的报告易于理解,并在指出模式或异常时有所帮助。您还可以查看有关仪表板设计最佳实践的这篇文章:仪表板设计最佳实践。
InfluxDB 是一个优秀的平台,可用于可视化您的数据、监控重要指标,并使用我们直观的仪表板、查询、任务和其他必备功能,帮助您深入洞察和进行数据分析。