芝加哥大学转化数据科学中心 致力于发展数据科学学科及其在生物学、医学、医疗保健和环境问题中的应用。他们开发和运营大型数据平台,以支持对社会关注主题的研究,包括癌症、心血管疾病、炎症性肠病 (IBD)、出生缺陷、退伍军人健康、疼痛管理、阿片类药物使用障碍和环境科学。他们还在我们平台的数据上开发新的机器学习和人工智能算法。

该中心取得了一些重要的“第一”:包括,首批大型数据云之一(美国国家科学基金会支持的开放科学数据云(2010-2016 年));第一个旨在托管生物医学数据并被批准为美国国立卫生研究院可信合作伙伴的数据云(Bionimbus 受保护数据云(2013 年至今));第一个大型数据共享平台(美国国家癌症研究所基因组数据共享平台(2016 年至今));以及第一套为生物医学数据创建数据生态系统的服务(数据共享框架服务(2020 年至今))。

芝加哥大学的测试框架基于 CodeceptJS,有助于提高其 Gen3 数据共享生态系统的质量。该平台为利用大数据和生物信息学进行基因组测序研究以发现新疗法、治愈疾病等的科学界赋能。该大学正在利用 CodeceptJS 钩子捕获管道中每个测试的成功、失败和重试,以组装 Grafana 仪表板。这使其能够监督整个管道、基准测试、阻碍因素和跟踪不稳定的测试。

芝加哥大学采用 InfluxDB 的一个重要动机是它易于设置。借助快速 Docker Hub 镜像、Kubernetes YAML 描述符和创建数据库的简单 HTTP 请求,他们只需利用持续集成框架钩子,通过 NodeJS “influx” 客户端库引入时间序列数据点。然后,团队只需将其 Grafana 仪表板指向 InfluxDB 数据源,即可快速实现对其持续集成管道的出色可观察性。现在,他们能够收集与其测试相关的有用指标,例如间歇性故障(又名:不稳定的测试)、测试持续时间、基准测试花费在重新配置测试环境基础设施或生成虚构临床元数据上的时间,以确保所有生物研究机制都按预期工作。

InfluxDB 易于设置,团队很快就理解了围绕指标及其各自标签的概念,这促进了关于他们还想捕获哪些其他指标以及他们需要获得哪些见解以持续改进其 CI/CD 策略的精彩讨论。

软件开发工程师 Marcelo Costa 建议新用户记住每个标签的最大指标数量为 1000000(一百万)。他们可能希望在其 InfluxDB yaml 描述符的 Kubernetes 配置中删除此默认设置

env:
- name: "INFLUXDB_DATA_MAX_VALUES_PER_TAG"
value: "0"

另一个技巧是设置持久卷以确保指标数据库文件的安全,并制定良好的备份策略来运行一些有趣的追溯计算,以获得对您拥有的任何指标的更多见解。