供电
假设我们想要生成一份有关昨天事件的报告;为此,我们要确保数据存在。事实上,几天或更长时间看不到新订单才奇怪。
在下面的示例中,我们可以使用 dbt 中的测试设置来测试数据集是否存在意外订单延迟。这允许您使用该特定名称选择和引用测试。
通过定义自定义名称,您可以完全控制测试在日志消息 工程师数据 和元数据工件中的显示方式。
同样,在实时数据管道中,数据通常预计不会超过几个小时。 SLA 对,其中数据是实时处理的,有几分钟甚至几秒的延迟。
在流应用程序中,我们希望检查延迟事件和指标(例如平均故障间隔时间(MTBF)和平均恢复时间(MTTR))允许的最大延迟。实现这一点需要仔细跟踪事件并从应用程序监控和事件管理工具(例如 PagerDuty、Datadog 和 Grafana)中提取相关数据。
数据治理合约
正确处理个人身份信息 (PII) 是数据转换过程中不可或缺的一部分。对于许多公司来说,这些数据集至少符合 GDPR并遵守 HIPAA 或 PCI DSS 等数据隐私法规至关重要。
数据治理合约确保适当的数据假名或屏蔽。
考虑下面的 dbt 代码。执行的合约tests要求它user_email是 SHA256 哈希(屏蔽):