谁能从干净的数据中受益?

AEO Service Forum Drives Future of Data Innovation
Post Reply
rumana777
Posts: 195
Joined: Thu Dec 26, 2024 3:58 am

谁能从干净的数据中受益?

Post by rumana777 »

然而,如果没有丰富功能,它只包含来自原始数据库的数据。

同时,“丰富”指的是原始数据集中没有的内容。这通常是一些额外的数据点,可以增加主数据库的价值。

然而,如果没有经过过滤,其中可能含有杂草,你需 亚美尼亚 电话列表 要用自己的手拔掉。

此时,您应该已经开始了解自己倾向于哪种数据产品。如果没有,下一章将帮助您做出决定。

对于数据部门强大的大型公司来说,原始数据是一个不错的选择。小型企业处理大量信息会遇到困难,而且成本不高。相比之下,干净数据适合各种规模的公司,不需要太多数据准备工作。

有了干净的数据,您就不需要庞大的数据团队来解读您刚刚购买的原始数据。您获得的信息已经过过滤和丰富,所需的专业关注要少得多。

而且,即使你确实具备处理原始数据的必要能力,这是否是使用数据分析师进行分析的最佳方式呢?

数据人员应该如何分配时间
数据科学家经常抱怨,他们大部分时间都花在收集、清理和构建数据上,而不是寻找见解。数据人员使用的(臭名昭著的)80/20 规则表明,80% 的时间花在收集和准备上,只有 20% 的时间用于实际分析。

Gartner 似乎同意这一说法。根据他们的 2021 年报告,数据准备是主要投资领域之一。幸运的是,使用数据准备工具可以减少某些任务的自动化时间。我只能补充一点,这些工具必须基于 AI 才能显著影响性能。

其他数据科学家参考了George Labovitz 和 Yu Sang Chang 于 1992 年制定的1-10-100 规则。根据他们的说法,在输入记录时验证记录需要花费 1 美元,稍后清理和删除重复记录需要花费 10 美元,如果没有人注意到错误,则时间和资源上的成本将为 100 美元。

这是使用人工智能进行清理比自己编写算法更具成本效益的另一个理由。人工智能需要更长的时间来编写和执行任务,而且更容易出错。有时,编写正确的数据清理代码根本是不可能的。
Post Reply