当数据出错时:如何处理数据不准确

AEO Service Forum Drives Future of Data Innovation
Post Reply
shapanhhhjjjjk
Posts: 20
Joined: Tue Dec 03, 2024 5:47 am

当数据出错时:如何处理数据不准确

Post by shapanhhhjjjjk »

数据是当今世界的重要组成部分。作为一个社会,我们每天都会产生数以万亿字节的新黄金。(1 后面跟着 18 个零!)很多数据都毫无用处,但如果在某个时候犯了一个错误,就可能让你付出惨重代价。

今天,我将通过两个例子来说明数据不准确如何导致灾难性后果。

使用 Excel 存储过多数据
众所周知,在疫情期间,政府和世界主要卫生组织提供的数据帮助我们了解病毒的传播情况。公众能够访问来自世界各国的大量数据,并将其整理成一些非常漂亮的仪表板。

英国如何处理新案件
英国政府花费了纳税人的巨额资金来追踪疫情蔓延。但他 瑙鲁电子邮件列表 100000 个联系人线索 们犯的一个错误是使用 Excel 来存储所有内容。所有新病例都输入到一个主电子表格中。这次的不准确之处是什么?行限制……

Excel 是世界上使用最广泛的软件包之一。在学校时,我从来不喜欢它,直到我了解到 Excel 的函数和函数组合有多么有用,我才避开了它。在另一家听起来像雨林的公司工作时,我很快发现它在尝试使用大量数据时会遇到困难,这就是为什么对总行数设置了限制。

虽然简单的 CSV(逗号分隔值)文件可以包含任意数量的行或列,但 Excel 能够加载 1,048,576 行和 65,536 列。虽然它们看起来像奇怪的数字,但它确实遵循了一个非常基本的原则。

Image

如果我们查看 14 位行特征,我们可以看到它如何快速堆叠 2×2^20 = 1,048,576 行,每行有 2 位。毕竟,这些数字并不奇怪。

那么问题出在哪里呢?
所有考试中心都发送了 CSV 文件,但其中许多文件都是以您可能熟悉的 .xls 格式保存的。此文件格式是最新版本的前身,最新版本的文件格式为 xlsx。前者只能包含 65,000 行。在第一个系统上超过该点的任何索引在上传到主电子表格时都会被遗漏。

据报道,这只会影响报告的最终数据结果,而报告是这项工作最重要的要素之一。

显然,那些被感染但没有出现在最后一张表上的人仍然收到了进行测试的实验室的联系。

问题出在文件扩展名上。更确切地说,是选择保存文件的格式的人。
Post Reply