据加载到 Redshift 中进行分析呢?
Posted: Thu Jan 23, 2025 3:37 am
(简单存储服务)自 2006 年问世以来一直存在。大多数人使用这种可扩展的基于云的服务来存档和备份数据。在诞生后的 10 年内,S3 存储了超过 2 万亿个对象,每个对象的大小高达 5 TB。企业重视其数据,认为它们值得保存。但其中大部分数据都处于“冷”数据湖中,无法进行分析。这些数据也被称为“暗数据”,可以为企业提供关键见解。但问题是,企业如何以可扩展、高效的方式访问暗数据进行分析?这就是 Amazon Redshift Spectrum 的作用所在。
目录
用于分析 Amazon S3 中数据的 Amazon Redshift Spectrum
进一步了解:Amazon Redshift Spectrum 如何工作?
使用 Amazon Redshift Spectrum 连接内部表和外部表
Amazon Redshift Spectrum:它为何有意义
用于分析 Amazon S3 中数据的 Amazon Redshift Spectrum
随着时间的推移,企业会积累大量数据,这些数据被埋藏在“热”数据之下。这些“暗数据”可能蕴含着宝贵的业务见解,这意味着分析师需要能够访问 PB 级暗数据的解决方案。
目前,访问和分析 S3 中的数据主要有三种方式:
Amazon Elastic MapReduce (EMR):EMR 使用 Hadoop 风格的查询来访问和处理 S3 中的大型数据集。
Amazon Athena: Athena 提供了一个控制台,可使用标准 SQL 查询 S3 数据,无需管理基础设施。Athena 还有一个API。
Amazon Redshift:您可以将数据从 S3 加载到 Amazon Redshift 集群中进行分析。
那么为什么不使用这些现有选项来分析 S3 中的数据呢?例如,公司已经使用 Amazon Redshift 来分析他们的“热”数据。 那么 为什么不将 S3 中的冷数
有两个原因使得这样做变得不可行,特别是当您的数据量增长时:
工作量: 将数据加载到 Amazon Redshift 涉及提取、转换和加载 (ETL) 步骤。ETL 是转换和构建数据以供分析所必需的。亚马逊估计,找出正确的 ETL 会耗费分析项目的 70%。
成本: 在对数据进行分析之前,您可能甚至 加拿大电话数据 不知道要提取哪些数据。上传大量冷 S3 数据进行分析需要扩大集群。这意味着额外的成本,因为 Redshift 定价基于集群的大小。同时,您继续支付 S3 存储费用以保留冷数据。
Amazon Redshift Spectrum 可让您查询存储在 Amazon S3 中的数据,而无需先将其加载到 Amazon Redshift 中。为了便于命名,我们将使用“Redshift”表示“Amazon Redshift”,使用“Spectrum”表示“Amazon Redshift Spectrum”。
Redshift Spectrum 兼具两者的优点。借助 Spectrum,您可以:
继续使用您为 Redshift 编写的相同查询来使用您的分析应用程序。
将冷数据留在 S3 中,并通过 Amazon Redshift 进行查询,无需进行 ETL 处理。您甚至可以使用单个查询将数据湖中的数据与 Redshift 中的数据连接起来。
将处理与存储分离。由于无需增加集群大小,因此您可以节省 Redshift 存储空间。
仅当您针对 S3 数据运行查询时才需付费。Spectrum 查询每处理 TB 数据收费 5 美元。
目录
用于分析 Amazon S3 中数据的 Amazon Redshift Spectrum
进一步了解:Amazon Redshift Spectrum 如何工作?
使用 Amazon Redshift Spectrum 连接内部表和外部表
Amazon Redshift Spectrum:它为何有意义
用于分析 Amazon S3 中数据的 Amazon Redshift Spectrum
随着时间的推移,企业会积累大量数据,这些数据被埋藏在“热”数据之下。这些“暗数据”可能蕴含着宝贵的业务见解,这意味着分析师需要能够访问 PB 级暗数据的解决方案。
目前,访问和分析 S3 中的数据主要有三种方式:
Amazon Elastic MapReduce (EMR):EMR 使用 Hadoop 风格的查询来访问和处理 S3 中的大型数据集。
Amazon Athena: Athena 提供了一个控制台,可使用标准 SQL 查询 S3 数据,无需管理基础设施。Athena 还有一个API。
Amazon Redshift:您可以将数据从 S3 加载到 Amazon Redshift 集群中进行分析。
那么为什么不使用这些现有选项来分析 S3 中的数据呢?例如,公司已经使用 Amazon Redshift 来分析他们的“热”数据。 那么 为什么不将 S3 中的冷数
有两个原因使得这样做变得不可行,特别是当您的数据量增长时:
工作量: 将数据加载到 Amazon Redshift 涉及提取、转换和加载 (ETL) 步骤。ETL 是转换和构建数据以供分析所必需的。亚马逊估计,找出正确的 ETL 会耗费分析项目的 70%。
成本: 在对数据进行分析之前,您可能甚至 加拿大电话数据 不知道要提取哪些数据。上传大量冷 S3 数据进行分析需要扩大集群。这意味着额外的成本,因为 Redshift 定价基于集群的大小。同时,您继续支付 S3 存储费用以保留冷数据。
Amazon Redshift Spectrum 可让您查询存储在 Amazon S3 中的数据,而无需先将其加载到 Amazon Redshift 中。为了便于命名,我们将使用“Redshift”表示“Amazon Redshift”,使用“Spectrum”表示“Amazon Redshift Spectrum”。
Redshift Spectrum 兼具两者的优点。借助 Spectrum,您可以:
继续使用您为 Redshift 编写的相同查询来使用您的分析应用程序。
将冷数据留在 S3 中,并通过 Amazon Redshift 进行查询,无需进行 ETL 处理。您甚至可以使用单个查询将数据湖中的数据与 Redshift 中的数据连接起来。
将处理与存储分离。由于无需增加集群大小,因此您可以节省 Redshift 存储空间。
仅当您针对 S3 数据运行查询时才需付费。Spectrum 查询每处理 TB 数据收费 5 美元。