市场研究中的合成数据

AEO Service Forum Drives Future of Data Innovation
Post Reply
sumaia45
Posts: 329
Joined: Mon Dec 02, 2024 9:23 am

市场研究中的合成数据

Post by sumaia45 »

Thomas:这涵盖了日常使用人工智能(尤其是生成式人工智能模型)时面临的主要挑战。我们并不是说不要使用它——它非常有用,可以节省时间,并且可以成为任何创意过程的良好起点。例如,在创意营销中,人们使用人工智能来产生初步想法,然后将其作为会议的讨论要点,讨论创意发展的可能方向。但是,你不应该把整个任务委托给人工智能。它只是帮助你起步并为你奠定基础的东西。

接下来,我们将更详细地介绍去年爆发式增长的与市场研究相关的内容:合成数据。在过去 12 个月中,合成数据的提及和炒作大幅增加。这涉及使用 AI 生成旨在模拟现实世界调查受访者的响应。例如,您可能多年来一直从水管工那里收集调查信息,并希望生成特定问题的答案,例如水管工对特定潜在客户的反应。AI 可以根据这些输入生成模拟响应。

合成数据使用的规模和扩张速度令人震惊。Grandview Research 估计该市场价值约为 1.64 亿美元,而 Fortune Business Insights 估计约为 2.89 亿美元。两家公司都预测其复合年增长率将超过 30%,这是一个需要我们关注的庞大且不断增长的行业。

合成数据的使用方式有多种。其中一种方式是根据现有 阿富汗 whatsapp 号码数据库 数据生成新问题的答案。另一种方式是扩展数据集。例如,如果您已经收集了 500 名受访者,并希望生成另外 500 名,那么您可能会使用合成数据来填补这一空白,尤其是当某个市场领域没有在您的样本中得到适当体现时。

然而,这种方法也有局限性。在应用时一定要小心谨慎,确保不会忽略错误来源或放大偏见。让我们来谈谈一些主要的注意事项。

首先,高质量的数据集至关重要。任何不良数据、偏见、懒惰的受访者噪音或严重异常值都可能被放大。如果您模拟数据集中一小部分的响应,则可能会放大该子集中的任何错误或偏见。确保您检查所有输入的质量并对所有数据集进行适当的质量检查。

其次,这些模拟擅长插值,但通常不擅长外推。插值意味着在收集的数据范围内推断响应,而外推意味着预测超出数据集的限制。例如,Dig Insights 的一项研究使用合成数据预测电影收入。他们使用 IMDb 的数据和 2018 年至 2019 年的人口统计数据来创建电影观众的合成数据集。模拟收入与该时期电影的实际收入具有 0.75 的高相关性,表明这是一个良好的模型。

然而,当他们将该模型应用于 2023 年的电影时,预测收入与实际收入之间的相关性下降到 0.43。虽然仍然不错,但它显示了外推的局限性。

你知道,在市场研究中,很多时候你会对此感到很满意。但问题是,这个数字是由原始时期电影续集的存在支撑起来的。例如,你可能已经有了一部《加勒比海盗》电影,然后又有一部电影上映,吸引了相当可观的观众来观看下一部电影。这有助于将数字推向正确的方向。当你删除所有续集时,相关性会下降到 0.15,这仅比随机猜测好一点。

因此,您需要注意,当您超越所依赖的数据集时,模型的准确性和合成数据的实用性会迅速下降。还值得注意的是,合成数据往往对现状的延续有强烈的偏见。它不太可能捕捉到未来会快速增长的新兴趋势。如果您试图用合成数据填补数据集中的空白,它就不会对这些新兴趋势和现状的变化敏感。

使用合成数据时要记住的最后一点也是最重要的一点是,人们很容易陷入这样的误区:认为更多的访谈意味着更准确的结果。有一套成熟的公式可以根据问题类型、平均回答和收集的访谈数量来计算置信区间。但是,如果将此公式应用于包含合成数据的数据集,则会得到误导性的置信区间。与现实世界的数据不同,合成数据既涉及抽样误差,也涉及建模误差。人工智能生成的模型通常是黑匣子,因此没有标准的方法来计算真实的置信区间。
yadaysrdone
Posts: 28468
Joined: Sun Apr 13, 2025 9:48 am

Re: 市场研究中的合成数据

Post by yadaysrdone »

Post Reply