Google Optimize 的终结意味着变革,而不是世界末日

从 2023 年 10 月 1 日起,许多公司将无法再在其网站上进行实验 – 除非他们到那时做出反应并及时实施 Google Optimize 的替代测试平台。有一点是确定的:谷歌将于 2023 年 9 月 30 日停止免费 A/B 测试平台 Optimize 和商业版 Optimize 360​​。但正如该网站所说,官方通讯并不完全清楚接下来会发生什么。

假设可以立即得到检验

如果您在开始实验之前不必考虑其他测试,那么计划会容易得多吗?无需等待当前测试完成!没有讨论哪个测试更相关!测试运行时间和统计能力都不会受到影响,因为下一次测试不能等那么久!如果所有测试都可以并行运行,那么“只需”开发一个实验并保证质量即可开始。当然,有时可能有理由要等到另一个测

WhatsApp 号码数据”是指用户在 WhatsApp 号码数据 创建帐户并与其他用户通信时输入的所有电话号码。因此,电话号码信息对于通话、群聊和用户身份验证必不可少。由于数据是端到端加密的,因此只有呼叫者才能阅读消息。由于 WhatsApp 号码数据被视为个人信息,因此 CCPA 和 GDPR 等法律对其进行保护并要求公司合理处理。组织必须采取必要的措施遵守数据保护法规,以保持用户信心,因为不受监控地使用或交换 WhatsApp 号码可能会导致隐私侵犯。

试完成后再开始测试;即当测试内容不相符或相互矛盾时。一个引人注目的例子是,如果测试 1 测试颜色空间灰色作为新的背景颜色,而另一个测试 2 希望使用相同的颜色作为字体颜色或为图标着色。一个更实际的想法是,一个测试删除一个元素(例如菜单栏)以简化布局,而另一个测试则检查同一元素的内容或设计的更改。

影响(干扰)可以变得可见

WhatsApp 号码数据

在实践中,当我们想要并行运行测试时,我们经常会听到这样的担忧:我们无法知道并行运行的测试是否以及如何相互影响。也许测试 1 的更改仅起作用,因为用户从另一个测试中收到了某种刺激(或者,相反,正是因为这个原因,它们不起作用)?也许(稍后会详细介绍),但正是通过并行测试以及随后根据其他测试中的变体成员资格进行分段评估,我们才能真正使这些干扰变得可见!因此,这与其说是反对并行测试的论据,不如说是支持并行测试的论据举个例子:假设两个测试并行运行,每个测试都有一个对照和一个变体,我们想要分析第二个测试的变体是否影响第一个测试的结果。为此,可以在测试 1 中形成两个段。分段 1 包含同时属于第二次测试对照组的所有用户,分段 2 包含第二次测试变体中的所有用户(见下图)。如果两个部分的效果显着不同,则可能是两个测试之间存在干扰,可以通过后续测试进一步调查或评估。如果我们要独立运行测试,即通过串行或隔离测试,我们将无法进行这种比较。
然而,原则上应该提到的是,如果预计会出现干扰,MVT 设置(多变量测试)比事后分割为单独组合的独立测试更合适。

(假定的)并行测试的缺点

正如一开始提到的,A/B 测试 您的品牌需要的一项关键技能!公关危机管理 社区中存在一些声音,警告并行测试会增加出错的可能性。但实验的基本思想是什么?我们在一组用户中设置刺激(变体),而不是在另一组用户(对照组)中设置刺激(变体)。除了这一变化之外,两个组的用户应该具有相同的组成,这通常通过随机分配到测试组来确保。这使我们能够在一定程度上确信测试组之间用户行为的所有“显着”差异都与刺激集存在因果关系。

平行测试稀释了样品并使其无法使用

有人批评并行测试不再 亚洲电话号码 遵守这一基本原则。担心的是,由于同时运行的测试,用户会对网站有不同的体验,从而稀释单个实验的结果,在该实验中,我们实际上试图评估一种变体中的更改对用户行为的影响隔离中。我们会回答,受控在线实验从根本上来说不是实验室条件下的实验,而是可能受到各种外部影响因素“干扰”的所谓现场实验。即使没有额外的并行测试,我们也无法确保所有用户在变体中拥有相同的用户体验并遵循相同的用户旅程。有些用户将所有商品放入购物车后直接结账,有些用户则先再次查看购物车。有些用户会阅读精心设计的产品描述,并根据各种消费者心理触发因素进行优化,而另一些用户则只对价格感兴趣,并据此来决定是否购买产品。无论如何,在线实验的数据差异很大。并行测试中的一个(或多个)附加变体的影响只是众多因素中的另一个。通过将用户随机划分为单独的测试部分并使用足够大的样本,我们仍然可以确保用户体验中可观察到的变化均匀分布在所有测试变体中,从而确保可比性。这也适用于并行测试,因为变体分配在两个测试中独立发生。这意味着:如果用户已经在测试中并且现在正在参加第二个测试,则第一个测试的变体不会影响该用户在第二个测试中体验到的变体(见下图)。对照和变体仍然具有可比性。在强制购物车的变体中,所有 50,000 名用户也将参加第二次测试,其中 25,000 名用户将在第二次测试的两个变体之间分配。同时,第一次测试控制下决定跳过购物车直接结账的用户(此处:30,000名用户)将根本不会参加第二次测试。只有自愿进入购物车的 20,000 名用户才能参加第二次测试,其中 10,000 名用户将在两个版本之间分配。如果强制购物车的变体表现更好(或更差),这不一定是由于强制访问购物车,也可能是由于更多(此处:15,000)用户看到了该商品在此变体中优化了购物车。然而,这些都是边缘情况,我们通常可以使用替代测试模型(串行或隔离)来预测和解决。

结果有效性受到影响

对并行测试中所谓的错误率增加的进一步批评涉及测试变体之间可能存在的干扰(见上文)。令人担心的是,如果独立评估平行实验并确定每次测试的获胜者,则不会考虑干扰。这可能会导致推出的变体组合较差。在下图中,我们绘制了这种情况的示例数据(第一列和第二列)。在测试 1 中,对照组的转化率 (CR) 为 6%,变体的 CR 为 5.5%。在测试 2 中,该变体实现了比对照更高的转化率 (6.2% > 5%),并将相应推出 – 为简单起见,我们假设效果显着。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注