这就是你如何改变统计数据

又一个没有提升的测试。这次你也想不明白到底是哪里出了问题?你应该如何向你的老板解释这一点?然而,在作为优化者的日常生活中,我们反复观察到一个完全不同的问题,实际上与概念本身无关:不正确的统计数据和定量方法中的错误导致无效的测试和统计上不显着的结果或无结论的测试。实际上,通过遵循A/B 测试中重要的统计基本规则,您可以很容易地防止这种情况发生可以很容易地避免这种情况 。例如,这包括在测试开始之前确定所需的测试持续时间并允许测试运行足够长的时间。在对 115 项 A/B 测试进行的研究中,经验丰富的营销人员兼Analytics-Toolkit.com创始人 Georgi Georgiev发现,这些测试中近 70% 的测试“动力不足”(您可以在本文后面找到有关动力概念的更多信息) )。最终,这意味着超过三分之二的测试样本量不足,并且过早关闭,无法有效检测隆起。简单来说,这些测试实际上是针对桶的。

典型的 A/B 测试在实践中失败

以下示例显示了如果不坚持足够的测试运行时间,A/B 测试可能会发生什么情况: 假设网站上正在运行测试,该变体显示转化率提高了 10%。十天后结果显着(置信度 >95%),转化优化工具希望关闭测试。为了保险起见,他再次咨询了数据组的同事。同事提醒他,在测试开始之前,他们共同估算了所需的时间。据此,所需的测试时间为4周,目前尚未达到。她还建议在达到此限制之前不要定期检查该工具。这极大地增加了错误率,即意外发现实际上不存在且只是偶然出现的隆起的可能性更高。 转换经理同意道:“那我们就再等几天吧。应该改变什么,”他心里想……几天后,人们的幻想破灭了。事实上,效果持

媒体文件、GPS 位置、通话和 电话数据 消息日志、应用程序使用情况、移动访问和浏览器历史记录只是手机数据中可能包含的众多信息类型的几个例子。企业需要从多个通信渠道获取高度定制的数据,以便进行分析、互动和定向广告。它受到许多隐私法的约束,包括《通用数据保护条例》和《加州消费者隐私法案》,这些法律规定,由于数据包含敏感信息,企业在收集或使用用户数据之前必须获得用户的事先授权。对手机数据的不当处理可能导致身份盗窃、严重侵犯隐私和其他安全风险。为了保护用户并遵守这些规则,数据处理必须合乎道德且安全地进行。

续下降,CTBC(“击败控制的机会”)已降至 80% 以下。我们在实践中经常观察到的是:在测试运行时,我们不断检查工具,看看是否已经有了显着的提升。通常,这种检查是在达到最小期限之前进行的,或者根本没有这样的估计。一旦出现明显的升高,测试就会提前关闭。对于A/B 测试的频率论方法,获得有效结果的一个重要先决条件是,在测试之前,您对预期影响进行尽可能准确的估计,从而得出测试运行时间的估计。应始终避免在测试期结束之前定期检查工具!这增加了观察纯粹偶然发生的显着隆升时出错的可能性。如果您随后关闭测试,则会错误地识别提升,而实际上根本不是提升。 在示例中,10%的临时效果和高CTBC并不是基于足够长的测试运行时间的有效结果,而只是一种随机的、暂时的现象,并不表明实际转化率有显着提高。 注意:这种情况当然也可能以相反的方式发生:在测试期间观察到隆起,但一开始并不显着,只有在计算的测试持续时间结束后,结果才变得显。

如何可靠地证明变体的提升

电话数据

为了避免这些错误,您必须在开始测试之前对所需的测试运行时间进行适当的估计。在这种情况下,人们还谈到术语“统计检验功效”:统计功效是能够通过实验检测到隆起(如果确实存在)的概率。因此,功效也称为测试强度,表示测试能够显着证明差异的程度。 如果测试的功效至少为 80%,则将被视为强测试80% 的值是 A/B 测试中功率级别使用的标准值。这意味着有 80% 的概率检测到实际存在的隆起。相反,仍有 20% 的风险我们无法检测到实际存在的隆起。您可能听说过所谓的“beta 错误”或“漏报”(2 类错误)。如果实验的功效太低,我们就有可能找不到真正的提升。更糟糕的是,我们关闭了一项实验,因为它显示了一个重要的胜利者,而实际上并没有一个。当发生类似的情况时,称为“alpha 错误”或“误报”(I 类错误)。

使用我们的样本量工具计算所需的测试持续时间

重要的是,转化率是指访问过待 什么是追加销售?15 个追加销售技巧和示例,助您提高收入 测试页面的访问者。对于产品详细信息页面的测试,您可以使用实际访问过产品详细信息页面的访问者的转化率(提示:为了计算,我们建议在网络分析工具中创建相应的细分,其中相关访问者基数记录页面类型)。欧元转化价值字段是一个可选字段,旨在帮助您更好地评估预期提升并更好地确定测试的优先级。它向您展示了如果您要推出成功的测试概念,测试概念将根据您的输入和特定的提升产生多少额外销售。

使用样本量工具正确解释 A/B 测试

您可能已经注意到,该工具不需要 亚洲电话号码 您输入任何关于您实际期望从测试中获得什么提升的信息,尽管这实际上是测试运行时的相关影响因素。在许多在线可用的工具中,需要该值作为用户的输入,以便能够计算测试持续时间。我们希望让该工具在右侧的输出掩码中向您显示不同提升场景的不同测试持续时间估计,从而使这一困难的评估对您来说变得更容易。显示的提升表示根据您的输入的最小可检测提升(MDE = 最小可检测效果) 。例如,它表明如果测试可以运行 1、2 或 3 周,您可以展示哪些提升。反之亦然:对于您想要证明的不同提升,确定相应的所需测试周期(以整周为单位)。

哪些提升是现实的?

该工具使您有机会计算不同的提升场景:什么是最好的情况,什么是最坏的情况?我们建议更保守地估计可以实现的提升,以确保测试持续时间足够,即使结果比您希望的要少一些。通常情况下,可用的测试时间是限制因素。每个优化者可能都听过这样的说法:“我们必须在两周内得到结果”。我们工具中的这种方法可以让您更好地评估是否可以通过测试概念实际实现提升(可以在两周内通过统计证明)。通过干净的测试持续时间计算,您可以为延长测试周期、修改概念甚至在优先级中选择另一个更有前途的概念奠定良好的基础。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注