最具创新力的公司已经受益的 3 个优势

来自 efsddersf|已发表 15 10 月, 2024

亚马逊、微软、Uber、Airbnb 或 booking.com 等创新型高增长公司与其他公司有何不同？除此之外，他们还并行进行了数千项实验。他们这样做是因为他们了解实验计划的（战略）价值，并且知道除了阳性结果的比例和产生的平均提升之外，所进行的测试数量也是一个关键的成功因素²。他们愿意投资于测试，因为他们首先意识到一个优势：并行测试可以快速提供可用于组织所有领域的见解。但并行测试真的是可扩展性的圣杯吗？这真的能节省时间吗？然而，正如一些有争议的讨论所表明的那样，事情并不像听起来那么简单。 Malwarebytes 优化主管 Andrew Anderson 警告说：“用户的混合会导致错误概率更高，以及每日和平均方差更大，这意味着更难获得可用的结果。”但这是否意味着并行测试会产生稀释甚至不正确的结果？

A/B 测试的提升何时与业务真正相关？

最小可检测提升是您希望至少基于特定测试持续时间检测到的提升，以便 a) 获得统计上有效的结果，b) 表明测试成功，并且您现在将推出该概念。除了统计有效性之外；从商业角度来看，什么时候才能真正说测试是成功的？为此，提前将成本效益分析作为测试计划的一部分并问自己这样的问题是有帮助的：该概念实际上必须产生多少额外销售额才能至少覆盖实施或实施的成本。在最好的情况下，更能产生显着的利润增长吗？如果您曾经处理过 A/B 测试的 ROI 计算主题，您可能知道从方法上来说，预测 A/B 测试对未来的提升价值是很困难的。为了能够估算销售价值，我们在这种情况下选择了一种务实的方法：一方面，

因此，电报数据或通过电电报数据脉冲通过电线发送的信息是第一种长距离通信。摩尔斯电码的广泛使用，使用户能够使用简短的点和划来计时消息的传输，促使这种新的通信方式在整个 19 世纪得到广泛采用。由于电报使新闻能够在城镇、州甚至大陆之间迅速传播，因此对新闻业、军事和商业生活产生了重大影响。尽管与电话和互联网等更先进的技术相比，电报的性能较差，但它为现代数据传输网络和国际通信奠定了基础。

该工具向您展示了如果推出测试概念，您将根据每月的特定提升实现的额外转化（为简单起见，不包括“折旧因素”形式的习惯效应）这里，这会随着时间的推移而增加隆起而减少）。如果您还可以选择在工具中指定您网站上当前的转化价值（以欧元为单位）有多高（基于月平均值），您将在输出窗口中收到有关提升的货币评估的信息。对于不同的提升场景，您将看到如果发生特定的提升并且向所有用户推出该概念，您将实现多少额外销售额（简化的投资回报率计算规则也适用于此处）。额外的转化或额外的收入有助于在测试计划期间考虑成本效益并进行简化的投资回报率分析。通过将业务相关性纳入测试路线图规划中，可以更好地确定测试的优先级。从这个角度来看，我们的工具可以帮助您在测试计划期间更好地评估和回答重要问题。我们无法最终回答哪些提升是真正现实的最终决定。 A/B 测试最终是“学习、验证和适应”概念的应用。这也适用于测试计划。您获得的经验越多，测试的质量就越高。

关于作者

作为一名经济学博士，朱莉娅多年来一直致力于计量经济模型和统计方法的研究，并在汉堡赫尔穆特·施密特大学进行教学和研究。在柏林 Zalando SE 的数据科学团队和现场测试团队中，她将知识和经验运用到实践中，对用户行为进行了大量的 A/B 测试和数据分析。作为 konversionsKRAFT 的首席数据科学人员，她负责数据分析和数据科学、个性化和网络分析领域。您的重点是从数据和模型中生成有关用户行为的相关见解，并使用它们来有效优化和个性化数字客户旅程。

隔离测试

在隔离电子邮件营销：使用这些指标了解您的营销活动是否成功测试中，测试 1 和测试 2 在同一时间段内进行。但是，之前已定义部分用户将进入测试 1，而另一部分用户将进入测试 2。这些测试同时运行，但每个用户只能看到一个测试。对于网站上有大量流量的组织来说，这可能是一个真正的竞争优势，因为他们可以并行运行（几乎）任意数量的测试。为了能够以相同的测试功率进行测试，测试运行时间必须相应延长。简而言之：如果将测试数量增加一倍，样本大小就会减半，从而使测试运行时间加倍。

并行测试

通过并行测试，实验实际上是并亚洲电话号码行运行的，这意味着每个用户可以同时参与测试 1 和测试 2，因此在每种情况下触发的目标都会计入这两个测试中。例如，在第一个测试的控制和变体以及第二个测试的控制和变体中，100,000 个用户将被分为 50,000 个用户（见下图）。如果测试之间不存在异常依赖性，并且测试工具的随机化按预期工作，则一个测试的每个变体中的用户应大致均匀地分布在第二个测试的变体中。这意味着：在测试 1 的对照组中，大约有 50% 的用户来自第二个测试的控制组，50% 来自第二个测试的变体，以及第一个测试的变体中相同数量的用户。对照和第二个测试的变体。这意味着并行测试对用户行为的所有影响应该在所有变体中以相同的程度发生，这基本上确保了可比性。

我们可以进行无限次测试

如果测试可以轻松并行运行，那么公司可以运行的测试数量就没有逻辑限制。无论是串行测试还是隔离测试，可用流量都会限制一定时间段内的测试数量（无论观察期如何）。通过并行测试，组织可以无限期地进行实验，即使在流量相对较少的网站上也是如此，从而使用与上述市场领导者相同的增长动力。由于所有假设都可以得到检验，真正的创新思维就会传播开来。如果由于交通限制，每年只能进行几次测试，因此许多想法从未得到测试，那么不断寻找新的优化机会（甚至尤其是小的优化机会）的动力就会降低。尽管大肆宣传无限测试，但在实践中很可能存在技术限制，限制同时运行的测试数量。例如，如果访问页面时必须在客户端运行过多的测试工具脚本，这可能会对产生影响，从而从根本上恶化用户体验。

A/B 测试的提升何时与业务真正相关？

关于作者

隔离测试

并行测试

我们可以进行无限次测试

发表评论 取消回复

发表评论取消回复