真人签收礼品空包网:机器学习在优惠券推荐中的应用

多比老虎机如何帮助星巴克向顾客发放个性化优惠券

你经常在购买产品前等待优惠券吗?你想在买了你不喜欢的东西后放弃使用这项服务吗?

优惠券已被广泛用于提高客户对平台的参与度。通过向用户提供挑战和相应的回报,公司的服务不仅变得更有吸引力,更重要的是,它可以引导用户成为常客,从而增强品牌对客户的影响力。

然而,知道提供哪种优惠券是一项相当复杂的任务,因为每个顾客的属性和每个优惠券的反应是不同的,并且经常向他们提供不良内容可能会使他们远离你的业务。

为了克服这个问题,机器学习技术可以用来建立数据驱动的客户属性,开发更好的优惠券推荐系统。本文介绍了如何在星巴克移动奖励应用中使用K均值聚类和多臂老虎机构建优惠券推荐系统。

这篇论文是提交给乌达城的机器学习工程师纳米学位的顶点项目的结果。源代码在https://github.com/guejoaofelipe/ml-engineerer-capstone.

所以,废话少说,让我们言归正传。

星巴克奖励移动应用

每隔一天,星巴克将向用户发送有时间限制的报价,所有报价都有自己的完成条件和截止日期。每个报价都可以通过多种营销渠道(电子邮件、手机、社交媒体和网页)发送,一旦完成报价挑战,客户将获得与报价相同难度的奖励。

当用户查看活动时,他们可以决定:

完成这项挑战:)

忽略这个挑战,虽然没有优惠券,但还是会被购买

忽略一切: (

以下是几周内应用在市场渠道的流量:

星巴克奖励应用程序中的三键客户流程图

活动启动后,我们根据每个营销渠道进行分析:

报价尚未转换

转换为购买

导致未来的购买

被忽略,但用户仍然从应用程序中购买。

在抽样数据集中,100%发送的报价已被浏览——,这可能是因为报价是通过多个渠道发送的。优惠的高浏览量带来了一个积极的特征,这使得顾客有品牌意识并关心公司建议的优惠。当这些提议导致购买行为时,可以推断顾客不仅意识到品牌服务,而且被品牌服务所吸引。

然而,相当多的购物是不用优惠券的。这表明,即使使用了适当的营销渠道,商家提供的回报对用户也没有吸引力,这更多的是关于产品的特性,而不是营销策略本身。也许使用相同的渠道,通过改变发送的报价(这将是我们推荐系统的任务),客户将接受活动并获得奖励。在漏斗的末端,一个报价能完成的最重要的任务之一是说服顾客在未来购买。这可以作为一个代理,使客户成为品牌倡导者。

当顾客倾向于反复购买一家公司的产品时,他/她可能会说服周围的人尝试这种产品,从而在市场上产生更大的知名度和吸引力。

请注意,这对于移动奖励应用来说是一个大问题,因为111k活动中只有22.9k会导致未来的购买。

请记住,在发送报价后,用户参与漏斗的每个步骤所花费的时间与销售线索状态高度相关。铅指的是一个潜在的买家,可以是冷的,热的或合格的。一旦用户查看了报价,他认为用户对报价感兴趣,并被认为是潜在客户。

例如,当一个客户打开通过电子邮件发送的报价时,他可能会被标题内容所吸引,所以我们认为他是在“热身”。然而,如果他/她不继续接受邀请,他/她会对我们的活动越来越漠不关心,这意味着他/她接受邀请的兴趣会逐渐减弱。

理想情况下,用户应该花很短的时间来观看、参与和完成。以下是我们数据集的时间分布:

从(a)发送和提供到观看的时间间隔分布,以及(b)观看和提供并完成其时间间隔分布

请注意,从查看到完成的时间分布(以小时为单位)大致遵循长尾分布。这意味着大部分购买来自推送,并且报价立即完成。为了分析分布尾部的长度,我们可以将数据拟合到一个概率分布函数为幂分布的函数。

参数越小,尾巴越长。对于我们的数据集,第一个区间的=10.57,第二个区间的=7.01。当然,这些间隔会受到报价属性的很大影响,例如报价的难度和持续时间。这些属性只在用户查看时影响这个时间间隔——,这就解释了为什么我们活动的尾部很长。

这一营销概述可以帮助我们创建一个用户函数,该函数指示报价对给定客户的合适程度:我们称之为MAB奖励函数,其算法描述如下。

多臂老虎机(MAB)

为了解决老虎机问题,MAB优化算法在统计学领域得到了广泛的研究。假设你有一个代理人(赌徒),他可以反复选择k个可用的吃角子老虎机中的一个,并可能赢得钱。当赌徒在玩吃角子老虎机时,他注意到其中一个人似乎给了更多的奖励,所以他想用吃角子老虎机来获得更多的奖励。然而,其他老虎机也可能给予更多的奖励。在这种情况下,他需要决定是否这样做:

使用迄今为止台累积奖金最多的机器

探索其他可能带来更多长期累积回报的机器

理论上,代理试图估计每个台机器的回报概率分布函数,并且不会在那些期望较低回报的机器上浪费太多的尝试。

用最简单的数学公式来说,MAB的每台机器都有一个概率分布,期望收益和方差,所有这些在开始时都是未知的。然后,在每一个时期,拉下吃角子老虎机a_i的手臂,得到一个奖励。然后,赌徒们遵循一个策略来选择下一个拉哪个老虎机臂,哪一个到目前为止给出了最高的回报,或者另一个臂可能带来更好的回报。T轮的最高回报率由以下等式给出:

其中是最佳老虎机的预期回报。换句话说,他需要在探索和利用之间做出选择。

一些技术已经被用来解决这个问题,其中之一是-贪婪方法。在这种经典的方法中,每一轮的赌徒以概率1-选择经验收入最高的老虎机,或者以概率随机选择另一台。

可以推断,这一参数对勘探和利用的影响已经过权衡。它越高,获得经验最多的吃角子老虎机被选中的概率就越低,这导致赌徒探索更多的选择。相反,它越低,算法就越倾向于选择贪婪的算法,即历史收益最高的算法。

贪婪是无数算法的基础。为了在最初的几轮中探索得更多,并在以后得到更多的利用,可以被引入到贪婪方法中,并随着轮数的增加而衰减。在这种情况下,下一轮定义为:

其中控制下降速度,n是当前的轮数。此外,可以定义阈值来限制最小探测概率,并防止探测概率在多次循环后衰减太多。

MAB算法已经应用于许多需要连续决策的应用中,如推荐系统。在这种情况下,MAB被用来建立一个消费模型。考虑到用户(代理)被提供了几个项目(老虎机),他们可以根据奖励概率分布函数来消费它。

在当前的星巴克奖项目中,他们建立了一个客户属性模型,将每个分支视为一个报价,并定义了一个个性化的奖励函数来获得用户可以获得的优惠券和营销业绩,这将在后面讨论。将MAB应用于星巴克奖励应用

当把MAB应用于一个问题时,关键的一步是定义它的奖励函数。正如我们所看到的,客户进入营销渠道的深度显示了报价策略有多好。在这个意义上,可以使用以下奖励函数:

这里所有的变量都是二进制的,除了提供奖励。等式的下限是0,这是在不考虑报价的情况下发生的(报价完成=0,未来采购=0)。最佳回报来自高报价的回报,所有二元变量均为1,包括未来购买——,这是营销策略的圣杯。

一旦我们建立了这个函数,我们就可以使用以下变量来创建数据驱动的客户属性:

年龄、收入

订阅后数年

每种产品的平均单次奖励

在对用户进行聚类后,每个组都被建模为一个MAB,相当于一个老虎机的手臂。下图描述了用MAB训练的20种真实情况的平均奖励的演变:

-贪婪衰减法,平均奖励20个现实

最后,我们可以预测用户的聚类类别,并通过从相应的MAB中提取一个分支来推荐他们的报价。因为在每次迭代中只能拉动一只手臂,所以人们自然会关注产品的多样性。那么,在培训阶段多久选择一次报价?让我们看看下面的图片:

将所选臂的数量分组

可以看出,在大多数聚类类别中,10个报价中有3个是高概率选择的,这意味着通常推荐30%的组合。这个数字受MAB收敛后的检测率影响很大。当勘探程度较低时,模型倾向于只推荐那些已被证明能提供最高回报的投标。较高的探索率可以为推荐系统带来更好的多样性,但它可能会影响模型在使用预测中的性能。

赞(0)
未经允许不得转载:京东空包 » 真人签收礼品空包网:机器学习在优惠券推荐中的应用
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址