信封 Facebook Instagram. 链接in. 推特 喊叫 YouTube

用yelp消费者指标预测业务收入

我们如何利用订婚数据来了解德克萨斯州酒精销售

在yelp,我们认识到艰难的小企业所有者如何为客户提供巨大的经历,以及确定哪些元素导致成功的必备程度。所以我们问自己,我们的数据可以帮助企业主,投资者和其他人预测业务结果吗?

我们发现一个简单的模型结合了关于如何消费者参与到企业中来,在哪里业务位于,什么它的类型和业务类型什么时候它成立,使我们能够预测最关键的业务结果:收入。以及给定类型的企业的元素最多?消费者与业务进行婚姻。

发现秘密酱

俗话说,德州的一切都更大,数据也确实如此。孤星州要求所有提供酒类的企业每月报告饮料销售收入。酒类销售额通常占餐馆总销售额的四分之一以上而且,对于酒吧和俱乐部来说,该部分可能要高得多。因此,德州数据集是我们可以判断一个试图回答问题的模型的金标准,这是“这项业务将多少钱?”

我们首先查看了当地最喜欢的原始数据,Texican Cafe.在奥斯汀,立即注意到2013年左右开始的饮料销售的增长,导致其存在令人羡慕的位置。但是导致收入增长?为成功做出贡献是客户参与,意图和(当然)交易的现象表现。鉴于这些因素在商业成功中发挥的核心作用,Yelp的数据科学将它们正式化为三个指标**对于美国和加拿大的每栋商业地点:yelp消费者订婚度量跟踪每个企业的客户参与情况yelp消费者意图度量表示意图与业务交易,以及yelp消费者交易指标衡量与业务的交易。(有关Yelp数据元素的更多信息yelp知识主页。)在Texican Cafe的情况下,我们可以看到参与度量的增长与收入的激增一致。

Yelp消费者参与度量的增长恰逢饮料收入的增长Texican Cafe.。虽然yelp消费者指标在每周提供,但这句话显示每月平均值,以便与收入数据进行比较。

高级季节性销售弗洛伊德卡津海鲜和德克萨斯牛排餐厅密切追踪其消费者参与号码。虽然yelp消费者指标在每周提供,但这句话显示每月平均值,以便与收入数据进行比较。

上面的两个例子说明了消费者参与和收益对于一些企业是紧密相连的,但是我们仍然想知道Yelp消费者指标对于更大范围的企业是如何预测成功的。为了回答这个问题,我们收集了德克萨斯州6500多个营业点的数据,这些营业点在2017年全年营业,并在当年销售了一个多月的饮料。对于这些业务,我们建立了一个模型来预测每个业务的收入,根据客户与业务的关系,业务位于哪里,业务类型是什么,何时开业。

另一轮为我的朋友和我!

为了评估yelp消费者指标在预测业务成功的情况下,我们构建了最简单的模型:线性回归。仅使用消费者参与度量来预测酒精收入解释了对数转换的收入数据方差的16%。(请注意,垂直刻度是对数的下图 - 收入数据非常倾斜,所以在整个下面我们将使用日志转换的收入作为我们的模型中的目标变量。)使用所有三个消费者度量略微更好地执行,解释17v veriance的百分比†

2017年平均消费者参与较高的企业获得了饮料销售额的总收入。示例业务以黑色显示。注意,消费者参与度量覆盖在1和20的值之间(意图和事务度量分别在1-10和1-4的范围内被类似地限制在1-10和1-4之间)。数据沿水平轴的数据不均匀是由于德克萨斯饮料数据集中的某些类型的业务。

但是看着这个数字,我们可以看到剩下相当大的可变性。有一件事,我们的例子(以黑色表示)大大增加了比简单模型所预测的收入大大:Texican Cafe的总销售额差约为600k,而该模型仅根据用户参与预测400K $ 400K。Floyds的差异是类似的 - 我们低估了两家企业的收入超过30%。

本地浇水孔

商业地点是销售的重要决定因素。我们在yelp数据集中的每个业务拥有异常细粒度的位置数据,但是对于本研究的目的,我们将它们聚集成相当粗糙的地区:国会区。虽然GerryMandering可能是一个令人担忧的是,使用政治分歧进行分组业务位置是方便的,因为它们旨在封装类似数量的人。

每个国会区的企业平均酒精收入,较暗的颜色表明饮水销售额更高。示例业务的位置以黑色显示。

通过将国会选区添加到这个简单的模型中,我们可以解释仅由企业之间的地理差异预期的收入差异。在此之后,模型的性能可以解释19%的方差。

选择你的毒药

到目前为止,我们一直在忽视一个明显的重要特征,以确定企业赚取多少酒精收入​​:我们在谈论什么类型的业务?运动栏可能比电影院销售更多的酒精。下面您可以探讨客户参与和所有商业类别的收入之间的关系,其中包含至少50个企业††。值得注意的是,对于每个类别更高的参与推动更高的收入,但这种关系通常会根据类别转移或下降。

参与和收入之间的关系取决于商业类别。(单击图例中的条目以切换其可见性。双击重新切换所有类别的可见性。)

通过向我们的简单模型添加类别信息,我们能够解释收入的43%的差异。预测权力的这种大幅增加表明了评估销售潜力时的类别信息有多重要。我们在上图中使用了颜色以指示在简单模型中的其他功能占用后,每个类别中的相对调整需要。为了更加了解类别扮演的角色,我们绘制了以下的相同数据,显示了哪些类别(最少)可能会推动更高的饮料收入:

夜生活类别通常带来比食品为中心的饮料收入。

你的复古是什么?

最后,我们可以考虑企业健康状况的另一个指标——开业时间。在加入这个特征之后,我们的模型解释了44%的方差。这种构建模型的迭代方法几乎可以无限地继续下去,但在这一点上,我们已经探索了各种指标,并使用一个极其简单的模型解释了几乎一半的方差。在这个过程中,我们已经确定了一些主要的业务收入预测因素。

在Vino Veritas.

尽管我们生成的模型简单,但它可以提供几个重要的商业洞察力。例如,希望扩展到新地点的企业所有者或投资者可以使用yelp数据来预测地理位置的业务结果。鉴于消费者指标与收入之间的正相关性,即使在控制其他类别,地点和年龄之类的其他元素时,企业主可以将自己的消费者参与与当地人的类似企业进行比较,以了解他们如何排名。这可能反过来揭示加强消费者参与的机会。投资者可以识别哪些商业类别在地理位置中提供最强大的成果,其中特定企业具有最强的参与,从而获得成功的最高可能性。

睡衣

通过将yelp消费者指标与其他关于当地企业的其他数据组合,我们使用最基本的型号解释了少数酒精收入方差的一半。仅使用位置,类别,年龄和叶利消费者指标的线性回归能够预测Floyds Cajun海鲜和德克萨斯州牛排馆的年度饮料收入,以100%的额度。同样的型号在Texican Cafe上表现更好,实现了5%的误差,只是小费的一小部分我们下次离开我们的名人玛格丽塔斯之一!

基于不同特征组的模型性能。消费者参与和类别有助于大多数预测力。

*看到例如本文从uncorkd

**每周建造yelp消费者指标,通过掌握各种用户交互(页面浏览量,点击网站网址,电话,电话,评论发布等)为每个业务进行加权,然后排名这些总和以消除增长的效果随着时间的推移yelp平台。

报告的所有值对于解释的差异是使用5倍交叉验证的验​​证集的性能手段。整个文本中提到的两个示例业务被排除在培训集中。

††我们删除了几个类别以减少共同性。