智能推荐

2021-05-312747

智能推荐是非常重要的数据产品,是比较早期的实现了智能化、自动化的的数据产品。

在现在的科技发展中,客服智能化了么?没有~优惠券?定价?都还没有智能化,只有分发实现了智能化。

字节跳动做智能推荐很厉害,对公司的业务产生了巨大的变革,所以今天我们把智能推荐这个事情来聊聊。

智能推荐的背景

用户越来越多,商品越来越多,那么用户想要找到想要找到的商品也越来越困难,让某个或某些产品在众多产品中脱颖而出也是特别特别的困难,简单的来讲就是供需匹配,两者无法匹配的上,所以怎么办呢?如何解决这个问题呢?

各类方案解决的优劣

所以当前有这么几种解决方案,分别是搜索引擎、分类目录和智能推荐,接下来我们就简单介绍一下这三种解决方案的优劣势。

  • 搜索引擎 需要用户主动去搜索,这个是百度干的事儿,但是这个时候是需要用户的目的性很强才行,要知道自己想要什么,但是很多时候我们并不知道我们想要什么东西,我也不想去绞尽脑汁去想我要什么,只想放松,那搜索可以做到么?做不到,可能搜索出来的东西并不是可以满足我们的东西~

  • 分类目录 在这个里面,我们要知道我们想要的东西属于哪一种属性,知道了之后才能去找,如果分类属性选择错了,那就在当下这个错的目录里面永远也找不到我想要的东西。而且一旦我不清楚我自己想要什么的时候,面对纷繁复杂的分类目录,更是无从下手~

  • 智能推荐
    而智能推荐呢?我不需要用户提供明确的需求,我只需要根据用户的历史行为去建模,然后根据他们的历史行为判断接下来的行为和喜好,去给用户做相对应的内容、产品推荐。所以当用户没有明确的目的的时候,也可以帮助用户发现新内容

智能推荐的机制

  • 人 建立用户画像,给用户打上事实标签和模型标签,什么是事实标签?就拿虚拟人物“小明”举个例子吧!小明经常在某购物平台上购物,并已完善自己的个人信息,那么平台就会把该信息收集,作为事实标签。

    姓名:小明 性别:男 身高:180cm 体重:70kg 爱好:看电影 职位:产品经理 目前所在地:上海

    消费等级:极高(根据日常消费习惯判断) 常看类型产品:高科技产品,数码产品,大牌运动鞋

    那什么是模型标签呢?就是系统可能会把一类人划分为一个模型,他们的事实标签可能会比较相似,这就是一个模型标签,我接着拿玉康举例子,比如说系统给他们这一类人建的模型标签名称是“大款”,那可能别的某个大款看上了一个布加迪,加购并付款了,虽然孙玉康没有看这个产品,但是可能布加迪及相关产品也会出现在孙玉康的推荐列表中

  • 货(内容)
    给内容或产品打上标签,比如一个运动上衣,可能会有夹克、运动、长袖、外套等等各种各样符合这个产品的标签,并记录这个产品的售卖数量,收藏、加购的数量等

    然后通过人货模型,就可以知道,比如说:年轻的女孩子,喜欢口红,包包、购物、逛街;年轻的男孩子,喜欢女孩子,喜欢手机、手表、汽车,然后怎么匹配呢?


  • 就是在对应的场里做匹配,比如说首页、Feed流、导航栏、个人中心等等,在你想要的场景匹配上你所需要的数据

    然后我可能有了这个标签的推荐方法,我把一个东西推给一部分人,然后这部分人很喜欢这个东西,那我就可以把这个东西推给更多类似的用户了,然后不停不停的去扩展流量,我就知道每个用户喜欢什么东西了。

智能推荐系统的框架

  • 数据采集
    怎么去采集啊?要去做埋点,要去记录用户的数据。比如说一个用户打开了我们的某小程序,他注册的信息是什么?他是几点打开的,几点关闭的小程序,查看了哪些页面,浏览了哪些产品,每个页面的停留时间是多久,用的4G还是5G还是WIFI啊,在哪儿?这时候用户数据和行为数据都知道了,那什么是内容数据呢?比如说抖音,亿万的人在抖音产生了几千亿条抖音短视频,这些都是内容数据。

  • 数据整理
    采集到数据之后,就要把数据做标注,数据标注的类型有:图片标注,语音标注,文本标注,视频标注,道路标注,行人标注,人脸106点,图像语义分割等。然后有些数据是重复的,需要做合并,有些是无意义的数据,影响后面的数据整理,那就做数据清洗,把它干掉等等

  • 画像体系
    有了这些数据,我们就可以生成画像了,就知道是什么了。画像有人物画像,也有商品画像;我们继续来说小明,比如说:小明,26岁,性别男,爱好看电影,喜欢吃小龙虾,商品画像其实就是描述这个商品的内容的东西。

  • 算法引擎
    协同过滤:比如说小明喜欢《数据挖掘导论》,小红喜欢《三个火枪手》,基于 UserCF(用户协同过滤),找到与他们偏好相似的用户,将相似用户偏好的书籍推荐给他们;还可以基于ItemCF(物品协同过滤),找到与他们当前偏好书籍相似的其他书籍,推荐给他们。

    隐语义模型:根据用户的当前偏好信息,得到用户的兴趣偏好,将该类兴趣对应的物品推荐给当前用户。比如,小明喜欢的《数据挖掘导论》属于计算机类的书籍,那我们可以将其他的计算机类书籍推荐给他;小红喜欢的是文学类数据,可将《巴黎圣母院》等这类文字作品推荐给她,这就是隐语义模型。

    此外还有聚类模型

  • 推荐接口
    由于有这些底层的数据及算法,那就可以根据这些数据通过接口,在某些场景去给他们做分发,我们继续来说小明,不仅喜欢吃老乡鸡,还喜欢打网球,弹琴,琴棋书画样样精通啊。孙总打开手机的时候,我就可以在他的用户端的各个模块下给他推荐他喜欢的东西了

  • 底层规则控制及配置
    比如说我知道小明喜欢吃老乡鸡,可是我已经给他推送了3天了,第四天我再给他推送,估计他就吐了,那我给他推送一波小厨娘,名称就很符合小明的审美嘛,他是不是就很大概率会买呀,这个就是一些规则的控制与配置,最后通过重新得到的数据去统计分析

  • 数据采集及画像构建
    有些数据用户会手动填写,有些我们需要根据用户的行为去分析、推测,还有一些 需要我们去埋点获取

  • 根据数据,构建用户画像
    根据各个标签,我们可以知道这个人的用户画像。然后根据这个人是谁,我们就可以去查找他对应的信息有哪些,我们就可以根据用户画像中的信息去推送他喜欢的东西。

  • 算法的工作机制
    我们把用户画像和商品画像丢到了算法池子里,过来一个一个用户请求后,我们会先调用用户画像,让我看看你是谁?然后我会再看看我有哪些东西,知道了这些后,系统会按照你的需求去做召回,把东西从库存中拿出来,比如说我从热点里召回了500个,从兴趣中召回500个,从TOP队列中再召回500个,从很多队列中召回。 比如说我们召回了1500个东西后,我不可能全给你展示,还是太多了,那我就会给这1500个东西评分,排出来个123,所以就会通过协同过滤去做一个排名,用RFM模型去做排序。这是第一次排序。

    然后会根据一些运营规则和玩法再去做一次排序,为什么要做两次排序呢?因为计算量太大了,所以要做两次排序。

排序之后,就是对每个人做一个千人千面的展示了。

分享
点赞1
打赏
上一篇:2018年,我们该如何看待微信小程序?
下一篇:做好项目管理的五种品质