智能推荐-广州芦苇科技

智能推荐是非常重要的数据产品，是比较早期的实现了智能化、自动化的的数据产品。

在现在的科技发展中，客服智能化了么？没有~优惠券？定价？都还没有智能化，只有分发实现了智能化。

字节跳动做智能推荐很厉害，对公司的业务产生了巨大的变革，所以今天我们把智能推荐这个事情来聊聊。

智能推荐的背景

用户越来越多，商品越来越多，那么用户想要找到想要找到的商品也越来越困难，让某个或某些产品在众多产品中脱颖而出也是特别特别的困难，简单的来讲就是供需匹配，两者无法匹配的上，所以怎么办呢？如何解决这个问题呢？

各类方案解决的优劣

所以当前有这么几种解决方案，分别是搜索引擎、分类目录和智能推荐，接下来我们就简单介绍一下这三种解决方案的优劣势。

搜索引擎需要用户主动去搜索，这个是百度干的事儿，但是这个时候是需要用户的目的性很强才行，要知道自己想要什么，但是很多时候我们并不知道我们想要什么东西，我也不想去绞尽脑汁去想我要什么，只想放松，那搜索可以做到么？做不到，可能搜索出来的东西并不是可以满足我们的东西~
分类目录在这个里面，我们要知道我们想要的东西属于哪一种属性，知道了之后才能去找，如果分类属性选择错了，那就在当下这个错的目录里面永远也找不到我想要的东西。而且一旦我不清楚我自己想要什么的时候，面对纷繁复杂的分类目录，更是无从下手~
智能推荐
而智能推荐呢？我不需要用户提供明确的需求，我只需要根据用户的历史行为去建模，然后根据他们的历史行为判断接下来的行为和喜好，去给用户做相对应的内容、产品推荐。所以当用户没有明确的目的的时候，也可以帮助用户发现新内容

智能推荐的机制

人建立用户画像，给用户打上事实标签和模型标签，什么是事实标签？就拿虚拟人物“小明”举个例子吧！小明经常在某购物平台上购物，并已完善自己的个人信息，那么平台就会把该信息收集，作为事实标签。

姓名：小明性别：男身高：180cm 体重：70kg 爱好：看电影职位：产品经理目前所在地：上海

消费等级：极高（根据日常消费习惯判断）常看类型产品：高科技产品，数码产品，大牌运动鞋

那什么是模型标签呢？就是系统可能会把一类人划分为一个模型，他们的事实标签可能会比较相似，这就是一个模型标签，我接着拿玉康举例子，比如说系统给他们这一类人建的模型标签名称是“大款”，那可能别的某个大款看上了一个布加迪，加购并付款了，虽然孙玉康没有看这个产品，但是可能布加迪及相关产品也会出现在孙玉康的推荐列表中
货（内容）
给内容或产品打上标签，比如一个运动上衣，可能会有夹克、运动、长袖、外套等等各种各样符合这个产品的标签，并记录这个产品的售卖数量，收藏、加购的数量等

然后通过人货模型，就可以知道，比如说：年轻的女孩子，喜欢口红，包包、购物、逛街；年轻的男孩子，喜欢女孩子，喜欢手机、手表、汽车，然后怎么匹配呢？
场
就是在对应的场里做匹配，比如说首页、Feed流、导航栏、个人中心等等，在你想要的场景匹配上你所需要的数据

然后我可能有了这个标签的推荐方法，我把一个东西推给一部分人，然后这部分人很喜欢这个东西，那我就可以把这个东西推给更多类似的用户了，然后不停不停的去扩展流量，我就知道每个用户喜欢什么东西了。

智能推荐系统的框架

数据采集
怎么去采集啊？要去做埋点，要去记录用户的数据。比如说一个用户打开了我们的某小程序，他注册的信息是什么？他是几点打开的，几点关闭的小程序，查看了哪些页面，浏览了哪些产品，每个页面的停留时间是多久，用的4G还是5G还是WIFI啊，在哪儿？这时候用户数据和行为数据都知道了，那什么是内容数据呢？比如说抖音，亿万的人在抖音产生了几千亿条抖音短视频，这些都是内容数据。
数据整理
采集到数据之后，就要把数据做标注，数据标注的类型有：图片标注，语音标注，文本标注，视频标注，道路标注，行人标注，人脸106点，图像语义分割等。然后有些数据是重复的，需要做合并，有些是无意义的数据，影响后面的数据整理，那就做数据清洗，把它干掉等等
画像体系
有了这些数据，我们就可以生成画像了，就知道是什么了。画像有人物画像，也有商品画像；我们继续来说小明，比如说：小明，26岁，性别男，爱好看电影，喜欢吃小龙虾，商品画像其实就是描述这个商品的内容的东西。
算法引擎
协同过滤：比如说小明喜欢《数据挖掘导论》，小红喜欢《三个火枪手》，基于 UserCF(用户协同过滤)，找到与他们偏好相似的用户，将相似用户偏好的书籍推荐给他们；还可以基于ItemCF(物品协同过滤)，找到与他们当前偏好书籍相似的其他书籍，推荐给他们。

隐语义模型：根据用户的当前偏好信息，得到用户的兴趣偏好，将该类兴趣对应的物品推荐给当前用户。比如，小明喜欢的《数据挖掘导论》属于计算机类的书籍，那我们可以将其他的计算机类书籍推荐给他；小红喜欢的是文学类数据，可将《巴黎圣母院》等这类文字作品推荐给她，这就是隐语义模型。

此外还有聚类模型
推荐接口
由于有这些底层的数据及算法，那就可以根据这些数据通过接口，在某些场景去给他们做分发，我们继续来说小明，不仅喜欢吃老乡鸡，还喜欢打网球，弹琴，琴棋书画样样精通啊。孙总打开手机的时候，我就可以在他的用户端的各个模块下给他推荐他喜欢的东西了
底层规则控制及配置
比如说我知道小明喜欢吃老乡鸡，可是我已经给他推送了3天了，第四天我再给他推送，估计他就吐了，那我给他推送一波小厨娘，名称就很符合小明的审美嘛，他是不是就很大概率会买呀，这个就是一些规则的控制与配置，最后通过重新得到的数据去统计分析
数据采集及画像构建
有些数据用户会手动填写，有些我们需要根据用户的行为去分析、推测，还有一些需要我们去埋点获取
根据数据，构建用户画像
根据各个标签，我们可以知道这个人的用户画像。然后根据这个人是谁，我们就可以去查找他对应的信息有哪些，我们就可以根据用户画像中的信息去推送他喜欢的东西。

算法的工作机制
我们把用户画像和商品画像丢到了算法池子里，过来一个一个用户请求后，我们会先调用用户画像，让我看看你是谁？然后我会再看看我有哪些东西，知道了这些后，系统会按照你的需求去做召回，把东西从库存中拿出来，比如说我从热点里召回了500个，从兴趣中召回500个，从TOP队列中再召回500个，从很多队列中召回。比如说我们召回了1500个东西后，我不可能全给你展示，还是太多了，那我就会给这1500个东西评分，排出来个123，所以就会通过协同过滤去做一个排名，用RFM模型去做排序。这是第一次排序。

然后会根据一些运营规则和玩法再去做一次排序，为什么要做两次排序呢？因为计算量太大了，所以要做两次排序。

排序之后，就是对每个人做一个千人千面的展示了。