随着互联网逐渐步入大数据时代,运营商和用户的行为不可避免的发生了改变和重塑。最为突出的变化是,大数据使得用户行为“可视化”。利用海量数据精准生成的“用户画像”,可以使营销推广更加的精准、高效,这也成为了视频营销不可或缺的技术手段之一。
相较于传统的用户画像,视达科用户画像基于用户行为轨迹的实时追踪和模型计算生成,用户画像更加细致,更注重细节拆分,进一步提高特征描绘的精准度,能够精准定位不同用户的观影需求,从而提升服务质量。
(视达科用户画像系统架构)
一、 使用改进的tf-idf算法计算标签权重
在tf-idf的基础上,考虑了不同行为有不同的权重,且标签会随着时间而变化衰减。为了提高用户标签的准确度,视达科用户画像采用改进的if-idf算法计算标签权重。
标签值上的weights字段值,代表着2层意义:这个用户的某标签,其多个标签值之间的重要程度;对于某标签的一个标签值,所有用户之间的重要程度。
例如:用户喜欢的影片类型这个标签来说,会有多个标签值:喜剧片、爱情片、恐怖片、科幻片...某用户a,这标签的几个值:科幻片的权重是0.5,喜剧片的权重是0.3,则说明这用户更喜欢“科幻片”。另一用户b,这标签的几个值:科幻片的权重是0.7,恐怖片的权重是0.1,则说明用户b比用户a更喜欢科幻片。
tf-idf权重函数:
w(u, t, t) = tf(u, t, t) * idf(t, t) * degree(u, t, t) * (1 / (1 + decay(t) ) ) + w(u, t, t-1) * (decay(t) / (1 + decay(t)))
一、 多重召回策略,对海量数据进行筛选过滤
如何在海量的视频内容中,筛选出一个模型组成内容库。视达科采用了多种召回策略,综合考虑视频的热度、相似度、动作等,根据用户兴趣标签对视频内容做截断,高效从庞大的内容库中筛选符合用户喜好的一小部分内容。
(1)协同过滤召回
包括基于视频、基于用户的协同过滤推荐,前者依照视频之间的相似性,将相似影片推荐给同一位用户。例如:影片a与影片b相似,用户喜欢影片a,则将影片b也推荐给用户;后者依照用户之间的相似性,将同一影片推荐给相似用户,例如用户a与用户b相似,用户a喜欢影片a,则将影片a也推荐给用户b。
(2)热榜召回
基于视频播放频率,形成视频热播榜单,将热门影片推荐给其他用户。例如:影片a在本时段内播放次数增多,成为热播榜影片,则将影片a推荐给其他用户。
(3)其他召回
除了上述两种常规召回策略,我们还使用了喜好召回、人工规则召回等多重召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样能够有效平衡计算成本和效果。
三、精准排序模型,实现个性化推荐
在用户意图明确时,我们用搜索引擎来解决视频内容库太大的问题,但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。视达科通过精准的排序模型,将筛选后的小型内容库进行重新排序,在用户完全没有需求目标的情况下给出的全局推荐,为其推送个性化的视频内容。
(1)gbdt+lr
gbdt(gradient boost decision tree)是非线性模型,会建立多棵决策树,但每棵树拟合的是上一棵树的残差。
lr是广义线性模型,速率快,对特征和特征组合要求高,在传统效果预测方面使用广泛。
使用gbdt结合lr进行推荐预测,facebook在2014年就进行了实践,取得了很好的效果。
我们使用用户画像出来的兴趣爱好、年龄、时段、时长等特征与用户实际播放的影片的标签属性、演员、导演等特征作为输入gbdt的输入,gbdt的叶子结点作为lr的输入进行训练。推荐时使用该模型对被推荐用户的召回集影片做预测排序,将靠前的推荐出去。
(2)深宽度模型
宽深度(wide and deep)模型是谷歌2016年发布的,并在google play的应用推荐中实际使用,是经过检验的模型。
宽度模型用的是逻辑回归,形式如下:
,其中x是特征向量,w是特征权重,b是偏置。
深度模型通过dnn来提供泛化能力,每个隐层激活方式表示如下:
其中l表示第l个隐藏层,f是激活函数 。
深宽度模型最后的输出过程公式表示就是:
是sigmoid函数 ,是组合特征,是深度模型输出的权重,
宽深度模型结合传统线性模型和深度模型,能兼顾记忆和归纳。宽度模型能根据历史播放、浏览等行为相关性,推荐关联产品;深度模型用于发现历史行为中出现很少或未出现的特征组合。
四、智能调优,提高推荐准确度
采用智能调优技术,将推荐效果进行评估,系统根据评估结果自动对各种推荐算法进行比例调优,不断自动迭代,实现推荐准确度优化提高的技术。
通过调整各类推荐算法间的分配比例,每次推荐任务会将任务分配给不同的推荐引擎,最终通过结果评估观测哪种推荐引擎推荐效果更好,效果更好的下次自动分配更高比例任务。
基于改进的tf-idf算法计算标签权重,采取多重召回策略并进行精准排序,利用智能调优技术,对用户画像进行精准刻画,我们得以实时、精确、全面的了解用户诉求,为用户的个性化服务提供及时有效的数据支撑,全方位提升用户体验,进一步提高视频运营服务质量。
企业简介
视达科,初灵信息(股票代码:300250)全资子公司,以“创造一流视频体验”为愿景,通过数据推动决策与运营,助力合作伙伴的视频业务不断增长。
如何针对生物医疗应用评估磁场?
LR-LINK联瑞万兆四光口OCP网卡介绍
小米note2什么时候上市,史上最难抢的双曲面屏手机11月1日开售
高度集成的超薄墙壁开关与双绞线KNX解决方案
用于超低功耗实施的PDS设计
视达科用户画像精准定位,大数据为用户提供高质量服务
广汽传祺GE3,只因颜值太高,都说是概念车!可人家即将上市!秒杀特斯拉!
MEMS技术的突破预示着手势识别世界即将来到
Multisim中虚拟泰克数字示波器的使用
嵌入式工业PC应该怎样去考虑硬件设计
忠实拥护者竟弃Intel AMD转投ARM怀抱
用CPLD设计LED显示屏控制电路
纳米物联网应用在哪里可以看见
英特尔神经拟态生态系统的最新研究进展
负载电容的重要性
中国海装助力海上风电降本增效
特斯拉近期公布其在2020年的全球销量,直逼50万辆
颠覆认知!记忆居然真的可以遗传
intel的第二代10nm桌面CPU带来了全新面貌
昆仑万维将投资6.8亿控股AI芯片公司艾捷科芯