最近一直在研究三大视频平台的机制,了解推荐、审核机制也能更好的做视频的整体工作。此文将今日研究的一些成果做一些记叙。
抖音:行为预测主导的去中心化推荐
抖音采用深度学习模型+去中心化推荐机制,通过神经网络预估用户行为,机器判断比传统的用户标签更灵活。
抖音的内容分发流程主要分为三个阶段:
1. 视频审核阶段
视频在进入冷启动前,会进行机器初判阶段。此时,就要根据口播文案、视频字幕文案、画面等内容进行合规性判断。通过AI识别文本、图像、声音中的违规内容,包括侵权、低俗、违法违规、诱导、虚假宣传等。然后进入到冷启动阶段,此时会进入到200-500人的流量池。
2. 算法推荐阶段
通过多模态特征识别技术,对视频内容进行深度分析
- 文本特征:通过NLP技术解析标题和字幕中的关键词
- 视觉特征:利用图像识别技术提取视频中的画面元素
- 音频特征:通过声纹分析捕捉语音讲解中的关键词频率
平台根据“打分机制”来评判视频后续的推荐,完播率、点赞率、评论率、转发率等用户行为指标综合计算。
抖音的推荐算法已几乎不依赖对内容和用户打标签,而是通过神经网络直接预测用户行为,计算用户观看内容获得的价值总和。
3. 流量分配机制
多样性打散:打破 “相似内容连续轰炸”
算法会在推荐列表中主动 “打散” 高度相似的 AIGC 内容。
多兴趣召回:挖掘用户的 “隐藏兴趣点”
传统 “单兴趣召回” 仅针对用户最明显的兴趣(如 “AI 搞笑视频”),而多兴趣召回会通过用户行为数据(如浏览时长、搜索记录、评论关键词)识别多个兴趣标签。
小红书:CES评分驱动的标签匹配系统
小红书的推荐算法以CES评分(社区参与度评分)为核心
采用”内容标签+用户标签”的双向匹配机制
CES评分公式为:CES=点赞数(1分)+收藏数(1分)+评论数(4分)+转发数(4分)+关注数(8分)
内容识别流程:
- 初始流量池:笔记发布后进入500-1000人的初始测试池
- 标签匹配:通过NLP技术提取标题/正文中的关键词,与用户兴趣标签匹配
- CES评分评估:系统根据互动数据(评论、关注、收藏、点赞、转发)计算CES分数,决定是否进入下一级流量池
小红书内容的“互动率”(点赞、评论、收藏)是突破幼稚内容的关键。这三项是推荐优质笔记进入1w~100w流量池差异化的关键。
优质内容会按顺序进入覆盖 1 万、10 万、100 万以上用户的展示范围,其中用户的互动表现(如点赞、评论、收藏等行为的综合占比)是实现层级突破的关键因素。
小红书的召回周期很长,即使发布2-3个月的视频也会被找回进行流量推送,更注重长尾浏览。所以做小红书一定要注重图文质量和实际功能性的内容,通过“搜索”还可以推荐到优质内容。
视频号:私域撬动公域的社交推荐体系
视频号的推荐算法与抖音、快手等平台有本质区别,其核心逻辑是”私域流量撬动公域流量”,内容权重在三大平台中最低,约占50%,社交关系链权重较高。
推荐机制:
- 私域流量推荐:用户点赞和互动后,其微信好友可能看到该内容,通过社交关系链形成第一波推荐
- 兴趣算法推荐:基于用户行为标签与内容特征标签的匹配,进行个性化推荐
内容审核流程:
- 上传视频并解码
- 机器审核文案、画面、声音是否存在违规行为
- 机器无法识别的内容,唤起人工审核
- 若作品已发布且被举报或流量异常,再次触发人工审核
违规判定标准:视频号对直播内容的审核更为严格,禁止录播、低互动行为、虚假演绎等
同时,平台对内容原创性、画质清晰度、互动真实性均有要求,私域流量中的”好友互动异常”(如短时间内大量点赞)可能被判定为违规
流量分配特点:视频号的流量分配更依赖社交关系链,初始流量主要来自关注者、好友和社群的自然流量,随后基于地理位置、兴趣标签等进行基础推荐
内容得分排序权重为:完播率>点赞数>评论数>点击扩展链接数量>转发数>收藏数
文本NLP拆词机制解析
抖音:子词级分词与深度语义理解
抖音的文本NLP处理采用子词级分词技术,主要基于以下方法:
- 分词基础算法:抖音使用前向最大匹配算法进行基础分词,同时结合BERT或RoBERTa等预训练模型进行语义分析。
- 关键词提取:抖音的NLP系统通过多模态特征提取技术,识别视频中的关键信息。文本特征提取主要依靠双向Transformer架构,能够同时考虑前后文信息,提高关键词提取的准确性。
- 标签化过程:抖音的标签化主要通过神经网络计算实现,系统会根据内容特征和用户行为,自动为视频打上精准的标签。这种标签化方式不再依赖传统的人工打标签,而是通过算法模型自动完成,更加高效和精准。
小红书:词典匹配与长尾词优化
小红书的文本NLP处理更注重关键词布局与搜索优化,其分词机制主要基于以下方法:
- 分词基础算法:小红书主要采用基于词典的分词算法,如正向最大匹配、逆向最大匹配等。
- 关键词优化策略:小红书强调“七三原则”,即日常更新内容时,建议70%是做长尾词。
- 标签化技术:小红书的标签化主要依靠用户手动添加标签和NLP关键词提取相结合的方式。系统会根据打分模型和用户行为特征数据,实时调整推荐策略。
视频号:话题标签与BPE分词结合
视频内容检测,AI会结合文本(字幕、标题、视频简介)文本会结合NLP拆词,例如“上海东方明珠”会拆成“上海”、“东方明珠”两套词、图像(封面),封面的特征例如人脸、衣着等均为检测目标、音效(背景音乐)、视频画面(抽帧检测)等多模态特征进行合规审查。
生成式AI模型应用:如S-YOLO V5和Vision Transformer模型用于视频内容描述生成,结合注意力机制(Attention)增强关键帧识别,提升文本生成质量。
本文为@窄播原创,运营喵专栏作者