6月21日,由51CTO主办的WOT2019全球人工智能技术峰会在北京粤财JW万豪酒店准时拉开序幕。作为2019年度全球技术人员线下交流的知名峰会,本次大会紧紧围绕着通用技术、应用领域、企业赋能三大核心章节展开。来自全球的60余位一线AI大咖们齐聚一堂,与千余名参会群众共同分享了深度学习、神经网络、视觉技术、无人驾驶、机器学习、算法模型、知识图谱等主题技术内容。
6月21日下午,在通用技术章节中A会场机器学习实践分论坛,网易云音乐音乐推荐负责人肖强、VIPKID供需优化技术负责人沈亮、美团大众点评高级技术专家王永康三位机器学习方面的专家受邀出席并发表了精彩演讲。会后51CTO将专家发言整理成文,希望他们的演讲内容精华对大家有所帮助。
网易云音乐音乐推荐负责人肖强:AI算法在音乐推荐中的实践
网易云音乐音乐推荐负责人肖强的演讲共分三个部分:一是网易云音乐的介绍,二是AI算法在音乐推荐中的实践,三是音乐场景下的AI思考。
自2013年4月正式上线以来,网易云音乐凭借UGC社区、UGC歌单、精准推荐三大特色产品,成为了音乐爱好者的集聚地。
网易云音乐推荐系统致力于通过AI算法,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。虽然与其他推荐一样,都是以用户体验为导向,帮助用户更快捷的获取资源,但是,音乐推荐有着不同的特点和难点。
首先,由于音乐本身的复杂性,要求系统要更好地理解音乐。网易云音乐的做法是利用NLP系统,通过用户在社区自发产生的内容去描述音乐,这样不用听就可以得到这个音乐的大概画像。新的音乐则利用视频、图像技术,实现音乐之间相关的研究工作。
第二,利用可重复消费来计算CF相似度。也就是说基于用户的可重复消费(一首歌听了很多次),来表达用户喜好,及歌曲间的关联度,包括空间位置差异性和空间方向差异性。
第三,音乐推荐的消费成本高,强调关联性也很强,更加要求有合适的模型去表达用户的需求。LR模型的可解释性强,但是表达能力有限。树模型,以及LR和树模型的结合,优点是可以解决部分非线性问题。大规模FTRL的优点是可以获取记忆类特征,刻画能力强。缺点是特征维度大、需要的样本量多、计算复杂。此外,还有表达能力强的深度神经网络,能学习到时序特征,刻画能力+泛化能力强的深度时序网络。 从线性模型、树模型,到大规模FTRL、深度神经网络,再到深度时序网络,网易云音乐通过模型迭代实现更精准的表达用户需求。
肖强指出,音乐消费中,因为用户需求的复杂性,很难用单一目标去衡量音乐推荐系统,往往遇到CTR & 消费时长,不是同步提升,甚至此消彼长,以及多目标问题。网易云音乐用联合训练来解决多目标问题。联合训练的优势主要有四点:一是多个目标任务在浅层共享表示,任务之间加入噪音数据,降低网络过拟合,提升了泛化效果。二是多目标任务学习中不同任务的局部极小值处于不同的位置,通过相互作用,可以帮助逃离局部极小值。三是多目标任务联合训练,模型尽可能求解多任务的共同的解决方法。四是窃听。通过联合训练,音乐的收藏率和消费时长都明显提升。
在音乐场景下的AI思考部分,肖强表示,音乐推荐要解决的是在亿万用户 * 千万歌曲 * 十万音乐人 * n种情景的四维空间的匹配问题。推荐系统的核心目标是利用人工智能提升用户体验。包括用户愿意分享音乐、愿意长时间听音乐、愿意收藏及反复听收藏的音乐、用户听过的歌曲越来越多。网易云音乐的AI推荐体系是知识图谱和统计学习、强化学习的结合,用强大的长尾发掘能力和精准的匹配能力,让用户更好的发现音乐。
VIPKID供需优化技术负责人沈亮:在线教育行业中视频理解的应用
VIPKID供需优化技术负责人沈亮开场指出,在线教育领域中,1V1直播视频内容是非常核心的数据之一。所以,特定领域和场景下的视频内容理解技术显得尤为重要,它能够提升在线教育企业的核心竞争力。VIPKID不仅仅是一家在线教育类公司,同时也是一家视频内容公司。每天在VIPKID平台上,产生超过400W分钟,30T的视频数据,累计高达7PB的视频内容。数据即价值,沈亮接下来的演讲主要围绕VIPKID对数据价值进行挖掘的方法,以及围绕这些数据产品化所做的尝试等内容展开。
视频内容理解的技术近几年非常火爆,原因有以下几个方面。首先,视频内容理解的大趋势是从人工到机器。2015年,直播开始火爆,到2017、2018年短视频的崛起,产生的数据是呈指数级增长的。直播,可以理解为PGC(专业生产内容),短视频则是UGC(用户生产内容)。UGC的内容输出量远大于PGC。对视频内容理解的技术诉求也从审核、编辑逐渐渗透到围绕内容理解的推荐产品,视频内容创作等领域。此外,产品的用户体验、内部运营效率等现实KPI指标也驱动着视频内容理解技术的发展。比如,在前些年,基本上视频推荐还是围绕用户行为、视频标签等去进行的,而现在,基本上已经过度到视频本身领域,产出的是一些不可描述的特征,或是很小一部分可检测的内容。
深度学习的兴起则是视频内容理解技术的助燃剂。传统机器学习算法下的计算机视觉/语音,研发步骤繁琐,并且对领域知识依赖度非常高,特征处理复杂度也非常高。需要领域专家+算法专家不断反复调试模型。随着深度学习的发展,基础算法模型效果得到了质的提升,比如在人脸检测、人脸识别、语音识别等领域已经超出人的水平。为视频内容理解提供基础技术支撑。因此,可以说,深度学习、产品需求的相互驱动,让视频内容理解领域慢慢渗透到产品和用户的多个方面。
VIPKID一天有接近300W分钟的视频数据。拆解来看,每天需要处理400W分钟的语音+3亿张的图片数据。在语音领域,要去做语音识别、噪音识别、语音情感识别等,在图像领域,要去做人脸识别/检测,因此挑战非常大。
VIPKID通过自研+与第三方技术厂商(如阿里云、腾讯云、亚马逊云、Face++、驰声)通力合作,建立了一整套的解决方案,包括部分脸识别、多种特定手势识别、AI看课等。
在机器审核、课程质量评估、精彩片段等项目中,核心的误召回主要是由于老师、学生的部分脸识别效果较差,VIPKID通过前后标注和优化多次模型,作为人脸识别的补充,额外多召回10%的脸部图像。
此外,VIPKID通过多种模型,对多种特定手势的检测,实现了手势的检测和分类。通过机器审核,使效率提升了100倍。
美团大众点评高级技术专家王永康:美团外卖商业变现实践
美团外卖目前用户数超过了3亿,商家数超过了360万。基于这样的背景,美团外卖也进行了广告变现方面的探索,当前包含信息流广告、搜索广告、展示广告等产品形式,CPT、GD、CPM、CPC等售卖模式,在这样的业务背后,是有一套相对完成的业务逻辑和技术手段在支撑的。
王永康详细介绍了外卖的模型演进的过程。针对电商场景统计类的连续特征较多,刻画能力较强,所以美团外卖开始用的是xgboost,为了提升迭代效果,美团外卖从xgboost转移到了lgb,训练速度提升了2倍。现在的模型迭代一般是先用lightgbm迭代上一个基础版model。
当然树模型有一些局限性,比如对序列信息的表达、对稀疏、高维的离散特征的表达相对较弱,所以会往DNN上迁移。
上图是外卖广告预估模型的演进。
在平台侧,主要是收入优化。在外卖的场景里有很多的多模态的信息,如图像、文本、菜品图像等,比如做菜品预估的时候,对菜品做排序,菜品图片信息就显得比较重要。美团外卖最早使用的是两段式,先用训练好的CNN网络把图像表示成Embedding,给到模型。后来直接把一个VGG16的网络做了一些简化,直接连接到模型中做end2end的训练。
对于文本信息,可以直接当做离线特征喂给模型,也可以pre-train好的word的Embedidng喂到模型,或者在模型结构上对文本序列接一个LSTM。
对于序列特征,不同的行为串联不同的实体可以产生不同的序列,例如“点击”的“POI”序列、“下单”的“图像”序列等等,不同的序列能够捕捉用户不同的行为、语义、视觉偏好,可以直接把ID序列喂给模型,或者采用表示学习的方法对ID学习Embedding表达,将Embedding序列输入模型,更上层的可以做一些Pooling、Similarity、Attention操作等。
在多目标学习中,外卖的场景涉及到曝光、点击、下单、以及下单金额的问题,所以相应的模型就会去预估ctr、cvr、price。在传统预估CVR的时候,训练样本用的是点击+转化的数据,是看不到曝光数据的,预估Price的时候,训练样本用的是转化+转化金额的数据,是看不到曝光和点击数据的,而在预测的时候是一起预测,就造成了训练和预测的样本分布不一致的问题,美团外卖的方法是通过共享embedding层或者局部网络层的方式去解决。
在商家侧,会去优化商家的投入产出比。美团外卖用机器学习来解决业务问题可以分成两部分,一是业务问题如何转化成机器学习问题,二是机器学习如何优化业务问题。
上图是如何根据业务设计合理的State、Reward、Action。
中间的环节相当于一个黑盒,需要用模型去建模从state到reward的整个的过程。关键的问题就是如何通过state中feature的设计,能够将中间的环节进行刻画。
在用户侧,主要是体验优化。美团外卖从Utility角度理解用户体验,将用户体验分成了三个阶段:短期体验、中期体验、长期体验。
王永康最后总结说,美团外卖通过模型预估和机制设计在平台侧进行收入优化,通过OCPC从人工策略到强化学习的迭代进行商家侧转化优化,通过用户体验建模优化进行用户侧体验优化,最终实现了美团外卖的商业变现。
上一篇:编程语言的基础知识
¥299.00
¥29.00
¥498.00
¥399.00