




视频智能审核
视频智能审核依托阿里集团海量场景数据,具备高效数据流转体系,历经双11保障考验,可以对色情、暴恐、涉政、广告内容、二维码、无意义的视频进行识别,同时能够识别性暗示等未明显露点的色情行为和gif鉴黄,保证审核的高准确度。
功能实现了从产品接入、测试、策略管理、运营监控、到审核打标及模型/规则动态优化的闭环能力支撑。在通用能力满足常用场景的基础上,支持对高级能力的定制,可根据用户管控尺度进行灵活调整和快速迭代。为不同场景(视频/直播/社交/电商)提供视频内容安全审核的整套完整解决方案。
相对于传统的10万张/人/天的人工效率,智能审核可以达到10亿张/天的超高处理效率,同时大大节省了人力,成本得以压缩。
视频内容理解
在视频内容理解这个阶段,阿里云提供视觉、语音、文本、运动多模态信息分析技术,全方位理解视频,可以把非结构化的内容进行结构化处理。主要功能体现在以下五个方面。
1. 视频分类
通过视频多模态特征分析,自动对视频进行类目分类,提高视频分发、管理的效率。
2. 语音识别
将语音转成文字的服务,能支持中文、普通话、英文的语音识别。可应用于实时会议记录、视频直播实时字幕等场景。
其中一个典型的应用场景是会议内容的实时转写,法庭庭审识别。智能语音识别技术将参会人所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了人工记录会议内容,法庭庭审中取代书记员。另一个典型应用场景是视频直播实时字幕,现场演讲、直播场景下,将视频中的音频实时转写成字幕展示。相应速度极快,几乎与直播同步,提升了视听体验。
3. 视频标签
分析视频中图像、文字、语音、人脸、物体、行为等多模态信息,自动为视频打多维度标签。
这个功能的应用场景包括:视频的个性化推荐和视频检索,基于视频内容,可以实现快速给视频打多维度标签,并在新增热门标签时快速补充,解决新视频标签缺失和新热门标签缺失的问题。
4. 人脸识别
人脸识别(Facial Recognition)是提供视频帧和图像中人脸分析的服务,包括人脸检测、人脸特征提取、人脸关键点定位、人脸检索等服务。可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等场景。
人脸识别的功能应用场景非常广泛,包括会场、大厦等安防管控中的大规模人脸检索,零售行业通过人流监控分析货品摆放合理性,出勤率统计,照片管理与智能分类,娱乐美颜等等方面。
5. 目标检测
目标检测(Object Detection)是基于深度学习的目标检测技术,准确找出给定视频的视频帧中多目标及位置,并给出每个目标的具体类别。应用场景包括:第一,可以检测并识别特定类目的目标,对特定目标做有趣的交互;第二,可以识别视频中的目标位置及目标分类,为视频提供丰富的分类标签,可用于个性化推荐和视频搜索;第三,在目标检测后,可以对目标进行实时跟踪定位,精确地分割出目标的时域片段,用于智能监控系统、流量控制系统等。举个最实际的例子,在淘宝商家上传视频过程中,可以自动检测商品并跟踪,在前端展示的时候,感兴趣的用户点击锚点可以直接进入商品页。
视频智能编辑
视频编辑是为了更好的输出内容,提升用户点击率,优化用户体验。在这个环节,人工智能可以让视频千人千面,结合用户行为和封面图属性,同一个视频向不同用户展示不同的画面。并且支持类目定制,结合行业运营经验,定制不同的封面图生成模型。同时,视频编辑功能具有高精准度,利用多项AI技术,对视频进行全方位理解后,甄别出最优、最高精准度的画面或片段。
1. 视频首图
通过对视频内容的理解结合画面美学,选出最优的关键帧或关键片段作为视频封面图。
这个功能非常适用于UGC视频封面,用户上传的视频,使用智能生成封面图服务,为海量视频自动生成具有代表性的高质量封面图,提升用户视觉体验,展示在 feed 流、视频搜索结果页等场景。同时,在长视频场景中,通过智能生成封面图服务,截取精彩片段作为视频看点,利用动态展示方式吸引用户并快速展示精彩内容。
2. 视频摘要
视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的截图组成GIF,作为视频的摘要概括。应用场景同视频首图。
3. 视频Highlight
视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的5s视频,作为视频的highlight。应用场景同视频首图。
4. 新闻拆条
将新闻节目以单条新闻为单元自动化分割的服务,有助于后期对单条新闻的播放推送和加工处理,为新闻推送生产素材,并且可以灵活对某个或某类新闻做后期加工处理。
视频版权保护
阿里云人工智能通过长时间调研选型验证,如今已能够识别多种视频抄袭手段,保证视频查重结果的精准性。同时支持多分辨率多视频格式,亿级视频查重及相似度实时结果返回、视频入库、删除等操作。可用于如广告分成等多种业务场景。
1. 视频指纹
视频指纹是一种软件识别、提取、压缩视频技术,可以产生唯一“指纹”代表视频文件进行视频查找。在视频查重场景中,视频通过视频指纹在样本库中比对,召回相同/相似视频,进行入库、排序控制。
同时,视频指纹可对自有版权的视频资源,从公网抓取视频数据鉴别,防止自有版权内容被侵权,保护版权视频安全,并对原创视频、剪辑视频、自媒体再造视频进行识别,检索成分库召回认领视频,支撑广告分成业务生态。
2. 相似性计算
相似性技术可以生成给定视频的定长特征,计算视频之间相似度。可应用于基于视频内容推荐相关视频,个性化视频等场景,提高视频点击转化,也可以用于视频去重业务场景。
3. 跨媒体检索
支持对文本、语音、图像、视频等不同多媒体种类进行内容统一特征检索。
效果展示及使用
我们在线上的视频AI产品专题页和【视网膜】页面中,可以看到阿里云视频AI的能力体现。
以线上已经有的示例视频为例,用户可以对人物识别、视频分类、标签识别、语音识别、文字识别(OCR)、视频审核、智能封面等功能进行体验。
下图是智能封面功能,人工智能为视频选择了最能代表视频内容的一帧图片。
下图是语音识别功能将功守道电影中的精彩片段里的音频别出来。
在视网膜系统中,我们看到一段热播剧猎场的视频片段,示例视频中的明星人物被完整无误的识别出来,同时,该人物在视频中出现的位置也被标记出来,点击标记点,即可直接跳转到人物的片段,这就是人物识别功能。
整个视频被分解出无数标签,点击某个标签,直接跳转到对应的画面,这是视频标签。
云栖大会的视频中,除了嘉宾演讲的语音被实时识别和显示,视频中的字幕、现场PPT等文字信息都也被识别出来,也就是OCR。