聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

当AI遇见创作,会碰撞出怎样的火花?| Q推荐

2021-09-18 17:06 浏览: 2726 次 我要评论(0 条) 字号:

你一定见到过抖音有趣的互动特效,比如曾经的“甩狗头”、“控雨术”,如今的地标 AR 打卡等。贴合人体轮廓,准确识别特征,即时响应动作……这些技术能力你可能不会注意,但你一定对丝滑的体验和丰富有趣的玩法有所感受。

基于广泛的影响力,抖音背后的技术能力吸引了不少关注。AI 算法,在抖音背后的智能互动特效和智能视频编辑中起到了非常重要的作用。如何拥有抖音同款能力?如何能够让音视频产品能力促进业务增长?

抖音背后的技术支持平台火山引擎,在金秋 9 月举办系列增长沙龙,先后落地上海、深圳和北京,从技术、产品、应用和体验四大维度,剖析“智能互动特效和智能视频编辑”推动泛娱乐行业业务增长的逻辑。在北京站沙龙现场,我们看到了抖音产品逻辑、生态建设和技术能力的冰山一角。

不是再造一个“抖音”

2021 年 6 月,火山引擎在首次品牌发布会上,宣布将字节跳动积累的推荐算法、数据分析和人工智能等核心技术,通过火山引擎开放给企业客户。抖音同款技术能力的吸引力,引发业内热议。

在火山引擎增长沙龙北京站,火山引擎 AI 解决方案负责人骆怡航表示:火山引擎已经开放的支撑抖音的技术能力,并不是帮企业再造一个抖音,而是希望让企业通过运用抖音同款技术能力,在自己的企业应用中搭建互动场景。

目前,火山引擎作为字节跳动的企业级技术服务平台,AI 产品线以 AI 中台为底座,提供包括视觉、语音等八项基础能力,支撑上层智能体验套件,在产品层提出面向各行业的音视频解决方案,已经对外推出了 AI 大数据和视频云等产品,服务于金融证券、手机、汽车等行业。在内容创作方面,抖音和剪映已经成为上述技术能力名副其实的“代言人”。直播和短视频颠覆了内容创作的输入和输出方式,不止在泛娱乐行业,提高内容生产者和消费者身份转换频率,为行业提供优质的内容呈现方式。

在分享中,骆怡航多次提到了生态建设,他认为,提供技术产品仅仅搭建了当前场景,一个强大的生态可以持续激发产品创新。建立生态,滋养创意孵化。相比再“造”一个抖音,根据不同行业和具体的场景,建设因地制宜的内容生态,更有利于抖音同款能力展现最大化。

“抖音式”增长

那么如何拥有抖音同款能力?火山引擎提供了工具——智能创作套件。火山引擎智能互动特效总监范青谈道:“我们目前看到的两个最重要的视频生产方式就是直播和短视频,让消费者更容易进行开播,更容易进行内容的生产,是我们现在的产品需要做的事情,我们叫做智能创作的套件。” 

产品迭代跟着用户需求走,音视频的玩法随之多样。以美颜产品为例,审美趋势的改变让美颜产品的功能越来越细,超过 40 个调整维度反而让用户的使用门槛提高。为了让用户更容易上手,抖音产品开始调整产品方向为自动化优化,包括部分特征的保留和 AI 算法下的画质清晰稳定。如今,这些功能在智能创作套件上都有所体现。

火山引擎智能互动特效总监范青提出了深耕场景、数据驱动和落地为先,这意味着抖音互动特效需要做好场景适配、工程优化和特殊场景的落地,代表着抖音背后的技术积累,如近、中、远距离场景的算法灵敏度、低中高芯片的适配等。

在 AI 算法上,火山引擎做到了算法适配、工程优化和场景落地,其中,算法方面会针对近中远距离、全身半身、横竖屏、室内室外光照、实时非实时分别适配;工程优化方面会适配中低端芯片,提升机型覆盖率,移动端大屏主机端,平台模型差异化;场景落地方面,会基于场景解决垂直问题,如电商试穿试戴稳定性的关联等。

在特效引擎方面,火山引擎技术能力可以实现对 App、小程序、浏览器等多平台的支持,提供 CG 级特效玩法加速落地移动终端、GAN 类特效提升生产周期,以及持续发力攻克低端机型瓶颈。目前积累的智能特效包括 GAN、美妆、美颜、美体、贴纸特效、图像处理、虚拟形象等。在特效内容方面,火山引擎提供统一的特效素材平台管理、线上爆款监控以及商业务拓展收入空间等服务,通过持续上新特效玩法和更新工具,帮助内容生产者提高生产效率,进而完善内容生态。

“一个生态的形成,生产者和消费者之间的平衡、生产者的活跃度是内容生态最重要的部分。”范青表示,推荐算法落地的土壤是足够丰富的内容,只依赖 PGC 撑起内容丰富度有很大瓶颈。直播和短视频相较于图文,可以在单位时间内带来更多信息量,也更容易提高信息的被吸收程度。无论是 UGC 用户还是 PGC 用户,都有可能随时转换身份。“抖音式”增长就在用户身份在生产者和消费者之间转化的时候发生。

值得注意的是,版权问题是音视频行业如今广受关注的话题。在内容生产的链路中,内容形式有文字、图片和视频等,要求平台解决相应的版权问题。火山引擎智能视频编辑解决方案总监郭沣仪表示,AI 技术在内容层面提升创作效率的能力,火山引擎在这个层面解决了所有内容端的能力建设,也在持续解决版权问题。 

创维高级产品经理刘熙桐带来了火山引擎技术能力在创维的实践经验。她谈到,大屏电视行业已经步入了存量市场争夺的时代,中国电视行业已经从早期的基于硬件做性能优化,过渡到以内容生态和用户体验为核心的强交互时期。用户需求的大屏电视不只是电视基础功能,而是希望能够给生活带来更多改变。

在刘熙桐看来,当前大屏电视行业面临硬件趋同性严重、场景少、玩法少、交互体验有待进一步加强的现状,创维的应对方式是:多模态的人机交互,支持体感、手感、语音等交互方式;更多样的应用服务,借助人工智能与云计算等技术,实现大屏游戏、互动健身、视频通话、远程会议等服务。在她看来,火山引擎在内容层面和技术层面的积累上有较大优势,工程优化效果和算法稳定性比较高。“数据集是骗不了人的”。

“同样是屏幕,手机上能实现的,电视大屏也能实现。”刘熙桐表示。

非线形编辑器改变音视频创作方式

音视频智能编辑方式深入到生活中的方方面面,给人一种如今便捷的编辑方式的存在向来如此的错觉。事实并非如此。在传统的电影胶片存储音视频时代,当需要对内容进行编辑的时候,必须将胶片剪开再拼接上,才能完成剪辑工作。这种剪辑方式对原始胶片的改变是破坏性的,对使用者而言也十分不便。

这种编辑方式被称为线性编辑。如今,火山引擎提供的智能视频编辑方式为非线性编辑,可以实现多轨道、多端、协同进行视频编辑。所谓非线形编辑,指的是随着技术的发展,数字媒体时代的数字化存储音视频方式,通过计算机或者 App 随时可以对数字媒体素材进行剪辑工作,不会对原始资源产生破坏性改变。

字节跳动非线性编辑器(Non-linear edit)简称 NLE,是字节跳动团队推出的音视频编辑中间件,为音视频创作产品提供更加便捷的操作 API 和统一的草稿数据格式,在集成剪辑原子能力的基础上提供操作记录恢复等能力。据火山引擎智能视频编辑高级研发经理 Heaven 介绍,基于 NLE,用户可以方便地进行多端、多产品音视频作品二次创作和协同创作。

据他介绍,字节跳动非线形编辑器的优势在于:

  • 核心引擎经过亿级 DAU 产品验证,性能、稳定性可靠

  • 数据驱动模型设计,更轻量级接口调用,业务实现不费力

  • 原生撤销 / 重做 (redo/undo) 能力支持,省去业务方实现麻烦

  • 可扩展草稿协议,跨平台存储 / 恢复,轻松实现多端、多业务草稿打通和功能升级

Heaven 称,只要掌握 NLEModel、NLETrack、NLETrackSlot、NLESegment、NLEResourceNode 这 5 种数据模型,就可以通过不同组合,打造不同的复杂场景。

“NLEModel 可以理解为最外层的容器,我们在这个容器下进行一些模型的组合,在 Model 里面可以添加不同的轨道,也就是 NLETrack。在 Track 之内又可以添加视频片断,这个片断就是 TrackSlot。一条轨道是一个时间轴,不同的时间片断之内可能会承载不同的内容。NLETrackSlot 定义这个时间轴上的时间片断,比如 0 到 5 秒钟,通过 NLEsegment 和 Resoun 定义承载的信息。”他进一步解释。

传统的数据驱动模型,以事件或者命令驱动,通常先定好策略和接口功能的设定,调用方通过事件和命令进行调用,在现在来看就比较繁琐,也不利于拓展。因为一旦涉及增加功能,就会涉及很多改动。Heaven 谈到,基于这种考虑,火山引擎制定了一种数据驱动模型范式,不再定义功能,而是通过定义五种数据模型来进行组合和配置的使用,通过业务方向进行排列组合进而实现不同的功能,不仅解决了拓展性的问题,还解决的存储的问题,可以更方便的实现 redo/undo 的功能。

Heaven 谈到,对数据模型的封装,最终目的是为了简化字节跳动非线性编辑器 SDK 的使用方式,尽管目前已经做了很大程度上的简化,但真正实现复杂的编辑器,还是需要做非常多的工作。“我们下一步或者正在做的,是对更上层的业务组件进行封装,比如轨道编辑器,你可以直接拿到组件集成到你的产品里。我们会提供一些 UI 定制化的能力,针对不同客户的诉求提供不同层级的接入能力,还会结合 AI 的云服务和云渲染等比较高级的能力,提供更加智能化的创作能力,以及精品内容的生产消费能力。”Heaven 称,构建完整的服务体系,真正提供一站式解决方案,是火山引擎下一步想要实现的事情。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复