欢迎光临
-->
返回列表
您当前的位置:365体育彩 > 威马汽车 >
网址:http://www.eraiao.com
网站:365体育彩
基于单张图像即可生成3D KenBurns特效
发表于:2019-09-18 07:56 来源:阿诚 分享至:

  

基于单张图像即可生成3D KenBurns特效

  而3D KenBurns则是在摄像中常用的方法,包括在部分纪录片、广告、商品展示等众多类型的视频中都极为常见。和采用照片合成的2D KenBurns效应不同的是,3D KenBurns则加入了深度信息,让场景随着照片移动时产生对应变化。如果基于手动制作则需将照片分段,然后插入虚拟3D空间中,然后进行繁琐的修复操作。

  另外,当前对于Simon Niklaus提出的3D KenBurns方案不适用的场景还包括反光场景、弱场景(如:旗杆等)表现欠佳。

  其中,为了保证合成结果在时间和几何方面的一致性,其还结合上下文感知颜色、深度修复,来填充原本单张图像模拟多角度或部分极端情况下残缺的部分,从而模拟扩展出场景信息,以此来达到合成更为“真实”的场景。

  经过大量数据训练和实验,其找到了YouTube上大量3D KenBurns的视频,然后将自己的方案与视频创作者制作的作品进行对比,结合Simon Niklaus方案更受欢迎。

  近期,波特兰州立大学学生Simon Niklaus(前Adobe Research实习生)发布了一项将单张2D照片模拟带有3D KenBurns效果的相关论文,而其实现方式就是通过KenBurns结合一套机器学习方法。

  最后,进行深度细化的过程,在分辨率图像的引导下,结合神经网络学习如何在深度信息上采样。

  接下来,我们来看看Simon Niklaus方案是如何解决这两大难题的。

  近些年随着人工智能领域的突破进展,并诞生不少基于单目深度信息估算的方法,但是这些方法基本上并不适用于Simon Niklaus提出的3D KenBurns效果生成。

  Tips:KenBurns一词来自于一位美国知名的电影制片人、纪录片家:Kenneth Lauren Burns,因其在电视台工作期间广泛采用这种将照片缩放、平移的展现方式,并用于照片之间过渡动画。后来,苹果前CEO兼联合创始人史蒂夫·乔布斯曾向Kenneth提出合作请求,将其名字进行商业化展示,但被Kenneth拒绝。而之后通过某些非营利组织的设定,其最终获得在iMovie、Final Cut Pro等苹果产品中使用“KenBurns”一词的许可。

  再给深度估算模型增加语义特征,大幅提升深度估算的场景几何后,继而发现语义失真并未完全解决,其赞词通过Mask R-CNN分割掩码,将任务、汽车、动物等不同语义上进行蒙版化,然后将最小深度值分配到不同蒙版来调整深度值。

  根据论文介绍,该方案适用于多种类型的图片,包括人物肖像、风景、室内、户外等。

  可能很多人对“KenBurns”这一词并不了解,简单来讲它是一个图片动态展示的方式,是视频编辑中最常见的照片特效之一,其通过缩放和平移图片进行显示,实现不同的视觉效果,甚至照片切换等效果。

  Simon Niklaus分析了图像深度估算方案中三个关键的问题,只有解决它们之后才能应用到3D KenBurns中来。即:1,几何失线,深度边界不准确。

  说白了,它和很多手机中具备“照片一键生成视频”的方法类似。如果用的是iPhone,可以直接在照片-为你推荐-回忆中选择开启。

  简单而言,Simon Niklaus这套基于单张图像的3D KenBurns方法实现起来有两个难点:

  在新新Vlog时代,人人都能成为视频创作者,而简易、有趣的特效生成方式将变得越来越受欢迎,而3D KenBurns将成为其中关键技术,随着未来技术的完善,未来也将大大方便视频创作者们。

  虽说现在可以通过手工制作实现这一效果,但其需要来自不同位置的多张图像。Simon Niklaus提出的方法则可基于单张图像,并且可指定摄像机路径,从而对结果进行更多控制。

  当然,作为算法自然会有不可避免的缺点,尤其是在前期数据数据量较少时。例如,在部分场景下我们会看到场景的略微变形,在有明显人影或其它影子的场景下效果有些冲突等。这也印证了他们的测试结果,在一个小规模的测试中,在室内场景下,Simon Niklaus的方案比视频创作者的3D KenBurns效果更受欢迎。

  为了最终呈现出一个连续的、高质量的深度图像,则需要在物体边缘进行深度的优化,然后其通过Z滤波解决了这个问题。

  Simon Niklaus专门设计了一个语义感知深度估算模型,其特点通过地分辨图像估算出粗糙的深度信息,然后使用VGG-19模型提取语音信息;接下来基于Mask R-CNN分段调整深度图,确保对象内深度值保持一致;最后进行深度细化,对粗糙深度进行采样以确保有精确的深度边界。

  为此,Simon Niklaus团队专门设计了一个可视化的操作图像合成程序。最终的图像合成方案在点云渲染、上下文提取、颜色和深度修复方面花费大量时间,并且解决了在保持场景几何一致的同时,通过深度和颜色映射到点云中解决遮挡问题。

  据了解,这套方法中使用了一个用于图像深度预测的语义感知神经网络。目的就是为了解决单张图像无深度信息的问题,有了估算出的深度数据,然后将图像映射到点云,再将这些渲染数据融合成到视频中的不同帧。

  总而言之,Simon Niklaus提出的这套方案对于单张图像的3D KenBurns生成而言有极大推进效果。深度估算模型也为今后的完善打下基础,基于语音的深度调整和边界细化也是本论文中极为关键的环节。

  而Simon Niklaus这套方法结合了深度学习技术,其特点就是:自动化(包括全自动和自定义两种模式),并且重点是只需单张图片即可生成。