在国家自然科学基金的资助下,清华大学教授胡事民领导的课题组在可视媒体的几何表示、高效编辑和合成方面,取得了重要成果,在代表计算机图形学国际最高学术水平的ACM SIGGRAPH和ACM SIGGRAPH ASIA上连续发表3篇论文,引起了国际学术界的广泛关注。
胡事民指出,图像(视频)是三维物理空间到二维空间映射后的离散表示,传统的图像处理方法是基于离散的像素,这一思路在很多应用上已经碰到无法逾越的障碍。因此,如何利用图像(视频)所蕴涵的几何关系,实现高效的信息处理,成为一个重要的学术研究方向。
而图像的矢量表示使用点、线、多边形及相关属性来表示图像。与光栅图像表示方式相比,这类表示方法具有一系列优势,包括紧凑、与分辨率无关以及容易编辑等。梯度网格(Gradient Mesh)是一种被主流商业软件广泛支持的图像矢量表示方式,特别适合于颜色逐渐变化的图像区域。传统方法生成梯度网格需要相当的用户交互来给定初始网格,耗时且需要用户的专业技巧,传统的梯度网格也无法处理包含较复杂边界或者含有一定孔洞的图像区域。
胡事民课题组在研究中引入了一种拓扑保持的梯度网格表示形式,可以使用单一梯度网格来表示任意拓扑的图像区域。他们基于图像流形的思想,开创性地将几何参数化和拟合技术引入图像处理中,并设计了一种完全自动化的方法,将任意给定的图像区域转化成梯度网格表示。由于采用共形几何的思想,图像区域可以包含任意数量的孔洞,或者具有复杂的边界;此外,该方法的效率也比传统方法提高10倍以上。由此在图像矢量化,特别是梯度网格生成领域取得突破性进展。该研究成果已经在ACM SIGGRAPH 会议上报告,并刊登在ACM Transaction on Graphics上。
编辑传播是图像、材质、视频编辑中的重要问题。它的主要原则是让颜色相似、距离相近的像素点获得类似的编辑。在基于编辑传播的编辑方法当中,用户只需给出粗略的几笔编辑,然后,依据编辑传播的原则,用户的初始编辑就会自动传播到整个数据集中。编辑传播具备较好的智能性,然而由于编辑传播的过程中需要构建大型相似矩阵,使得可处理的数据量级受到较大限制。
因此,如何实现可视媒体海量信息的编辑,也是学术界非常关心的重要问题。作为一种广泛应用的资源,视频的智能编辑手段是一种基础的、广泛的、重要的需求。然而,由于视频数据本身的纷杂性,目前仍然缺乏智能的编辑策略和高效的处理速度。
胡事民课题组提出采用层次结构树来近似高维空间中的像素点,通过在树的角点上进行传播,而替代直接在像素点上的传播,该方法极大地提高了编辑的速度。在较大视频数据上,该方法的处理速度可以比以前的方法提高约两个数量级,极大地增强了编辑传播方法的实用性。通过将整个视频投影到高维空间中,视频就对应于高维空间中的点集,并进一步在高维空间中建立高维层次结构树,胡事民等设计了一种高效的视频编辑传播方法。
该研究成果将发表在ACM Transaction on Graphics杂志上,并将在今年12月于日本横滨召开的ACM SIGGRAPH Asia 2009会议上作大会报告。
胡事民课题组取得的另一个重要成果是基于简单的人机交互、利用互联网信息的可视媒体合成。清华大学开发了一个基于互联网的图像合成系统PhotoSketch,该系统可以将用户输入的带文字标签的手绘草图转换成一张具有真实感的合成图像。该合成图像由多张互联网上搜索到的图像无缝拼接而成,这些搜索到的图像必须符合用户提供的文字标签和草图形状。这个系统主要的创新之处在于:一是互联网图像过滤。利用互联网上海量图像数据,可以合成出符合用户意愿且合成效果特别好的图像,但是互联网图像搜索错误很多,我们用基于草图轮廓和内容一致性的方法将其过滤,该过滤得到的前100幅图像中,正确率达到近80%。二是基于混合边界条件的图像合成算法。胡事民课题组总结了alpha融合和Poisson融合各自优势,提出了一种新的合成算法,得到了更好的合成效果。根据以上算法,他们还给出了一个图像合成质量的评判标准,以此为依据选择一组互联网图像进行合成。(来源:科学时报 陈晨)