《底层视觉之美:高清大片背后的人工智能》,董超、胡锦帆著,电子工业出版社2025年2月出版,定价:109元
创作一本200页的书,大概需要两年时间,但支撑这本书的内容却花费了整整10年。
中国科学院深圳先进技术研究院研究员董超把过去10年来对图像处理领域的研究成果和思考写成了《底层视觉之美:高清大片背后的人工智能》。与常规的技术教材不同,这本不足两厘米厚的书,用散文式的文笔串联起技术算法原理、科研故事、对科学精神的思考。
“技术不应该是冰冷的公式,它应该通过鲜活的方式传达给大众。”董超在接受《中国科学报》采访时表示,他希望借此书填补图像处理领域教育中缺失的“美感教育”,让读者在理解技术原理的同时,“看见科学家的真实人生”。
底层视觉“美”在何处?
《中国科学报》:你为什么会用散文式的语言介绍底层视觉技术?
董超:我在读《万物简史》的时候,发现它是用一种非常接地气的表达方式,把知识以及知识背后的故事串联起来,这很有意思,我觉得我的技术书也可以这么写。
这样写主要有3个层面的考量:首先,底层视觉技术在过去10年间飞速发展,对整个社会贡献巨大,但在这一领域,却缺乏一本真正由前沿科学家撰写的技术专著。其次,人工智能领域需要一本哲学书,揭示该领域背后的发展逻辑。再次,我觉得计算机领域需要一本美学书,当前很多计算机专业的课程偏重于教授技术本身,缺乏对美学素养的关注。
市面上已有的图像处理技术的相关书籍大多是工具书,以介绍分散技术为主,缺乏发明者的个人经验体会。对真正做底层视觉研究的研究生来说,读这些书籍不如直接看论文。我写这本书,就是希望赋予它更多的主观色彩,结合个人经验,分享算法研究背后的故事和对大家有启发的观点。
《中国科学报》:底层视觉技术是什么?“美”体现在何处?
董超:底层视觉是以像素级的图像为输入、处理和输出单元的计算机视觉,它将图像从原始信号或某种观测状态转换成人们想要看到的样子,通常是清晰的自然图像。简单来讲,计算机视觉是研究如何让机器“看”的学科,那么底层视觉就是研究如何让机器“看清楚”的子学科。底层视觉所包含的任务主要有图像和视频的去噪、去模糊、去压缩伪影、上色、超分辨率等。
过去10年来,我对底层视觉感触颇深。在底层视觉里,技术的背后有着对艺术的追求,艺术的背后又有着科学的力量,而科学注定与哲学相互交织。这就是我想表达的底层视觉之美——一种在智能时代才有的全新美学。
从技术“嫩芽”到学科“大树”
《中国科学报》:我国在底层视觉领域的发展水平如何?人工智能技术的发展对该领域有何影响?
董超:我国的底层视觉技术与国际先进水平相比差距并不大,有的甚至比国外水平高。比如在学术层面,我们与美国斯坦福大学、麻省理工学院等国外顶尖研究团队几乎并驾齐驱;在产业界,虽然国外有一些领先的硬件技术,但从算法层面来说,我们并不差,国内一些知名手机企业的画质团队在底层视觉技术方面就做得非常好。
当然,我国的底层视觉技术还存在很多挑战和难题。比如在视频处理方面,虽然我们可以做一些老电影复原等工作,但效果远不理想。在科学研究领域,如医疗影像、卫星图像等方面,底层视觉技术的应用也非常有限。另外,随着人工智能生成内容的发展,底层视觉技术也面临着如何更好与生成式模型结合等挑战。
《中国科学报》:2014年你们团队提出的超分辨率卷积神经网络技术在领域内引发了广泛关注,这对底层视觉技术的发展有什么影响?
董超:截至2013年,图像超分辨率(以下简称超分)算法已经发展了26年,到了第三代,基础条件已经相当成熟。那时,我就读的香港中文大学多媒体实验室开始全面进军深度学习领域,这也是我的导师汤晓鸥作出的最重要的决定之一。在这一背景下,我们思考深度学习能不能应用在底层视觉中。
2014年,我们提出首个超分辨率卷积神经网络技术主要解决超分问题。比如,一个小图放大4倍,需要增加16倍的像素,超分辨率卷积神经网络技术就是解决这个过程的关键。它打破了传统算法的束缚,改变了深度学习不适用于底层视觉的观点,开启了深度底层视觉的时代。
事实上,该技术涉及学科领域范围广,每个部分的细微差别都会带来意想不到的问题。后来,我们经过多种尝试,不断调整学习策略,探索参数空间,最终验证了深度学习可以做超分,并把这项技术发表在2014年的欧洲计算机视觉国际会议论文上。
“从0到1”产生的新事物从来都不简单。就像一株嫩芽冲破土壤,成长为参天大树,超分辨率卷积神经网络技术就是这株嫩芽。虽然它只有三个卷积层,可以说是最简单的深度学习网络,但正是这株简单的嫩芽,长出了深度学习底层视觉大树,壮大而繁茂。
写论文首先要能“触动你自己”
《中国科学报》:创作过程中有哪些难忘的经历?
董超:这本书的创作过程并不轻松。最初我构思了一个很全面的版本,但后来我发现,这样写下去会变成一本技术型的百科全书,很长又没人愿意看。所以我对这本书重新进行构思和规划,甚至把一开始写了快300页的内容全部推翻,只写我认为有价值的东西。为了专心写书,我到环境优美的澳门大学做了一个月的访问学者,第三章“从0到1从来都不简单”,就是在澳门大学一个星期内写完的。
《中国科学报》:书中提到了“人格之美”,你想传达怎样的价值观?
董超:这部分是与其他技术书最不一样的地方,包括“如何写一篇自己喜欢的论文”“科学家精神”“一位研究员的一天”等篇章。我觉得一个科学家应该有自己的生活,而且他的生活也应该是丰富多彩的。我希望通过这本书,呈现科研人员最真实的生活状态和价值观。
我在书中提到,写论文最重要的技巧是实事求是,很多人写论文过于注重包装和技巧,却忽略了论文本身的价值和意义。如果一篇论文能够触动你自己,它才有可能触动别人。当然,技术的准确性和专业性是基础。
另外,我们团队的文化是“奉献、专注和平衡”。“奉献”是指我们做事的初衷和发表的每篇论文都要有价值,不能为了“水”论文而发表没有价值的东西;“专注”则是要把精力用在最重要的事情上,沿着一个方向深耕;“平衡”是指我们要有一个好的生活状态,不能把自己累垮。这样的文化氛围下,我们团队在10年间持续产出了高质量的成果,团队中的大部分学生都选择在学术上继续深造。
《中国科学报》:书的最后放了两首诗,这很有意思。
董超:我喜欢读书,包括诗词、历史等,一年大概能阅读100本左右。很庆幸出版社的编辑能在书的最后保留这两首诗。我希望年轻人不要被社会上嘈杂的声音所束缚,要聆听自己内心的声音,做真正想做的事情,发现人生的意义和价值,活得更轻松一点、开心一点、幸福一点。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。