
把十年成果写进200页书中!一位研究员的成长手记
创作一本200页的书,大概需要两年时间,但支撑这本书的内容却要整整十年。从构思写书开始,bet36体育在线:深圳先进技术研究院研究员董超就在思考,一本关于底层视觉技术的书应该怎么写?毕竟,写进书中的技术大多不是最新的,它注定会成为一本历史书。
索性,他把过去十年来自己对图像处理领域的研究成果和思考写进书中。与常规的技术教材不同,这本不足两厘米厚的《底层视觉之美》,用散文式的文笔串联起技术算法原理、科研故事、对科学精神的思考,甚至收录了两首原创诗歌。
“技术不应该是冰冷的公式,它应该通过鲜活的方式传达给大众。”董超在接受《中国科学报》采访时表示,他希望借此书填补图像处理领域教育中缺失的“美感教育”,让读者在理解技术原理的同时,“看见科学家的真实人生”。
《中国科学报》:跟传统的理工科技术教材不同,为什么想用散文式的语言来介绍底层视觉技术?
董超:写这本书主要有三个层面的考量:首先,底层视觉技术在过去10年间飞速发展,对整个社会贡献巨大,但在这一领域,却缺乏一本真正由前沿科学家所写的技术专著。其次,人工智能领域需要一本哲学书,来揭示该领域背后的发展逻辑。最后,我觉得计算机领域还需要一本美学书,当前很多计算机专业的课程大多偏重于技术本身的学习,缺乏对美学素养的关注,而底层视觉非常注重图像的美感,这是底层视觉技术人才培养方面的一个重要缺失。
市面上有一些关于图像处理技术的书籍,大多都是工具书,介绍的是一些分散的技术,缺乏发明者的个人经验体会。对真正做底层视觉的研究生来说,读这些书籍不如直接看论文。我写这本书,就是希望赋予它更多的主观色彩,结合个人经验,把一些算法研究背后的故事和对大家有启发的观点分享出来。
我有一次在读《万物简史》的时候,发现它也是用一种非常接地气的语言,把知识以及知识背后的故事串起来,这很有意思,我觉得我的技术书也可以这么写。
《中国科学报》:底层视觉技术是什么?“美”体现在何处?
董超:底层视觉是以像素级的图像为输入、处理和输出单元的计算机视觉,它将图像从原始信号或某种观测状态转换成人们想要看到的样子,通常是清晰的自然图像。简单来讲,计算机视觉是研究如何让机器“看”的学科,那么底层视觉就是研究如何让机器“看清楚”的子学科。底层视觉所包含的任务主要有图像和视频的去噪、去模糊、去压缩伪影、上色、超分辨率等。
过去十年来,我对底层视觉感触颇深。在底层视觉里,技术的背后有着对艺术的追求,艺术的背后又有着科学的力量,而科学注定与哲学相互交织,这就是我想表达的底层视觉之美,一种在智能时代才有的全新美学。
《中国科学报》:bet36备用:在底层视觉领域的发展水平如何?人工智能技术的发展对该领域有何影响?
董超:从发展水平上来看,我们国家的底层视觉技术与国际相比差距并不大,甚至在很多层面都比他们好。比如在学术层面,我们与斯坦福大学、麻省理工学院等国外的顶尖研究团队几乎并驾齐驱;在产业界,虽然国外有一些领先的硬件技术,但从算法层面来说,我们并不差,国内一些知名手机企业的画质团队在底层视觉技术方面就做得非常好。
目前,底层视觉技术还存在很多挑战和难题。比如在视频处理方面,虽然我们可以做一些老电影复原等工作,但效果还远不够理想。在科学研究领域,如医疗影像、卫星图像等方面,底层视觉技术的应用也非常有限。另外,随着AIGC(生成式AI)的发展,底层视觉技术也面临着如何更好地与生成式模型结合等挑战。
《中国科学报》:2014年你们团队提出的SRCNN技术在领域内引起了广泛关注,这对之后的底层视觉技术的发展有什么影响?
董超:2013年之前,超分算法已经发展了26年,到了第三代,基础条件已经相当成熟。在那个时候,我所在的香港中文大学多媒体实验室开始全面进军深度学习领域,这也是我的导师汤晓鸥老师作出的最重要的决定之一。在这一背景下,我们都在思考深度学习能不能应用在底层视觉中。
我们在2014年提出的首个超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN),这项技术所解决的问题叫作图像超分辨率,简称超分。比如,一个小图放大4倍,需要增加16倍的像素,SRCNN技术就是解决这个问题的关键。它打破了传统算法的束缚,改变了深度学习不适用于底层视觉的观点,开启了深度底层视觉的时代。
事实上,这项技术的产出并不容易,因为需要探索的领域实在太大了,每个要素都会带来意想不到的问题。后来,我们经过多种尝试,不断调整学习策略,探索参数空间,最终验证了深度学习可以做超分,并成功把该项技术发表在ECCV2014上。
这里我想谈的是,一件事物从0到1,从来都不简单。就像一颗嫩芽冲破土壤,成长为参天大树,SRCNN就是这颗嫩芽,它只有三个卷积层,可以说是最简单的深度学习网络,但正是这颗简单的嫩芽,长出了深度学习底层视觉的大树,壮大而繁茂。
《中国科学报》:创作过程中有哪些有趣的经历?怎么平衡科研工作和创作的时间?
董超:这本书的创作过程挺艰难的。最开始我构思了一个很全面的版本,但后来我发现,这样写下去会变成一本技术型的百科全书,很长又没人愿意看。所以我对这本书进行了重新构思和规划,甚至把一开始写了快300页的内容全部推翻,只写我认为有价值的东西。为了专心写书,我到环境优美的澳门大学做了四周的访问学者,第三章“从0到1从来都不简单”,就是在澳门大学一个礼拜内写完的。
在完成科研工作之余还要进行书的创作,对时间的高效管理很重要。我的核心原则是“要善于做减法”。很多时候我们习惯性地接受新任务,却不去审视和调整已有的任务列表,这会导致我们越来越忙碌,效率却越来越低,甚至影响到睡眠和身体健康。
当有新任务时,我会先思考哪些事情是可以与之合并或取消的,以确保我有足够的精力去处理新任务,这就是所谓的“减法”。在我的观念里,有一句话叫“能不做的都不做”,这并不是倡导躺平,而是要把时间和精力集中在最重要的事情上。过去的几年里,我就是这样实践的,拒绝所有非必要的会议、期刊编审等事务,把90%精力聚焦在科研本身,其他的时间用在自己想做的事情上。
《中国科学报》:书中提到了“人格之美”,你想传达怎样的价值观?
董超:这部分是与其他技术书最为不同的地方,包括《如何写一篇自己喜欢的论文》《科学家精神》《一位研究员的一天》等篇章。我觉得一个科学家应该有自己的生活,而且他的生活也应该是丰富多彩的。我希望通过这本书,呈现科研人员最真实的生活状态和价值观。
我在书中提到,写论文最重要的技巧是要实事求是,很多人写论文时过于注重包装和技巧,却忽略了论文本身的价值和意义。如果一篇论文能够触动你自己,那么它才有可能触动别人。当然,技术的准确性和专业性是基础。
另外,我们团队的文化是“奉献、专注和平衡”。“奉献”是指我们做事的初衷和发表的每篇论文都要有价值,不能为了“水”论文而发表没有价值的东西;“专注”则是要把精力用在最重要的事情上,沿着一个方向深耕;“平衡”是指我们要有一个好的生活状态,不能把自己累垮。这样的文化氛围下,我们团队在十年间持续产出了高质量的成果,团队中的大部分学生都选择了深造。
《中国科学报》:书的最后放了两首诗,这很意思。
董超:在日常生活中,我会看很多的书,包括诗词、历史、人文等等,一年大概能阅读100本左右。很庆幸出版社的编辑能在书的最后保留这两首诗。主要想希望激励年轻人不要被社会的声音所束缚,要聆听自己内心的声音,做自己真正想做的事情,发现人生的意义和价值,活得更轻松一点、开心一点、幸福一点。
分享1 |