在大数据时代,种类多样的科学与工程数据快速增加。由于物理环境的随机性、数据噪声、信息不完全等因素的存在,大数据中具有普遍的不确定性。如何对大数据进行有效的不确定性建模和高效计算是机器学习面临的重要挑战。
贝叶斯方法自1763年提出以来,已有250多年的历史,在人工智能、机器学习的众多领域得到了广泛应用和发展。2011年的图灵奖获得者Judea Pearl教授的主要贡献是将概率统计引入人工智能,成为现代人工智能的理论基础。但是,在大数据环境下,贝叶斯学习面临着多方面的挑战。
近年来,贝叶斯方法在机器学习领域得到了快速发展。在基础理论方面,正则化贝叶斯方法通过变分和信息论工具,在优化框架下引用后验正则化项,扩展了贝叶斯方法在考虑问题属性和领域知识的灵活性;同时,非参数化贝叶斯方法也得到了快速发展。在算法方面,随机梯度的变分推理和蒙特卡洛采样算法被提出,通过随机采样在单机上能有效处理大规模数据集;同时,为了提高可扩展性,分布式的变分推理和蒙特卡洛算法也得到了重视和发展。在系统实现方面,贝叶斯方法已经在多种分布式计算框架下实现,包括:MapReduce/Spark,参数服务器,图计算(GraphLab)以及STRADS模型并行等。
最后,贝叶斯方法与深度学习具有互补的优势,前者在不确定性推理与决策、小样本学习方面具有独特优势;后者在表示学习、感知预测方面更灵活有效。二者的有机融合是未来的重要发展趋势。另外,发展更加友好的平台支持贝叶斯方法、深度学习以及二者的融合是另外一个重要趋势。
《国家科学评论》最近发表的由清华大学朱军、陈键飞、胡文波、张钹等4位作者共同撰写的“Big Learning with Bayesian methods”综述论文(https://doi.org/10.1093/nsr/nwx044),着重分析了大数据环境下贝叶斯学习在基础理论、高效算法和系统实现方面的最新进展,并讨论了贝叶斯方法与深度学习的互补优势以及未来发展趋势。(来源:科学网)