在线性模型中,凸损失函数保证了参数的唯一全局极小值,通过局部优化方法可以找到参数的全局极小值。
然而,当模型是非线性的(如MLPs),局部极小是可能的凸损失。
当模型是非线性的时,
发布于 2021-09-05 16:33:14
凸损失函数的另一个优点是它对所有的线性和非线性模型都具有更快的收敛性。如果在梯度下降中加入动量项,凸损失函数的收敛速度会更快。
然而,在现实世界中,由于模型类型繁多,损失函数不能保证是凸的。目前尚不清楚“完全无视凸性”的含义。机器学习系统应设计为对非凸损失函数具有鲁棒性,以便在板级问题范围内找到有用的参数。
https://datascience.stackexchange.com/questions/101818
复制相似问题