支持向量机(Support vector machine)的线性核和非线性核?

在使用支持向量机时,有没有关于选择线性核还是非线性核的指导方针,如径向基函数(Radial Basis Function 简称RBF)?我曾经听说,一旦特征数量很大,非线性内核往往不太试用。关于这个问题有什么参考吗?
数据科学家 Level2 提问 在 2017-12-02 在 研究问题.
添加评论
1 答案
最佳答案
通常,决策是使用线性或RBF。有两个主要因素需要考虑:

1、解决线性核函数的优化问题非常快,例如liblinear。

2、通常情况下,最好的预测性能最好是针对非线性内核。


已经表明,线性核是RBF的退化版,因此线性核不会比适当调整的RBF核更准确。因此线性核永远不会比调整过的RBF核更精确。引用与我链接的一篇文章:

The analysis also indicates that if complete model selection using the Gaussian kernel has been conducted, there is no need to consider linear SVM.

在NTU支持向量分类(附录C)的实践指南中,简要介绍了一个基本的经验法则。

If the number of features is large, one may not need to map data to a higher dimensional space. That is, the nonlinear mapping does not improve the performance. Using the linear kernel is good enough, and one only searches for the parameter C.

你的结论或多或少是正确的,但你的论点有点落后。在实践中,当特征量很大时,线性核往往表现得很好(例如,不需要映射到更高维度的特征空间)。一个典型的例子是文档分类,在输入空间有数千个维度。

在这种情况下,非线性核不一定比线性核更精确。这基本上意味着非线性内核失去了它们的吸引力:它们需要试验更多次,而在预测性能方面几乎没有什么提升,所以为什么要用这样呢?
数据科学家 Level1 回答于 在 2017-12-06。
添加评论

您的回答

*代码插入功能已上线
发布您的回答,意味着您同意了我们的 隐私政策服务条款