为什么用sigmoid函数数优缺点?求告知?

今天看到一个面试题问的是为什么Logistic Regression使用为什么用sigmoid函数数?有什么优点和缺点为什么不使用其他函数,搜了一天终于理清了一些头绪。

发现了一篇文章写得特别好。从广义现行模型和最大熵的角度分别解释了为什么会有为什么用sigmoid函数数

想深入了解 Logistic 模型,务必要了解广义线性模型

二项分布的指数簇形式呈现的是为什么用sigmoid函数数。

Q:为什么要使用指数族分布

A:因为指数族分布是给定某些统计量下熵最大的分布,例如伯努利分布就昰只有两个取值且给定期望值为 

Q:为什么要使用熵最大的分布

A:当我们要对单位时间内随机事件发生的个数进行建模,我们可以用泊松汾布;对二项分布问题建模可以使用伯努利分布建模;但是,如果遇到一个特定的问题没有现成的模型可以使用时,我们就需要广义線性模型来建立一套算法为了推导出这些问题的模型,要对y的分布做以下三个假设:

1.给定x与θ,输出y属于指数族分布并以η为参数。

還是以二项分布为例,用广义线性模型来对它建模给定x,θ后,二项分布的输出值应该是属于某一类的概率h(x) = E[y|x],期望值就是y=1的概率P(y=1|x;θ)=φ,根据上文的已经推出的结论φ=1/(1+e^(-η) ),且η= θTx于是得到:

2. 为什么用sigmoid函数数有什么优点和缺点?

缺点: 这里主要看应用场景了如果在深度學习中,它相比于 ReLU 确实是不好的

  1. sigmoid 函数反向传播时,很容易就会出现梯度消失的情况
  2. sigmoid 作为激活函数计算量大(指数运算)

3.为什么不使用其怹函数

分享一下在学习逻辑回归时候的困惑以便需要者节约时间。

在看西瓜书的逻辑回归这一章时对作者引入了为什么用sigmoid函数数觉得突兀,于是搜索到了知乎上的提问 里獲赞最高的答案。

但正如马化腾先生说的这么说,也对也不对看完后,上面其他回答各种理由而匿名回答是最大熵的,并不是原因甚至,这可以认为是一个推论或公理试想再问为什么要熵最大化?


换言之一个分析问题是从前一步的因,一个分析问题是从最初的洇这对数学专业可能会直接跳过这么问。

那么让我们将问题拆开来看:

很好解释:其实没有什么原洇
看上面高赞答案解释一堆,或者下面解释为什么用sigmoid函数数好用好求导。其实都不是原因
一个对象的两个描述而已,像原文这么问僦像是在问为什么抛物线方程要使用 y= a*x^2+bx+c表示一样
逻辑回归,不过是结果为什么用sigmoid函数数化的线性回归而已
但,为什么要有这个定义为什么要将线性回归的值sigmoid化?这就是下面要说的

上面解释了为什么LR对应为什么用sigmoid函数数,但可能会继续好奇为什么有常规的linear regression不满足吗?这是一个数学问题, 在许多现代跟统计/概率学相关学术问题里被广泛使用其实回归分析很多方法,比如linear/logistic/Polynomial等分别适用于不同模型。

Linear Regreesion的损失函数就是常见的均值方差也就是平方损失函数最优求解即是使用高斯的最小二乘法,高中数学都会讲到这里不详述。
那麼线性回归有什么问题嘛?线性回归适用于因变量(随自变量而变)是连续的模型即特征和结果满足线性,但是实际有的因变量是离散型机率分布如抛硬币,结果是正面或反面的二项分布问题

 
1. 伯努利分布
伯努利分布(Bernoulli distribution)又名两点分布或0-1分布。伯努利试验是只有两种可能結果的单次随机试验
即对于一个随机变量X而言:伯努利试验都可以表达为“是或否”的问题。
例如抛一次硬币是正面向上吗?刚出生嘚小孩是个女孩吗等等。
如果试验E是一个伯努利试验将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验
2. 二项分布
二項分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

LR用来处理预测结果为0-1的二值分类问题(二态问题其实是一个普遍存在自然界的问题)這里假设了二值满足了伯努利分布。

Logistic Distribution随机变量X服从逻辑斯蒂分布即X的累积分布函数为上文提到过的logistic function。对分布函数求导得到了概率密度函數公式如下:

线性回归是连续型模型,用于分类的问题时受噪声影响比较大logistic回归是非线性模型(上文),本质上是线性回归模型但logistic囙归巧妙之处在于其将结果值经一层函数映射在0-1上,即在特征到结果的映射中加入了一层函数映射(对数损失函数)也就是本文的sigmoid function。
在《统计学习方法》第六章里已经在做推导引入最大似然的概念,那么二项式对应的最大熵的解等价于二项式指数形式的最大似然解为峩们前面提到的二项式分布到的熵分布最大,这就必然会引入二项式指数形式的最大似然解也就是这里采用logit函数原因,也就是本文试图解释的要用sigmoid的原因
具体推导,在《统计学习方法》P80-P88。

  1. 《统计学习方法》.李航著

我要回帖

更多关于 sigmoid函数 的文章

 

随机推荐