Gradient Descent in Logistic Regression

About 58,800,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › tardis › bd › ans
梯度（gradient）到底是个什么东西？物理意义和数学意义分别是 …
我会使用尽量少的数学符号描述梯度，着重于意义而非计算。一个直观的例子，在机器学习领域有个术语叫「梯度下降」，你可以想象在群山之中，某个山的半山腰有只小兔子打算使用梯度下降的思路去往这片群山最深的山谷里找水喝。我们用变化率来描述下山时各个方向的山路有多陡 …
zhihu.com
https://www.zhihu.com › question
梯度（gradient）到底是个什么东西？物理意义和数学意义分别是 …
为了降低随机梯度的方差，从而使得迭代算法更加稳定，也为了充分利用高度优化的矩阵运算操作，在实际应用中我们会同时处理若干训练数据，该方法被称为小批量梯度下降法 (Mini- Batch Gradient Descent)。假设需要同时处理m个训练数据
zhihu.com
https://www.zhihu.com › question
如何理解 natural gradient descent? - 知乎
看到一篇文章写得非常浅显易懂： What is the natural gradient, and how does it work? 总结一下：拿神经网络中的反向传播算法举例，我们计算各个权值w关于损失函数的导数，得到一个梯度向量，然后沿着这个梯度的反方向更新权值一小段距离，如此不断重复来使损失函数收敛到（局部）最小值。问题就在于 ...
zhihu.com
https://www.zhihu.com › tardis › bd › ans
梯度（gradient）到底是个什么东西？物理意义和数学意义分别是 …
1.多元函数偏导数的数值解在程序当中，利用数值方法求出各个自变量偏导数的近似解，其方法和步骤同前面讲过的导数的数值解求法并无二致：把其余的自变量固定，就将偏导数的求解方法等价为了导数的数值求解方法，我们以简单的二元函数为例，分别来看看如何利用python求解偏导数 …
zhihu.com
https://www.zhihu.com › question
如何理解策略梯度（Policy Gradient）算法？ - 知乎
Actor-Critic算法结合了策略梯度（Policy Gradient）方法和值函数估计的优点，旨在通过两个不同的神经网络来学习：一个用于学习策略（Actor），另一个用于评估状态的价值（Critic）。
zhihu.com
https://www.zhihu.com › tardis › zm › ans
梯度（gradient）到底是个什么东西？物理意义和数学意义分别是 …
Dec 2, 2020 · 梯度是雅可比矩阵的一种特殊形式，当m=1时函数的雅可比矩阵就是梯度，这个概念原是为场论设定的，任何场都可以用来理解梯度，后来被引用到数学中用来指明函数在指定点的变量率最快的方向和大小，是一种变化效率的数字抽象。举一个降维的例子，在修建一个通向山顶的缆车时，缆车的路线 ...
zhihu.com
https://www.zhihu.com › question › answers › updated
梯度（gradient）到底是个什么东西？物理意义和 ... - 知乎
5、知识总是学了又忘？哈哈哈，感觉人脑就是这样，知识方法总是学了不用、不复习回顾就会遗忘的。对于咱们人类来说，要想已经学过的知识技术牢记，复习、反复思考总结真的太重要啦。感觉自己高中学过的很多物理化学知识，到了大学来，早就忘得差不多了。看来都是短期记忆呢哈哈 …
zhihu.com
https://www.zhihu.com › question
梯度消失问题为什么不通过 gradient scaling 来解决？ - 知乎
May 4, 2018 · The truth is, once your gradient results've already too slight to be distinguished from other noise-disturbances, you scale up all the observable vibrations, you still cannot distinguish the correct gradient signals from noises.
zhihu.com
https://www.zhihu.com › question
如何入门分布上的优化/Wasserstein gradient flow？ - 知乎
Mar 20, 2025 · Wasserstein gradient flow是概率空间的gradient flow,目前在machine learning,optimization, applied math等很多领域里面都算是非常热门的话题最早的wasserstein gradinet flow是从JKO Schme之中得到的。JKO Schme是概率空间里面隐式的近端优化格式，类似于优化里面的proximal gradinet descnet，将proximal里面的距离换成是概率空间的基于 ...
zhihu.com
https://www.zhihu.com › tardis › zm › art
机器学习2 -- 优化器（SGD、SGDM、Adagrad、RMSProp、Adam）
Apr 6, 2024 · 1 主要优化器 1.1 SGD SGD全称Stochastic Gradient Descent，随机梯度下降，1847年提出。每次选择一个mini-batch，而不是全部样本，使用梯度下降来更新模型参数。它解决了随机小批量样本的问题，但仍然有自适应学习率、容易卡在梯度较小点等问题。

Pagination
- 1
- 2
- 3
- 4
- 5
- Next