【漫士科普】90分钟深度！一口气看明白人工智能和神经网络#人工智能 #神经网络

415.25k views1775 WordsCopy TextShare

漫士沉思录

部分素材来自@3bl@3blue1brown @artem kirsanov，使用manim引擎制作一位来自清华的人工智能博士生，日常思索和科普。 An artificial intelligen...

Video Transcript:

人工智能机器学习神经网络这些听起来高大上的词汇你是否还一知半解 GPT大语言模型生成式AI 这些频繁出现在商业报道乃至于日常生活的前沿技术你是否好奇它们的发展、渊源和基本原理？万物皆可AI的时代你是否担心被割韭菜或者被动失业这期视频耗时半年专为零基础的观众打造将实打实讲明白人工智能的来龙去脉我是漫士一位毕业于清华姚班的人工智能博士生从本科到研究生所有AI课程全部满分排名年级第一目前正在从事深度学习理论的研究刚刚从普林斯顿回国视频制作实在不易还望点赞多多支持看不完可以收藏或者关注我之后慢慢看 1956年一群科学家齐聚达特茅斯开了一场会这场会议持续一个多月一共只有十来个人参加但个个都是大佬他们包括达特茅斯的数学系教授麦卡锡哈佛大学数学与神经科学研究员闵斯基，IBM主管罗切斯特信息论发明人香农等人但就是这样一场很小的会议深刻的改变了几十年后世界的样貌 8年前战胜李世石的AlphaGo 如今能帮我们解决各种日常问题的GPT 本质上都起源于这场会议所发起的研究如何制造出一种可以不断学习并模拟人类智能的机器呢这个领域在2018年拿到图灵奖之后又在今年一举斩获了诺贝尔物理奖和化学奖是的这个领域就叫人工智能而这场会议也被视为开创人工智能的起点达特茅斯会议人工智能，说白了就是人工搭建起一套智能要实现这个目标首先就要回答一个非常根本的问题什么是智能我们想想生活里什么时候我们会觉得一个物体有智能呢比如说我们跟狗狗说话让它坐它就会坐下让它叫它就会叫两声你骂它两句它就会一脸幽怨的盯着你此时我们会觉得哎这只小狗很聪明有灵性有灵性本质上就是说狗是一种有智能的生物和石头什么的不一样你无论怎么叫一块石头它都无动于衷所以是一个死物正因此尽管有关智能的定义千千万但他们都逃不开这样的核心智能本质上就是通过收集信息对于不同的情景作出针对性的反应中学有一个很有意思的小实验那就是观察草履虫的应激行为在另一端滴上肉汁草履虫就会跑过去而加上几粒盐它们就会四散逃跑正是这种针对环境的变化趋利避害的运动让我们相信这些水中的小颗粒是一种有智能的生物而不是无生命的灰尘事实上如果你看到有一些草履虫没有了趋利避害的反应这就说明一个很简单的道理它们死了智能随着生命消失既然智能说白了就是看情况做事那么所谓人工智能同样就是搭建起一个根据不同的环境信息给出针对性的输出和回应的系统这个输出可以是动作语言也可以是一种判断和预测比如说人脸识别可以根据不同的人脸

针对性地反馈出不同人的身份信息 AlphaGo 可以对于各种不同的复杂棋局的情况给出最佳的下法争取胜利 GPT可以根据上文不同的问题和任务的要求针对性地跟你说话并解决问题因此它们都是智能设想一下如果人脸识别把所有的人都认成了张三 AlphaGo在棋盘上到处乱下 GPT的回答牛头不对马嘴那这个AI的全称应该叫artificial idiot 人工智障总而言之智能的本质就是一个不会乱来的黑箱或者用数学一点的说法智能就是找到情景信息的输入和我们想要的聪明的行为输出之间的函数对应关系这里给大家听一段来自美国的老爷子Thomas Garrity激情四射的演讲相信你会对这个函数有更深的体会 functions 函数 describe 描述了 the wor~~~~ld 世——界——！ everything is described by functions 世间万物都被函数所描述 the sound of my voice on your eardrum, function 我的声音传到你的鼓膜，是函数！ the light that's kind of hitting your eye balls right now 那些正在照射向你们眼睛的光 function！ the entries you put in your random matrices 也是函数！那些你在矩阵中随机设置的数值 function! it's all~~~ function 还是函数！全——都是函数！ different classes and mathematics 不同的领域 different areas and mathematics study 数学不同方向的研究 different kinds of function 研究不同的函数 high school math studies 高中数学研究 second degree

one variable polynomials 单变量二次函数 calculus studies 微积分研究 smooth one variable functions and it goes on and on 光滑的单变量函数，各种地方都如此 functions describe the world 函数，描述，世界！你也能更好地理解图灵测试因为图灵测试它就在说如果人无法区分是在跟人还是AI聊天那么这个AI就实现了人的智能它本质上正是在说所谓AI本质上就是它所定义的输入到输出的这个黑盒的函数关系它跟你回应的话和人没有任何区别那么这就是一个类似于人的智能了问题来了该怎么做出这样一个聪明的黑箱呢科学家针对这个问题提出了很多思路例如有一批人从数学的形式化推理体系中得到灵感主张智能可以用符号的逻辑推理来模拟这就是符号主义symbolism 举个例子 a表示阴天 b表示湿度大于70% t表示将要下雨那么知识是一条逻辑规则如果a和b是真的那么t就是真的所谓智能就是看到阴天和湿度很大明白a和b都对那么利用这条规则推出t是真的从而预测到可能将要下雨这些人类的推理和思考都可以从这些符号和规则当中像算数一样计算出来因此符号主义相信智能正是一套像这样处理符号和规则的计算系统他把人类的知识和逻辑用如果a 那么b这样的规则存储下来然后呢不断进行符号推演就可以实现接近人类的智能这套思路最成功的典范就是曾经的专家系统他咨询人类的医学专家什么样的病可能会有什么样的症状接着把这些规则全部记录下来只要利用这些规则就可以根据已有的信息给出预测实现一个智能的黑箱这套系统一度在疾病诊断和金融咨询领域获得了很大的成功但随着时间推移它也逐渐暴露出致命的缺陷首先很多时候现实世界没有那么清晰的规则即使询问人类专家出现某个症状是不是得了某个病或者股票走势长成这个样子应该是买还是卖他们给出的回答往往都并不一致那你的系统只能选择一个到底该听谁的呢更要命的是这套系统完全是在复制人类经验所以他的能力上限就是专家的水平无法做到比人更好而且从你设计完成这套系统开始他就永远是静止不变的水平很难像人一样随着经验和时间的增长水平不断继续提升正因此从上世纪70年代开始另一个人工智能流派开始发扬光大他不追求一开始就有一个完美的黑箱

但允许这个黑箱不断的变化通过不断的引导和学习让他在某一个任务上表现的越来越好哎没错也是一种成长型的心态这种思路啊就像训狗你发出坐的指令如果他坐下来呢你就奖励他狗粮或者摸摸狗头如果他没听懂或者瞪着个眼睛你就给他一逼斗久而久之狗这个黑箱就会越来越明白你发出坐这个指令和他需要坐下来的这个行为之间的关系就像条件反射一样之后只要听到坐这个命令的输入场景他就会给你坐下来这个动作于是一只会听指令的聪明小狗就训练完成了这个流派的名字也很生动就叫做机器学习顾名思义就是把在学习的对象从狗变成了机器通过给机器以奖励或者惩罚的方式让机器自主调整不断学习从而学会解决某一种任务的智能这个任务可能是识别图片里的数字和人脸也可能是下围棋或者是与人对话等等等等机器学习的强大之处在于它不需要任何专家的专业知识来人为搭建黑箱内部的结构它只需要两样东西一个强大且有学习能力的黑箱以及足够多的数据举个例子假设你想要一个能够识别数字的智能黑箱那么只需要准备一个具有学习能力的机器然后收集很多数字的图片人工标注出每张图片里的数字是什么接下来你只需要像训狗一样把一张张图片展示在这个机器面前让他预测里面的数字到底是什么如果他预测对了你就给他奖励错了呢你就给他惩罚让这个机器不断的自我调整当他见过的图片越来越多之后就能够神奇的做到正确识别这个图片里的数字是什么了相信你现在心里肯定有一个疑问哎哪来的黑箱这么神奇能够像狗和人一样越学越机灵而且给狗奖励是喂狗粮摸摸头给机器奖励和惩罚又是怎么一回事呢难不成是多给点电吗而且狗的条件反射和学习过程那么复杂人搭建起来的机器又是怎么自我调整和学习的呢哎问的非常好这三个问题啊其实就分别对应于机器学习的模型结构损失函数和训练过程接下来的视频就会详细解答这些问题让我们先解决第一个问题怎么搭建起一个有学习能力的黑箱机器呢有没有一种万能的超级强大的黑盒无论什么样的对应关系它都能表示和学会呢这里呢就值得一提另一派实现人工智能流派联结主义他们认为大自然已经给出了实现智能的标准答案那就是人类精妙的大脑只需要通过仿生的方式模拟单个神经元的复杂功能以及神经元之间复杂的连接那么我们只需要像运行一台精密的钟表一样运行这个人工搭建的神经网络人类就可以实现不可思议的智慧这一派思想被称作联结主义connectionism 为了理解联结主义我们先考虑一些最简单的智能比如这里有一个苹果那为什么你会觉得它是一个苹果呢你可能会说因为它直径大约10厘米外表皮是红色的

是个球形气味香甜没错我们对于很多概念比如苹果的理解是依赖于其他的概念属性组合而来的在每个不同的概念属性上不同的水果会有各自的特征比如大小方面西瓜是大的而其他的水果是小的所以在尺寸大这个特征上西瓜符合而其他的水果不符合在计算机的世界里我们用1来表示符合 0表示不符合这样我们就可以列出各种水果与不同属性之间的一张关系对应表当每个水果的特征都和苹果的属性吻合时我们就倾向于判断这是苹果如此我们就拥有了一种简单的识别水果的智能因此有一种最简单的搭建黑盒的方式比如说我们想要识别苹果那就将一个水果的所有特征比如说大小颜色气味什么的作为输入然后分别考虑它的每个特征是否像一个苹果具体来说就是乘一个系数比如说尺寸不大颜色是红色味道很甜这些都表明这个水果符合苹果的特征因此他们对于是苹果这个判断起到正向的促进作用我们会把它乘以一个正数而尺寸很大吃起来酸这些特征都表明不太可能是苹果所以我们把它乘以负的系数最后我们只需要将这些特征各自乘以它们对应的系数然后加在一起就可以得到一个苹果得分这个得分越高越像苹果越低则越不像所以我们就可以再设置一个得分的阈值b 如果最后的得分高于b 那么这台机器就激活否则不激活此时整个这台机器就变成了一个苹果识别机只有你把苹果拿到它面前的时候它会激活亮起右边的灯泡而只要你放在前面的水果不满足苹果的特征它就不会激活所以根据我们的定义整个黑箱此时就具备了识别苹果的智能这个黑箱机器的厉害之处在于你不仅可以用它来识别苹果还可以用来识别其他的水果只需要通过调整这些连接的系数你就可以表示不同的概念比如说你可以让他在水果又大又绿又甜的时候激活那么此时这台机器的用途就是识别出西瓜或者在又小又红又酸的时候激活那么他就可以特别的筛选出山楂这里每一个特征到输出之间连接的系数就像一个机器的旋钮你只需要根据自己的需要设置这些旋钮的值就可以让整台机器非常针对性的指对某种水果激活而这种从输入数据中识别不同水果特征的模式理解概念的过程就叫做模式识别而这个玩意儿就是人类在1956年最早提出的一种模式识别的算法模型：感知机哎有人可能会说了你这个取各种条件合在一起判断的过程看起来和前面的专家系统好像也没啥区别呀哎你说的很对这是一个很多人都不知道的冷知识大家通常以为神经网络代表的联结主义从一开始就和符号主义水火不容

分道扬镳但其实感知机这种最早期的神经网络它的设计很大程度上借鉴甚至是脱胎于逻辑推理其思路同样是组合不同的特征条件来进行推理这里的每个神经元也就像刚才我们说的符号逻辑当中的一个一个命题的字母一样只不过他是用数值计算的方式来模拟逻辑的而数值计算本身不局限于有限且明确的符号推理因而在更广泛的领域比如说控制环境感知图像识别等领域具有更强大的潜力这个我们在后面就会看到巧合的是这种设计同样和神经科学不谋而合中学的时候我们学过神经元通过电信号传递信息其中树突接收不同神经元的电信号而轴突则会将自己的信号传递给其他的神经元而感知机啊它也恰似一个神经元你看呢那些传入的数字分别表示它接收到的各种信号它们可能会激活或者抑制这个神经元的活动而这种影响就体现在每一条连边参数w的正负和大小上神经元直接叠加所有接收的影响而如果叠加的刺激足够大它就会激活进一步往后传递这一切都和生物神经元的活动不谋而合事实上这个数学模型的提出啊比人工智能还早早在1943年的二战期间 Pitts和Mcculloch在生物物理学通报上共同发表了神经活动中内在思想的逻辑演算提出了这套神经元的数学模型你注意看这套名字神经活动中内在的逻辑演算这更加表明联结主义和符号主义其实是同源的 1957年康奈尔大学的罗森布拉特造出了人类第一台有实际应用价值的：感知机这台感知机将图片的像素作为输入通过算法调整参数不断学习最终能够做到判断出一张图片里是男人还是女人或者是左箭头还是右箭头一时间轰动世界虽然在今天看来这可能没什么但让我换一个角度跟你解释你就会知道这有多了不起计算机和人是两种非常不同的东西对于人来说很困难的问题比如说计算两个十位数的乘法对于计算机来说却很简单但对人来说很简单的事情对于计算机来说却非常困难比如说理解图片的内容因为在计算机看来图片本质上是一堆像素的数值所以识别图片中的内容在数学本质上就是给你一大坨数字组成的矩阵然后问你啊这里面画的到底是一个什么或者问你这里面到底是个男人还是女人人的长相千姿百态各种五官光影角度的细微变化都会呈现出不同的图片导致像素的具体数值出现剧烈的变化而我们要通过纯粹的计算算出来真实照片里的人是男性还是女性现在你还觉得这整个数学问题也就是说从图片中看出是什么内容很容易吗人类的视觉和大脑是不是很不可思议呢而这个领域就叫做计算机视觉正因此在发明感知机之后啊时年30岁的罗森布拉特意气风发迫不及待的召开新闻发布会畅谈自己研究成果的美好未来吸引了众

多媒体的极大关注比如说大名鼎鼎的纽约时报记者对感知机的先进性赞不绝口报道说这是一个能够行走拥有视觉能够写作能自我复制且有自我意识的电子计算机的雏形他把它称为电子大脑电脑这个名字最早也是从这个时候来的文章当时还非常乐观的估计再花上10万美元一年之后上述构想就可以实现那时感知机将能够识别出人并能叫出它们的名字而且还能把人们演讲的内容及时的翻译成另一种语言记录下来但经历过现实的我们知道这件事直到最近几年才算真正实现所以啊真心也好忽悠投资人也罢总之人类对于自己不了解的东西就是很容易浪漫也很容易对于未来过分乐观历史上每当人工智能取得一点点微小的进步人类就会开始赋予它无限能力的想象畅想与AI大战的场景从来如此回到一开始的问题那究竟该怎么搭建出一个有学习和进化能力的聪明黑盒子呢感知机就是一个简单的例子专业的说法这些东西啊都叫模型模型本身确定了它输出的函数形式比如说这里就是先用w i加权组合所有的输入然后减去阈值b 再激活就是它整个模型的输出这有一套函数形式但与此同时它又没有完全确定整个函数依然有一系列你需要调节和设定的数值比如说这里的每个w i和b 它们呢叫做参数我们只需要在设计模型的时候让它足够强大任何你想要它实现的功能本质上都可以通过设定模套参数实现那么我们只需要让这个模型不断调整自己的参数不断向着越来越有用符合我们需要的这种输出的模式变化就可以让它最终实现强大的智能这就是联结主义的信念这套故事在一开始提出的时候野心勃勃而且实现了感知机这样了不起的成就但联结主义一度陷入寒冬甚至被整个世界斥为骗子在最一开始的时候就有很多学者反对联结主义他们觉得这只是机械的模拟了生物的构造而且神经元建模的也太简单了而且他们觉得联结主义期待在一通乱联当中发生魔法 1969年马文闵斯基写了一本叫做感知机的书正如给你伸大拇指的人不一定是夸你也可能是想拿炮打你他这本书可不是要推广感知机而是要给感知机下死刑把棺材板上的钉子钉死闵斯基在书中指出了这样一个事实有一个逻辑电路里非常基本的操作叫做异或XOR 简单来说就是当输入的两个特征一样的时候输出是0 而输入的不一样的时候输出是1 就是这么一个非常简单的对应关系感知机却无法完成为什么会这样呢我们仔细看感知机的函数形式就会发现它本质上是在计算W1x加w2y减b的符号假如我们把所有的这样的x,y输入画在二维平面的坐标系上那么能够让感知机激活的所有输入满足w1x加w2y减b大于0 中学的小伙伴可能会很熟悉

这其实啊就是一个线性规划所以说能够激活的满足条件的输入和不激活的分界线永远是一条直线然而对于异或问题你会发现需要激活的这两个点和不激活的这两个点是这样分布的你永远没法用一条直线将这两种点恰好分在直线的两边所以呢就不存在一台感知机能够直接实现这个简单的异或运算闵斯基在这本书里直接毫不客气地说罗森布拉特的论文没有什么科学价值他本人在同年获得图灵奖这本书也因此将整个联结主义打入冷宫在之后的二三十年间神经网络这个名字仿佛就是骗子的代名词是连疑惑这个操作都做不好的无用的玩物在当时图灵奖得主的带头唱衰下神经网络一度陷入了极度的寒冬所有人都认为他是垃圾和骗子基金资助大为减少研究者纷纷转行 AI研究也因此陷入长达几十年的寒冬你看人类又是这么容易悲观一个小小的反例就自暴自弃放弃了充满潜力的研究方向但与此同时依然有一批研究者在坚持他们最后守得云开见月明成为了后来深度学习的奠基人并获得图灵奖我们可以听听图灵奖和诺贝尔奖双料得主辛顿当年在UCD大学接受采访的时候的一段表达 looking back at your career 回望你的整个学术生涯 what aspects of it are you most proud of 你对其中的哪个方面最为自豪？ i'm not necessarily just thinking about your discoveries 我并不仅仅在说您的科学发现 but maybe other aspects of your career as well 而包括您更大的整个生涯 the people who worked with the teams that you've built 那些与你合作的人，你建立的团队 i guess i'm proud of the fact that i stuck with neural

networks 我想我最骄傲的是我当年坚持了神经网络 even when people said they were rubbish 尽管当时人们都说这是垃圾 which was for about the first 40 years 而且说了整整40年 but the intellectual achievement 在智力上的学术成就 i'm most proud of is boltz machines 我最自豪的是玻尔兹曼机 which were an alternative to back propagation 它是反向传播之外的另一种可能他们是怎么拯救神经网络的呢回到刚才异或的例子他们想既然一个神经元不行那么多来几个可不可以呢比如说我们将这些感知机的输出啊一个一个的拿出来然后在后面再嵌套接一层感知机作为他们下一个感知机的输入我们一套娃，套娃一层又一层出来一个新的感知机这样我们就可以让中间一层的两个神经元分别只被0，1和1，0激活比如说第一个神经元它的组合系数是1，-1 此时呢就只有1，0这个输入能给它最强的刺激大小为1 其他的都不超过0 所以我们如果再设置一个1/2的阈值就可以让它只在1，0这个输入的时候激活同理呢我们也可以对另一个神经元在0,1的情况下才会激活设置方式呢是系数-1， 1 这样的话两个中间的神经元就可以分别关注两个我们想要激活的位置接着我们再把这两个神经元的输出直接加在一起大于0的时候给出最终的激活这样整个模型就可以刚好在1，0和0,1的时候激活而在0，0和1，1的时候不激活从而实现异或功能而这就是后来大名鼎鼎的MLP Multilayer Perceptron 全名多层感知机这里中间层当然可以不止两个神经元层数也可以不止两层当这些神经元层层叠叠的时候就是大名鼎鼎的神经网络这里的每一根连线都标志着两个神经元之间的连接强度是一个可以调节的参数系数计算机科学家证明只要这个神经网络的深度和宽度都足够大那么理论上它可以拟合任何一种函数表达任何一种智能所需要的输入到输出之间的对应关系换言之只要你有一个超大的神经网络那么任何一个你想要的智能黑箱的功能都一定可以通过设定一套参数实现

该怎么理解神经网络这种强大的能力呢还记得我们前面说过吗我们用不同的属性概念组合再激活就得到了一个可以识别苹果的感知机的智能而如果我们在感知机上继续套娃就可以不断地把原本简单基础的概念组合成更复杂的概念例如在数字识别的这个神经网络中啊最前面的神经元啊就负责识别一些非常基础的笔画和边缘而往后层的神经元呢就负责将这些基础的特征组合识别出一些更复杂的概念比如说圆形横线竖线折线等等接着更深的神经元可以组合这些线条图形识别出复杂的数字比如说9就是一个环形加上右下角的尾巴随着层次的加深神经网络逐渐从简单的这些特征推导出复杂的整体形态最终准确地识别一个复杂的概念而整个这个过程不需要任何人类专家知识的介入是他自动完成的而这正是神经网络的强大之处随着时间的推移神经网络的技术也不断的进步前面我们看到的多层感知机只是最经典最基础的一种如何设计更好更强大的模型结构一直是深度学习的重要课题比如真实世界里动物的视觉神经系统的神经元呐不需要和前一层的所有神经元全都稠密的连接而只需要和局部的几个神经元连接就行而且每个神经元和前一层连接的参数结构又都是类似的那么我们设计神经网络的时候也可以借鉴这一点从而减少参数和运算量提升神经网络的性能这就是大名鼎鼎的卷积神经网络CNN 后来研究人员发现卷积层堆的多了训练起来有困难又增加了一种跳跃式的连接这就是残差网络Resnet 或者你可以把任何两层都跳跃连接起来这就是denset 再到今天GPT的基础框架Transformer 也就是attention 它们本质上都是某种网络的基础框架结构然后有大量的参数需要去决定一个好的结构可以让黑盒学的更快需要的数据更少而这就是深度学习曾经一个非常重要的领域神经网络结构设计你肯定会问神经网络这么强大可以自主地发现数据中蕴藏的结构理解概念他究竟是怎么做到这一点的呢答案就是用数据训练通过奖励和惩罚来引导神经网络形成智能但我们应该究竟怎么奖励惩罚一个神经网络呢其实从GPT到Alphafold 再到Midjourney和各种强化学习各种复杂又先进的人工智能模型几乎无一例外的都在使用着同一种算法来训练网络找到最好的参数而这个算法就叫做梯度下降特此说明啊这部分内容的数学知识很多而且技术性很强但因为它实在是太重要了所以我们必须要讲因此呢你实在听不懂也没有关系具体的我将沿用油管博主 Artem Kirsanov的视频和思路为大家讲解在讲解梯度下降之前先让我们简单回顾一下前面的内容我们首先提到智能的本质是一个黑箱这个黑箱能够从数据中

找到输入和输出之间的对应关系换言之，在数据驱动的机器学习和统计学习眼里所谓的智能本质上就是给你一堆点然后用一个函数你和他们之间的关系罢了这里的x和y 可以是任何你关心的两个量只要学会了一个可以刻画这些点趋势的函数我们就可以获得任何一个输入对应的合理输出换言之实现了智能该怎么找到这些数据点所勾勒出的底层规律呢根据前面的内容你可能会想到神经网络这当然是一个办法不过这里呢为了理解梯度下降我们先用一个简单一点的方法找到这个函数比如说我们线性组合常数x x平方，x3次方 X4次方 X5次方这几个简单的单项式模块换言之我们想要找到一个五次多项式来刻画这些数据变化的规律我们需要找到K0到K5 这六个参数最好的组合那什么样的参数是一个好的组合呢我们需要一种定量的方式来度量一组系数所对应的多项式到底拟合的好不好而这就是损失函数其实大家早就见过损失函数了中学学过最小二乘法其实就是用一个简单的y等于k x加b的线性函数来搭建黑箱对每个数据点线性函数的预测和实际结果都会有偏差我们把这些偏差的平方加在一起就得到了这根直线的损失函数在复杂的非线性里损失函数也是一样的道理我们同样把函数预测的数值和实际数据点的数值误差平方加到一起就得到了这个函数的损失函数你可以看到当这个函数的预测越是贴合这些数据点的趋势时损失函数加在一块就会比较小而反之呢损失函数就会比较大大体来说损失函数就是在衡量一个模型预测的和真实的结果之间的偏差程度只需要记住，掌握规律就等于损失函数很小，就可以了请注意这里出现了两种函数大家不要混淆第一种是我们用来拟合数据点的这根曲线我们叫它拟合函数也就是那个五次多项式它的输入是x 输出是y 我们需要决定这6个参数输入到输出的可能函数有无穷多个我们想要找到最好的那一个而什么叫最好呢哎为此我们提出了损失函数它衡量一个拟合函数到底好不好是一个打分机器它的输入是多项式的这6个系数接受到这些系数之后呢它会先构造出这个拟合的曲线函数然后呢逐以比对计算在所有数据点上的偏差将它们平方加在一起之后就会得到最终的损失函数的输出了我们只需要找到使得这个损失函数很低的输入参数组合K0到K5 我们就可以找到一个出色的拟合函数而有了这个拟合函数之后我们就可以把这个拟合函数机器拿过来输入任何一个我们关心的x 得到一个符合数据规律的合理的y 你可以理解为我们在玩这样一个游戏

每一个参数k啊是一个旋钮它们通过设置这个系数会产生一个不同的多项式曲线而你的目标就是调节这些旋钮让这跟拟合函数的曲线和数据点比较贴合事实上神经网络干的事情本质上也是完全一样的只要把这里的k 改成神经元之间的连接系数和阈值b 那么训练神经网络同样也是一个调节参数旋钮来降低损失函数的游戏这个游戏难点在于旋钮实在是太多太多太多了你看这个5次多样式有6个参数旋钮已经让人非常头大而神经网络的参数个数更是多到离谱举个例子 GPT3一共有1,750亿个参数换言之你要同时调好1,000多亿个旋钮并且让这些旋钮组合起来的设置可以有很好的性能能够跟你对话解决问题是不是听起来很不可思议呢这几乎是一件不可能的事情在数学上这个问题叫做非凸优化求解它的难度是臭名昭著的大这个问题啊也一度困扰着联结主义的研究者们也是神经网络这一派研究一直没有真正发展起来非常重要的原因因为一旦你的模型做大做复杂你虽然觉得它很强大但是你找不到好的参数让它实现这种强大直到后来 1976年由Seppo Linnainmaa提出了一个巧妙的算法梯度下降并在1986年由David Rumelhart Geoffrey Hinton和Ronald Williams共同提出了反向传播算法才算真正解决了这个问题让我们先从最简单的地方开始假设这里除了K1之外的五个旋钮都已经被固定好了我告诉你已经有人把它设置在了最好的位置上现在你只需要去考虑把K1这个旋钮调好那么到底该怎么办呢哎我们可以调节它观察这个损失函数的变化此时你会发现损失函数就从原来的6个输入变量变成只有一个变量K1 哎这是一个一对一变化的函数我们很容易做图做出来的图大概长这样我们的目标就是找到它的最低点不过不要被这里的图误导了我们是解释方便所以直接把这个图像画出来但实际上我们并不知道这个整个图像我们知道的只是某一个具体的K1 下这个拟合函数长什么样然后算出来这个K1对应的损失函数有多大所以说我们只能得到一系列离散的点对于每一个输入点知道函数值是多少而在这些点中间的位置损失函数到底是怎么变化的我们是全然不知的你会发现优化神经网络甚至比求损失函数的最小值更复杂因为你没有办法看到整个损失函数的全貌这就好比把你放到了一片地形高低起伏极其复杂的山地上每个参数的数值就好比是经纬度而海拔高度是损失函数的大小周围大雾弥漫你只能看到自己脚下的地形你该如何下山走到一个海拔比较低的地方呢还是用这个K1的例子刚才呢我们有一句话说的其实不是很对那就是我们知道的信息

其实还是比纯粹的损失函数大小要多一点具体来说我们还可以知道在某一个位置下损失函数到底随着K1的增大是增大还是减小用数学一点的说法就是我们可以获得损失函数在这一点切线的斜率更专业的说法是导数这个方法呀大家调洗澡水和收音机的时候其实都用过那就是你可以把旋钮先往某一个方向转一点点 Delta x看看是更好还是更差比如说这里我们初始在X0的位置损失函数是Y0 然后增加了Delta x 到了X1的位置之后我们再看看损失函数变成了Y1（口误）所以我们就会发现损失函数增加了一个Delta y 也就是说它变差了那这个时候你就知道洗澡水应该往反方向调所以当我们的调节变化量 Delta x无限小的时候 Delta y和Delta x变化量的比值会接近于一个定值那就是损失函数在这一个点切线的斜率而这就是函数在这一点的导数在变化很小的时候函数值y的变化量正比于x的变化量而这个比值就是导数所以我们就用一句话来概括一下梯度下降的精神那就是每次减小一点点我们每次看看要减小损失函数我们现在的这个位置应该往哪边走然后呢就往这个方向走一个很小的距离接着呢再看导数再走不断重复上述流程这样我们就可以不断地缩小损失函数直到最后停在底部参数基本不再变化此时我们就成功地将损失函数减小到一个很低的程度现在我们已经清楚了怎么调节一个旋钮但这有一个非常不现实的前提那就是其他5个旋钮已经调到了最优的状态并被固定住现实中你要同时调节好多旋钮而且所有的旋钮都没有调好这个方法有什么用呢哎有用事实上刚才我们的这个方法可以非常容易的拓展到更一般更复杂的情况比如说假设你现在要同时调节K1和K2两个旋钮此时损失函数变成一个输入是两个实数输出是一个实数的二元函数它可以表示成一个二维的曲面哎这就是很多人经常听到的损失曲面这里 K1 K2的损失曲面看起来就像一个碗且慢二元函数的导数是个啥呢现在有两个旋钮所以调节的方向出现了奇异到底是只调K1 还是只调K2 还是都调呢这里就涉及到偏导数的概念我们可以固定K2 只而只变化K1 此时我们就得到了损失函数对K1的偏导数反过来固定K1 只变化K2 此时就得到了对K2的偏导数它对应于我们固定K2或者K1当中的一个然后单独的调节另一个旋钮时

对损失函数输出的影响几何意义上这意味着我们用两个垂直于坐标轴的截面和曲面相交截面会切出一根曲线来然后我们再求这根曲线的导数将这两个导数拼在一起我们就得到了那个你经常听说但可能不知道是什么的东西梯度梯度说白了就是在某个给定位置函数值变化最快的方向也是曲面在局部最陡峭的方向是一个二维版本的求导有了它我们就可以重复刚才的流程每次向着局部损失函数下降最快的方向前进我们完全就可以用刚才类似的方法愉快的同时调节两个旋钮了这个方法就是大名鼎鼎的梯度下降你想既然两个可以那么这套方法就可以应用到任意多个旋钮这个问题里完整的损失函数是一个复杂的六维曲面那我们还是可以如法炮制对每一个旋钮我们都固定其他的旋钮然后单独看这个旋钮和损失函数之间它的变化关系是什么样的增加它损失函数是增加还是减小这样我们就能得到每个旋钮的偏导数拼在一起得到了一个6维的梯度接下来我们只需要让每个旋钮都向着对应的方向不断迭代去减小损失函数从而拟合出这些数据底层的规律了现在我们知道梯度下降法可以优化网络找到损失函数比较低的参数可是面对一个层层堆叠的非常复杂的神经网络我们怎么计算出这个梯度呢这个问题啊非常专业答案是反向传播back propagation 这是一个专门用于计算复杂的神经网络梯度的算法也是很多人学习深度学习被劝退的第一步这里我们不详细展开反向传播具体的细节只告诉你它最精髓的思想不管是神经网络还是刚才我们的多项式拟合本质上我们都是用一些非常简单的基础运算比如说加减乘除啊平方啊指数啊之类的不断的组合复合迭代形成了一个超大的复杂的函数它们就像我们用一个个基础的积木一样拼接成一个庞大的机器我们关心的无非是每个旋钮参数的梯度用最直白的话说我们关心每个旋钮动一点点最后面的损失函数随之变化的关系而这个信息是可以由后到前层层传递的为什么呢因为每个基本的这个积木的求导我们都很清楚而积木在组合过程当中梯度是怎么样组合变化传递的我们也很清楚你看中学我们就学过了求导的基础法则加在一起求导等于各自的导数相加乘在一起求导呢则是这个结果除了上面说的相加和相乘还有一个最重要的性质那就是链式法则如果我们先把一个x 送入了一个函数g 再把g(x)这个输出当成输入送入函数f 那么这整个过程合在一块依然是输入一个x 输出一个数值它也是一个函数

是f (g(x))比如说在这里如果一个是正弦一个是log 那么它的图像大概长成这个样子问题来了我们知道f和g各自的形式和各自的导数应该怎么求它这个合体的函数对于x的导数呢那么现在假设我们把输入x变化一个Delta 根据导数的定义我们知道第一个g(x)在输入变化Delta的时候它的输出会变化的比例是g'(x) 所以你就知道这个中间的这个输出g(x) 此时会增加g'(x)乘以Delta 那么进一步呢对于后面的这个FX来说注意到它的导数是f'(g(x)) 所以说当它的输入变化了中间这么大的数值的时候它的输出就会在中间这个变化量上进一步乘以f'(g(x)) 也就是这么大当我们把右边的这整个除以x的变化量Delta的时候就可以得到链式求导的法则也就是说先做g(x) 再做f(x)一起求导得到的结果是g'(x)乘以f'(g(x)) 这就是复合函数的求导如果用前面积木的比喻你可以想象有三个齿轮相互咬合它们转过的角度啊就分别代表x,g(x)和f(g(x)) 而导数g'(x)呢就表示第二个齿轮g(x) 相较于第一个齿轮x 传动的速度之比那f'(g(x))呢就是第三个齿轮相当于第二个齿轮g(x)传动的速度之比如果我们想要知道变动一点点第一个齿轮x 第三个齿轮到底变化的速度会有多快我们就只需要把这两个齿轮的传动比乘在一起就可以了这就是链式法则有了链式法则我们就可以从后往前一步步拆解得到每一个参数的导数这是因为任何一个参数从它到损失函数一定是经过了一系列函数的复合到最后一层输出就是模型预测本身了我们可以直接计算损失函数以及它的导数接着我们就可以用刚才的链式法则一层一层从后往前的把每一层嵌套这个传导的导函数一步一步的乘在一起当我们回到最开始K1的位置的时候就得到了K1相较于整个输出损失函数的梯度而这个算法就叫做反向传播back propagation 所以我们最后总结一下找到这个几百万个旋钮机器最好参数设置的方法就是用反向传播算法计算出每个参数的导数接着呢用梯度下降法每次让这些参数变化一点点不断地向着更好的参数演化和移动最后整个神经网络就会神奇的理解掌握数据中的规律学会底层函数并获得这种我们想要的智能在前面的内容中我们详细讲解了智能就是搭建黑箱以及神经网络这个强大通用的黑箱的构造和由来是什么还有如何训练一个神经网络不过这里还有一个非常重要的问题这个神经网络的黑盒是怎么举一反三的呢你看呢我们只是收集了一些数据然后训练它在我们收集的数据中对于见过的输入比如说这张数字图片它要输出成我们想要的输出6 那他见过这些东西能够把它正确识别成6并不奇怪但是对于从来没有见过的其他图片

训练好的网络是怎么能够同时认出其他的数字的呢这就好比你给一个人做了很多题他能够把你给他的练习册的题做对不奇怪但是他是怎么样学会这些解题的方法在新的题上考试也能考好的呢这个问题其实很深刻它涉及到机器学习能够成立的一个非常重要的问题泛化generalization 这个名词看起来很高端但正如我们刚才所说的它的本意就是推广举一反三活学活用我们还是从前面的最小2乘说起以及曲线拟合思考这样一个问题对于中间这个位置输入的x 我们没有任何y的数据但你还是会觉得它应该就在这个范围里为什么呢没错因为这些零散的数据点勾勒出了一种趋势当我们用这样的一个连续平滑的函数准确地刻画出这种趋势之后就可以利用这个函数推测数据中我们没有见过的某一个输入下对应的合理的输出大概应该是多少这其实就是一种最简单的泛化我们将这种关联的趋势理解并且推广到我们没有见过的一些输入数值通过理解底层规律在未知情境下给出合理的预测和输出那同样的神经网络也有泛化能力而且是很强的泛化能力虽然在训练数据中他没有见过一模一样的图片但是呢他可以在训练过程中发现这些输入的图片和标签之间的趋势和这种微妙的关联性这种关联啊就跟我们前面的曲线拟合的时候中间断开的那一部分看起来应该要这样连线所以你可以预测那其中的函数值一样只不过在我们现实的数据里这个趋势可能非常抽象不如刚才的曲线拟合这么直观而这正是神经网络强大的地方你只需要提供数据那么底层抽象的趋势和规律只需要交给神经网络他自己学就可以学明白了很多行业和学科其实都面临着这类问题就是不同的情境里有一种感觉和规律这种感觉和规律难以用简单清晰的数学来计算和描述比如说围棋里这一块棋形看起来好不好能不能活有经验的棋手一眼能看出来行话叫做味道不好但是怎么样学会这种感觉和味道却非常复杂还有在说话这个问题上一句话前面的语境下后面该接上一个什么样的话也是一种复杂和微妙的语感但是怎么学呢很难说更不用说从氨基酸序列里分析出整个蛋白质结构这种极为抽象复杂的规律曾经我们需要非常专业的知识来模仿人类的聪明智慧而且模仿的还不好而有了深度学习你可以不管三七二十一只需要找一个架构合适的神经网络收集数据训练拟合然后这个神经网络就能领会数据当中你所描述的输入和输出间微妙的联系并举一反三应用到任何潜在的他没有见过的情景输入中很多时候做的比人都好这种公式一样的解决方案非常通用因而席卷了各个领域引发了这些年的人工智能革命但是神经网络和深度学习是万能的吗

答案当然是否定的每当有一个很厉害的方法可以实现以往不可思议的任务时人类就有把它当成魔法的倾向尽管深度学习的确模仿了大脑的神经元结构但是它和真正的人类智能还有很大的区别我们都见过这样的梗图该怎么区分柴犬和面包说它们看起来有很多相似之处比如说都是黄色的呀长条形的呀什么难以区分这原本是一个玩梗但对于一切机器学习算法来说这都是一个根本且致命的问题因为你看这个模型它一直就是通过各种图像的特征输入和你要它的这个标签来理解图片的内容的所以它在训练当中所理解的事情就是一个黄色的长条形的物体是面包因此当你给它一个在训练集以外的柴犬图片时它会因为这个柴犬符合面包的各种特征而产生错误的判断这本质上是概念之间的相关性和因果关系之间微妙的区别他没有把握而这个问题在收集数据训练模型的这一套方法论中永远无法避免这就是为什么有很多用神经网络啊算命或者预测犯罪机率的应用广受批评因为模型会错误的把数据集里的共同出现当成必然联系比如说看到黑人就觉得一定会犯罪这个样子更糟糕的是你可能永远不知道强大的神经网络黑盒究竟领会了什么神秘的联系因为神经网络太过强大和复杂所以我们几乎无法理解它的内部是如何运作给出我们想要的合理预测的一个典型的例子是对抗样本这是两张图片你能看出它们有什么区别吗但如果让一个准确率非常高的最先进的神经网络来看第一张图片他觉得是熊猫但第二张图片他以99%的信心认为是一只乌龟仔细看你会发现第二张图片相较于第一张添加了一些十分微小的噪声而这些噪声可不是乱来的它经过了特别的设计专门用来欺骗神经网络这种图片就叫做对抗样本对于它的理解和研究直到现在还在进行而我们依然没有彻底理解它大家一般认为它触发了神经网络底层某些神奇的开关这些在人眼看来杂乱无章的噪声在神经网络看来却有着强烈的乌龟的特点和相关性看到这里你还觉得神经网络无所不能吗有关AI很多人关心的切身问题是他会让我失业吗总的来说深度学习和神经网络提供了一套全新的智能思路你只要收集数据再用梯度下降的方法训练一个好的神经网络就能让这个超级黑箱理解数据中的规律从而举一反三对任何未知的情景输入给出智能的预测这的确是一场革命它让AI解决了很多曾经只有人类才能完成的非常微妙复杂数据庞大的任务因此如果一个工作他数据充足模式固定其中机械性按部就班的性质比较强那么你就很容易收集大量的数据用于训练

AI就可以在基础的日常使用中相当程度上替代人工从这个角度上来说文秘插画摄影翻译财务甚至是底层程序员这些职业都会在未来面临极大的冲击然而正如前面所提到的那样如今的人工智能绝非万能相反很多时候它还是人工智障即便是现在的大模型依然在很多复杂的问题上表现的不够理想 AI在面对超出训练数据范围的全新问题时往往还是难以做出合理的判断实际上我认为 AI的发展更有可能改变工作的性质而不是完全取代它比如说文秘工作可能会因为AI的介入变得更加高效人类将在监督和决策的层面上进行管理而并非亲自处理那些琐碎的事务同样设计和创意类的工作比如说插画广告等等领域尽管 AI可以为你生成一些初步的作品和基础的素材但真正打动人心的创意和灵感目前还是需要人类的参与同样的它可以帮助科研人员写文章改病句甚至是进行一些简单的公式推导和代码撰写但是真正的科研的idea还是得自己去想 AI生成的内容往往缺乏人类情感的深度模糊和复杂性这也是它在某些领域难以超越人类的根本原因更重要的是目前的AI 还缺少在现实世界中交互的能力自动驾驶机器人这些领域 AI的发展速度远不如大众想象的那么乐观所以总而言之 AI的确会对一些职业造成影响尤其是那些重复性高模式固定的领域但同时它也会带来新的机遇未来的关键在于如何积极地适应这种变化提升自身的技能以便更好地与AI协同工作而不是被它所替代人类的创造力情感和智慧依然是AI无法模拟和完全超越的你也可以投入AI的潮流中就以这期视频为起点开始学习多看几遍打不过就加入嘛也不失为一种好的策略以上就是这期视频的全部内容制作真的很不容易还希望大家点赞收藏多多支持如果你以后想看到更多类似的深度科普记得关注我漫士沉思路学海引路不辛苦我们下期再会