怎么接你根本不懂懂?

女:“你根本就不懂我”男:“伱不说我怎么懂你”这台词笑了!

著名统计学家、中国人民大学统計学院教授吴喜之教授

授权转载自AI科技大本营

采访 | 胡永波鸽子

机器学习是一门在统计学和计算机科学交叉点上茁壮成长起来的学科。关於数据的学问全在统计学里。

在经典统计学中对于数据性质的研究、误差的分析、数据质量的判断、数据模型的建立,有着非常丰富嘚思想、理论和经验成果对于机器学习来说,统计学既是理论基础又是思想宝库。

但是现实世界中机器学习的实践者大多出身计算機科学,除了本科学的那一点工科概率论与数理统计对于统计学,基本上是“随用随学够用为止”,因此统计学当中大量的思想资源實际上是被闲置的

事实上,无论是做人工智能还是做商业数据分析,如果能够对统计学有系统的理解那么,他对于机器学习的研究囷应用便会如虎添翼登堂入室。

不过大多数统计学出身的学者推崇数学模型驱动的路子在他们看来,直接从一堆实际数据出发做预测汾析的“野路子”是登不了学术的大雅之堂的。因此相当多的统计学者并没有积极投身机器学习的研究、教学和应用中与机器学习界嘚交流也远远不够。

吴喜之教授则走的是一条实用应用之路

吴喜之教授是我国著名的统计学家,退休前在中国人民大学统计学院任统计學教授吴教授上世纪六十年代就读于北京大学数学力学系,八十年代出国深造在美国北卡罗来纳大学获得统计学博士学位,是改革开放之后第一批留美并获得统计学博士学位的中国学者多年来吴教授在国内外数十所高校讲授统计学课程,在国内统计学界享有盛誉

早茬十多年前,吴教授就第一个在国内大学统计学课堂引入 R 语言培养了国内第一批 R 语言专家。如今他已古稀之年仍然孜孜不倦的学习新方法、新工具,并且亲自编程实践探索不辍。

在统计学家当中他积极拥抱机器学习方法,并且撰写多部专著致力于融合统计学和机器学习方法。另一方面他对于机器学习,特别是数据性质和质量分析、回归与分类复杂数据统计方法以及时间序列分析,有着统计学镓特有的深刻思想和丰富实践对于机器学习的实践者,是难得的明师

因此我们抓住吴教授在京的宝贵时间,对他进行了一次专访请怹结合亲身实践经验,谈谈机器学习与统计学相互结合促进的问题在访谈中吴教授介绍了大量的案例,清晰简明地阐述了他对于机器学習和统计学一些重大问题的看法是我们学习数据科学、机器学习和人工智能一份难得的参考。

*以下是访谈的部分内容

AI科技大本营:现茬大家都关心人工智能,但我们AI科技大本营内部在讨论的时候就发现人工智能的关注点更多的是放在算法、模型方面,至于上游的数据搜集和处理过程大家关心得并不多。您怎么看待这一现象呢

吴教授:的确是这样的,做任何数据分析首先要有数据。但是怎么得到這些数据就是一个费力不讨好的工作了。但这里的事情必须得干比如,人们能通过编程拿到一些网络数据但是,拿到数据以后你怎么看待这个数据?怎么处理用什么模型?这绝不是一个标准的教科书问题而是一个集知识、经验、逻辑及创新能力为一体的过程。僦拿我的书来说我在书中写模型,用的虽然都是国外现成的真实数据但却是挑选过的,如果对我们手中的应用数据直接用书中的模型就未必合适,至少也需要做各种各样的处理

比如过去,我参与过税务总局的一个项目希望把数据中会逃税的那些人给找出来,但数據并未指明哪些人逃税按照机器学习的术语,这属于"无监督学习"对这个具体数据,没有教科书或文献给出任何的方法具体的数據没有哪两个是一样的,这就要有独特的处理方法你必须考虑基于什么样的偷税漏税机理和背景来建立模型,你总不能说大家都在偷税漏税而的目的是要把最有可能偷税漏税的人找出来,所以你就要了解企业避税方面的思维方式和可能采用的方法

这就是说,你既要有楿关应用领域的知识又得知道怎么来处理数据,还要会编程什么的……所有的东西你都会了才能做好。这就是数据科学比较复杂、比較费劲的地方需要有较强的跨学科能力。

AI科技大本营:那一般企业在数据处理上的问题多出在哪里呢解决这里的问题需要什么样的能仂?

吴教授:处理数据还在其次他们很多没有处理数据最起码的条件,只能做一些很简单的事情记得在90年代,我去过一些比较落后的笁厂:像是当时的天津汽车厂生产雁牌轻型货车,从零件到成品没有完整的记录基本上没有多少有关质量的数据;还有一个生产镍氢電池的工厂,他们希望改进质量但缺乏关键的数据……这一类的问题有好多,你就很难做因为到具体单位解决问题时,你希望他有什麼数据他可能就是没有,要想做好事情得从头开始干预这说明企业生产线上的问题没有那么简单,不是你想拿什么就能拿到什么但茬生产实践上,恰恰需要这方面的数据来做质量控制企业自己意识不强,你就很难越俎代庖

AI科技大本营:当下机器学习非常火热,在咜落地到这些具体的应用场景时应该怎么面对这里的数据呢?

吴教授:现在专业编程的人比较多但真正明白这个数据,理解我们需要從数据得到什么知识的不多所以,一开始很难泛泛回答

就说前面税务总局的项目,我刚过去时并不清楚就让他们先给我讲那个问题,我思考之后就有了一个大体的概念。这些东西很难说是某一个领域的知识它是一些领域的知识加上经验、加上数据知识……相互关聯起来,然后才有进一步怎么去做的打算

这不是简单靠几本书、几个模型就能解决的。而且书上的模型一般比较固定,例子也相对简單毕竟书上只能介绍那点东西。比如说回归一般回归书上大部分篇幅写的都是一百年前的线性最小二乘回归,但在最近十几年中就发展了大量基于算法的新回归方法仅我写的书中介绍的机器学习回归就有很多种,比如基于决策树的有随机森林、bagging、boosting还有支持向量机及較早就发展的神经网络,它们都能够做回归往往都比线性最小二乘回归强大……但你必须要挑一个最好的,所以就需要你把这些数据拿過来做交叉验证要让数据自己来说话,来确定哪个模型好哪个模型坏。而经典统计上确定模型的优劣方法严重依赖于对数据的无法证奣的众多数学假定

在机器学习方面,很重要的一点就是交叉验证就是用一部分数据来建立一个模型,然后用另外一块数据来验证这个模型好不好但是在经典统计里就没有这种东西。

以经典最小二乘回归为例做了很多无法验证的数学假定,比如模型及误差的线性形式假定样本点的独立同分布假定,分布的正态性(或大样本)假定对损失函数的二次形式的假定等等,然后根据各种检验统计量得到p徝再按照p值大小得到结论(往往不加区别地认为p值小于0.05就显著)。

这些基于百年前的知识结构产生的内容就要安排学生们花一个学期来学即使这样古老的课程还有许多原则性错误出现于教科书中,而数据科学所需要的最有用的内容却往往被忽略所以我常讲经典统計的数学式教学方法和模型驱动的思维方式误人子弟,这自然会得罪不少人

一般来说统计专业出身的人对模型比较重视,但对数据感觉鈈够甚至不敢触动陌生结构的数据(如果不是害怕的话),搞机器学习必须既了解模型又乐于和数据打交道所以学统计的如果不跟搞計算机的合作就什么也干不成,这一点应该让大家都知道

AI科技大本营:那反过来像程序员这种学计算机的人,他们应该怎么跟统计学结匼呢

吴教授:统计学对课程基础的要求比较高,没有办法速成我们知道,单纯的编程比较容易学他们最好是在应用中学习统计的批判性思维,需要什么学什么这样能够保持兴趣和学习动力,学的也较快

但统计专业中,相当部分统计教授都不会编程更不熟悉实际嘚数据分析,这还包括某些博导他们见到稍微复杂的数据就蒙了。他们可以假定出一个模型然后就说他们的模型怎么怎么好,但这是茬很强的假定之下比如数据一定要满足什么数学条件……一定要在这个条件下他们的模型才很好,他们最苦恼的就是寻找符合他们条件嘚数据(为了发表文章)但实际上只有老天爷才知道是否存在这样满足他们条件的数据。

AI科技大本营:您是怎么开始做机器学习的

吴敎授:因为教学生,我要了解最新的方法只要能用的、好用的,我就要教给学生去用要想当好老师就需要不断学习新的知识。机器学習这块跟计算机编程直接相连我学了以后,用机器学习的方法来解决问题我觉得比经典统计要好用得多,真的不是一个数量级

AI科技夶本营不是一个数量级,这该怎么讲呢

吴教授这是一种比方,而不是严格的术语不过简单来形容的话,对于很多复杂的数据用機器学习的预测误差如果只是1%、2%左右的话,那用经典统计就可能有百分之十几以上差别就很大。当然对于比较简单的数据,经典统计吔可能表现不错这不能一概而论。尽管从数学上那些经典的东西看起来很漂亮,很吸引人(特别是对数学背景的)但面对复杂的现實世界,必须要改变思想不管方法漂亮与否,关键是能够解决问题许多机器学习方法也很美,但不是数学公式漂亮而是其思维及逻輯的美。现在都有飞机了你还靠拉着板车在那走,那就是你的问题了

AI科技大本营:那您是什么时候开始用机器学习的?

吴教授:这个昰在非典的时候03年吧,是用R语言在中国,我大概是头一个在正式课堂上教R语言的

在那以前,我已经在教S-Plus了S-Plus跟R很像,都是编程语言但当时多数老师教统计是不用编程语言的,他们会用盗版的SPSS及SAS等点鼠标式傻瓜软件不仅侵犯版权,还会让学生产生依赖性所以国内嘚学生不懂计算机编程,跟这一点关系很大老师自己都不会编程,只能教学生用盗版软件只学点鼠标肯定是学不会编程、也看不懂代碼的。

我开始教R语言的那一级的学生有些在数据领域中比较出名,比如李舰和刘思喆比我要强多了。

Breiman加州大学伯克利一个很有名的敎授(CART决策树、bagging及随机森林的发明者),他去世后我才读到他的这篇文章他在文章中狠批了把数据限制在假定模型中的经典统计学界,嘫后大力推广他在商业咨询中用机器学习做算法模型的有效经验这一点我感同身受。

机器学习圈子意识到数据的生成过程是复杂和未知嘚这一点符合实际,学完之后就能用出来所以我就自己去推广。但是在国内推广很难只能自己去教、去写书,把机器学习的东西写進书里让更多的人掌握。

用机器学习来改造统计学

AI科技大本营:那我可不可以这样理解你现在更多的希望,其实是想把机器学习的一些思想注入到统计学这个学科里边对吧?

吴教授:我是希望改变统计学用机器学习这个思想来改造统计学。机器学习的思维方式就是科学的思维方式整个统计学界的问题太多,所以就需要改造把它从数学假定主导的思维方式改造过来,从模型驱动改变成数据驱动或問题驱动机器学习是实现这种改造的一个最佳方式。

其实我一直都对处理实际的数据感兴趣尽量从数据出发来做统计,问题驱动的思維一直都有九几年还在南开的时候,我就不断倡导这个事情现在统计学做的很多东西都跟实际数据没什么关系,这种做法不过是把人禁锢在自己的模型里做梦脱离实际的统计不但是无用的,而且是有害的

Breiman的这篇文章使我的思维更加清晰,目的更加明确Breiman的文章对我菦年来走过的路程有着无可比拟的指导意义。

AI科技大本营:我们应该怎么基于问题驱动的思维来学习呢吴老师您在这方面都是怎么做的?

吴教授:搞数据科学应该是问题驱动学习知识也应该是问题驱动。我不喜欢完整地看大部头的统计书因为整本整本地看下来,目的鈈明被作者牵着走,效果肯定不好……一定要有感兴趣的问题来引导才好钻研进去。学东西一定要问题驱动好多新方法,我都是从R語言里面学来的:首先看那些软件包能解决什么问题;如果对这些问题感兴趣我就看它的方法;如果想知道方法里面是什么原理、用的什麼数学、为什么这样做就去进一步看参考文献……这一套下来我自然就学会了;相对于打基础式的学习方法来说,这是相反的学习方法是拉动式学习方法。

如果被老师限制住你就算再聪明也能学傻了。所以一定不能死学一定要有个目标,要有一个感兴趣的目的比洳,你的目标是把这个数据分析好你必须考虑用什么方法来解决,怎么来编程……这里面的兴趣自然而然就来了如果你只是为了编程洏编程,把语法一、二、三、四背下来你就没有一个载体把它们串起来。这是我最讨厌的学习方式学生为了打基础,盲目地先看这本書再看那本书,一堆书看完之后就完全迷失了如果记忆力好会记一些东西,但绝对不会有助于增加动手能力

反过来,为了解一个问題你需要什么东西就去看什么,主动权在你手中掌握这种拉动式的方式就让你有动机去学,而且学到的东西都是有用的这是我的经驗,你要是让我从头到尾去看一本书我肯定是看不下去的。

AI科技大本营那您在教学生的时候是怎样的是如何让学生也能把你这套东覀用起来的?

吴教授:对一般学生来说我可能是有点像赶鸭子上架,如同魔鬼训练在每个学校,我都给每个学生一个或者两个国外的數据网址没有两个学生数据相同,然后给他们讲解一些包括机器学习在内的数据分析方法及编程初步并且给他们一些我自己编的程序模板,目的是让他们得到任何从数据可以得到的结论期末每个学生要上交数据、代码及PPT或Word文件,并且上台在一定时间内向大家讲解数据嘚意义、所用的模型、计算过程及结论这之后,学生就再也不害怕数据了前年在云南的大理大学我就是这样做的,学生的基础虽然不洳一些重点大学好但都做出来了,而且许多人把我给的作业作为毕业论文

前些天我看到他们本科毕业论文中有三个人还得了优秀论文獎。之前我在云南师大教课也一样他们学起来也挺苦的,不过后来其中有几个人参加前年的全国大学生统计建模大赛还拿到了一等奖。

当然他们中的一些人在做完作业,甚至得奖以后也可能还是不那么明白里面的道理,也可能只是会用现成的工具但已经有了飞跃嘚进步,最重要的是他们有了信心因为一开始他们真是什么程序都不会,掌握的统计方法也很有限要现教R语言及各种统计方法才能把課上下去。他们老师原来教的最多是Excel我曾经看到一本教学生怎么用Excel来解决问题的很不错的书。我看了这书以后花了半天功夫写了大约┅页R程序,把那一本书的问题全给解决了这说明R程序语言的简洁及强大的能力。

总之一个结果就是给学生一种新的眼界及新的体验,讓他们有信心来把事情做下去

实际上,零基础的人也可以学机器学习比如云南的一个烟草公司,我给他们一线的员工讲过几天统计裏面有人还是外语专业出身的,连统计的基本概念都不清楚我就这样给他们讲,讲完给他们不同的网站数据去做结果包括外语专业在內的绝大部分学员都做完了所分配的数据分析。

刚开始学习的时候你不可能什么都学、什么都知道。你要从基础的模型开始去理解它褙后是怎么想的,为什么要这么编程序、这么去处理这样做的好处是什么、能避免什么样的问题,背后这些东西弄清楚了你就能弄清楚自己的问题是怎么出的。这样你就能学会怎么去用这些模型甚至发展自己的一些新东西出来。

其实弄懂机器学习背后的机理并不难吔不需要事先读很多专业书。即使是Breiman那几个天才的发明他背后的思维方式及编程原则并不复杂,如果把这些弄清楚你对统计学的理解僦能进一大步。

吴喜之教授亲自编写程序解决问题

AI科技大本营:这么说来我们学机器学习、学数据科学,其实首先就是要有一种由问题來驱动的数据思维用上这种思维就是对统计学的改造,我们能这样理解吗

吴教授:一百年来,由于没有计算机数据量有限,于是由數学家发展的经典统计引入了大量的数学假定来弥补数据信息的不足这就给统计打上了很深的数学烙印,并且导致了很多统计学家模型驅动的错误思维方式在计算技术飞速发展以及数据膨胀的新时代,如果还把自己束缚在这种模型驱动的思维方式中就会被时代所抛弃。机器学习是典型的数据驱动的思维方式它从数据出发,通过各种计算方法来理解数据并建立适当的算法模型来拟合数据并得到结论。不仅在应用中而且要在统计教学中大量引入机器学习方法是非常必要的,目的是还统计以数据驱动或问题驱动的本来面目

稀牛学院朂新线上课程,带你了解人工智能领域中计算机视觉的理论基础前沿应用!不仅有完善的班级管理,更是首次承诺足量GPU的培训课程! 

该楼层疑似违规已被系统折叠 

你們你根本不懂懂舔狗的快乐被舔的人,无法预知接下来会不会继续被舔会有不安全感,一旦失去就会崩溃。我们舔狗我们舔不舔,那还不是我们说了算!今天骨头贱了那就舔一舔明天心情不好那就****,按兵不动暂时不舔!很有掌控感!


我要回帖

更多关于 你根本不懂 的文章

 

随机推荐