有没有模式识别,机器视觉 模式识别方面水一点的SCI

联系方式:
在线QQ:&&&&胡老师
在线QQ:&&许老师
文章要求建议:
一、论文篇幅控制:&期刊页以上,单词3000字数以上
期刊页以上,单词4500字数;文章撰写语言为英语;
二、文章必须有较好的英语表达水平,有图,有表,有数据或设计,有算法(方案,模型),实验,仿真等。拒绝抄袭,机械性的论文;
三、文章内容重复率不能超过,论文务必保证原创性,图标、公式、引文等要素齐备,已发表或引用过度的文章将不会被出版和检索;
四、参考文献控制个以上,参考文献引用控制在近年以内;图表分辨率必须达到300&dpi;
五、投稿初稿不需要排版,录用后提供模版排版及写作要求;
IAITS-会务组流程:
投稿期刊的分析推荐流程:投稿初审→注册→终审→录用→等候出版
步骤一:建议论文提交至会务组邮箱(天左右为初审)提交的论文将由每个主题的专家进行同行评审;
邮件主题:(文章方向+提交或期刊电话号码姓名+QQ)
(注:提交给会务组的文章最终发表或拒稿,文章始终都是完全保密;请放心
步骤二:审稿专家会根据您提交的文章质量和议题推荐合适的期刊发表;(初审通过会有详细的期刊资料发送)
步骤三:审稿通过有相关模板、写作要求、注意事项、版权协议、注册信息表、版面费等资料反馈至您邮箱;
步骤四:作者按期刊的要求反馈最终修改稿件,版权协议、汇款凭证、注册信息表等压缩包;期刊初审通过,终审录用率在左右
步骤五:期刊社根据文章质量和议题进行终审:
(审稿周期:期刊期刊2-个月左右)每本期刊有快慢,到时候会务组及时告知作者)
步骤六:终审通过期刊社确认录用后,主编发送期刊社正式录用通知:(录用通知包含文章具体发表时间,那一期、卷都会写清楚。)
步骤七:等待出版;
(注:如通过会务组文章提交终审没有通过将统一转投其他的、期刊或退款处理)
微信扫一扫& 登录/注册
您可以从小木虫客户端获取VIP通行码,无需登录继续浏览
STEP1扫描左侧二维码,下载新版客户端
(已安装客户端用户请无视)
STEP2登录页面下方获取VIP通行码
VIP通行码:
小木虫,学术科研互动社区,为中国学术科研免费提供动力
违规贴举报删除请联系客服电话: 邮箱:(全天候) 或者 QQ:
广告投放与宣传请联系 李想 QQ:
QQ:&&邮箱:
Copyright & 2001-, All Rights Reserved. 小木虫 版权所有有没有在新西兰学图像处理、模式识别、机器视觉之类的?_新西兰吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:80,034贴子:
有没有在新西兰学图像处理、模式识别、机器视觉之类的?收藏
去留学的文科生居多吧?
欢迎您来新西兰旅游.敬请浏览新西兰旅游局官方网站,了解新西兰旅游攻略,经典观光线路推荐,特色景点介绍,当地美酒佳肴,酒店住宿推荐,航班与机场信息等内容.
哈哈,咱们两个的领域差不多哦,我也同问吧,哈哈。。。。
我是做这些方面的,不过不是在新西兰哦,新西兰需要这种专业么?我好稀饭那个地方。。。。。
同去同去,好了。梦想之国,不靠父母,自己攒钱去留学吧。
数字图像?MATLAB?还是视觉传达?设计?
MATLAB,图像,你呢?你是去工作还是读书?
新西兰这几年需求挺大的,待遇会很不错。奥大这两年刚开了相关方向,说明是有需求的。
我注意做识别算法,不过现在还在上学。以后干什么没谱呢
我前几天看到一个奥大的论文和我相关的,好几年前的了啊?
学相关专业的飘过~
新西兰机票就找驴妈妈.错峰大促出境早定早惠至高减1500,国内周边特价不停.热门景点满立减.驴妈妈旅游高品质旅游线路,精选线路满额立减,更多好礼送不停.
俺想去留学上计算机硕士不怕大家笑话,我都35了我觉得机器视觉,人工智能,是相当有前途的研究方向但要真的要有静心研究的心理准备另外计算机技术垄断很快的要有做到世界先进水平的决心才好
大哥佩服,我也很有危机意识,很快我也就30多了,十年前离现在还不是一眨眼?
卿卿是哪个大学??
本来打算今年申纽西兰的,不过又不打算了。以前在奥克兰生活过。
登录百度帐号推荐应用机器视觉x模式识别机器视觉x模式识别关注专栏更多最新文章{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&title&:&Brave New World - 欢迎提问&,&author&:&filestorm&,&content&:&虽然很早就有幸拿到了专栏的内测账号,但是很惭愧一直没来得及写内容。忙乱的毕业季以后,愈发觉得需要有个动力督促自己不断学习、提炼研究方面的思路。于是决定开始不定期更新这个专栏。\u003Cp\u003E但是其实我很不擅长写自命题作文,所以这里主要会收录一些问答,开张的两篇都是回答朋友的问题,自觉答案里面有些自己的思考。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E如果知乎上的各位谁有computer vision & pattern recognition相关的问题,也欢迎私信提问。我尽量找那些我能言之有物的问题,在专栏里公开回答。\u003C\u002Fp\u003E&,&updated&:new Date(&T09:27:10.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:15,&likeCount&:21,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T17:27:10+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:15,&likesCount&:21},&&:{&title&:&从Clarifai的估值聊聊深度学习&,&author&:&filestorm&,&content&:&\u003Cp\u003E[转载请注明出处]\u003C\u002Fp\u003E\u003Cbr\u003E前几天和 Ayden \u003Ca href=\&http:\u002F\\u002Fpeople\u002Fa92a37fdefffe9f8c0d84cb5b885e408\& data-hash=\&a92a37fdefffe9f8c0d84cb5b885e408\& class=\&member_mention\& data-title=\&@叶瀚中\& data-editable=\&true\& data-tip=\&p$b$a92a37fdefffe9f8c0d84cb5b885e408\&\u003E@叶瀚中\u003C\u002Fa\u003E 聊天时,提到了 \u003Ca href=\&\& data-editable=\&true\& data-title=\&\&\\u003C\u002Fa\u003E 这家公司。\u003Cp\u003E此前,我已经从各方消息中听说过创始人Matt Zeiler最近打算卖公司。甚至还和朋友打赌说这个公司能不能以$5M出手。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E先说结论:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E这个公司的水准在13年称得上世界第一 。但是这并不能给该公司以世界级的价值。\u003C\u002Fb\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003EClarifai创始人Matt Zeiler 是 New York University (NYU) Rob Fergus教授门下的学生。要知道,从上个世纪开始,NYU就一直是neural computation的重镇。现在Deep net的前身ConvNet,就是出自 NYU 的 Yann LeCun教授组。\u003Cbr\u003EMatt在PhD期间,还曾经在Google跟Jeff Dean实习过。不知道有没有学到什么独门绝技。总之,2013年Image Net Challenge以来,他在Computer vision圈子就非常出名了。\u003Cbr\u003E\u003Cbr\u003E讲到这里就不得不提Image Net Challenge。以前的Computer vision的数据集都非常小,最多不过几百类,几万张图,这带来一个问题——我们无法设计特别复杂的计算视觉模型。否则模型的复杂度太高,数据量太少,就会有 \u003Ca href=\&https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FOverfitting\& class=\&\& data-editable=\&true\& data-title=\&Overfitting\&\u003EOverfitting\u003C\u002Fa\u003E 的问题。\u003Cbr\u003E\u003Cbr\u003E2012年,华人教授李菲菲牵头搞了一个\u003Cb\u003E巨大\u003C\u002Fb\u003E的数据库 \u003Ca href=\&http:\u002F\u002Fwww.image-net.org\u002F\& data-editable=\&true\& data-title=\&ImageNet\&\u003EImageNet\u003C\u002Fa\u003E。到今天为止,Image Net上已经有了14,197,122张图片了。对每张图片,由人来手工记录图片中物体的名字,并向业界宣布,同学们,如果你们谁开发出来了新的物体识别算法,就在我家的数据库上试试吧。\u003Cbr\u003E\u003Cbr\u003E于是2012年,就有了这个LSVRC - Large Scale Visual Recognition Challenge. 最终比赛结果在2012年底的NIPS会议上公布。\u003Cbr\u003E\u003Cbr\u003E当时,大多数的研究小组还都在用传统computer vision算法的时候,多伦多大学的Hinton祭出deep net这样一个大杀器。差距是这样的:\u003Cbr\u003E第一名Deepnet的错误率是0.1Cbr\u003E第二名日本东京大学的错误率是0.Cbr\u003E第三名牛津大学的错误率是0.Cbr\u003E\u003Cbr\u003E如果我们仔细看看第二名和第三名的实现,会发现大家使用的技术框架非常接近,都是local descriptor + feature compression这套。而在这套实现上,二者的差距几乎是可以忽略的——都完全不是deep net的对手。\u003Cbr\u003E具体结果参见:\u003Ca href=\&http:\u002F\u002Fwww.image-net.org\u002Fchallenges\u002FLSVRC\u002FFresults.html\& class=\&\& data-editable=\&true\& data-title=\&ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)\&\u003EImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E说来也巧,我恰好也参加了NIPS 12,亲身感受了这在后来看来的历史时刻。Hinton当时放话说:“如果你没有参加前面十几年的NIPS,没关系,因为直到今年,Deep net才真正work了”。虽然deepnet取得了如此瞩目的成绩,但是就在当时,还是有大量与会教授表示不愿意接受deepnet。这里面指的“不愿意”分几个层次\u003Cbr\u003E1. Deepnet很可能是某种形式的overfitting,因为它里面有6000万个参数。\u003Cbr\u003E2. Deepnet作为一个黑盒子,不可解释。所以对cv的贡献非常有限\u003Cbr\u003E3. Deepnet只能解决物体识别这一个问题,而物体检测、分割等经典问题还需要其他人的努力。\u003Cbr\u003E\u003Cbr\u003E在1%的性能提升都可以称之为“major contribution”的时代,被一个和最近10年computer vision,尤其是object recognition领域的进展几乎没有交集的方法,超过了10个百分点,这也难怪大家纷纷表示不承认也不接受deepnet的革命。但是,洪水的闸门已经打开。。。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E一年后,新一轮的Large Scale Visual Recognition Challenge又开始了,这时候我们不难发现,Deep net的计算框架已经一统江湖了:\u003Cbr\u003E\u003Ca href=\&http:\u002F\u002Fwww.image-net.org\u002Fchallenges\u002FLSVRC\u002FFresults.php\& data-editable=\&true\& data-title=\&ImageNet Large Scale Visual Recognition Competition 2013 (ILSVRC2013)\& class=\&\&\u003EImageNet Large Scale Visual Recognition Competition 2013 (ILSVRC2013)\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E其中Matt Zeiler () 的算法排名第一,在不用额外训练数据的情况下,跑到了error rate 0.1174这样的成绩。\u003Cbr\u003E这个成绩是这样解读的:\u003Cbr\u003E任选一张图片,扔给算法,算法返回5个结果。如果5个结果中,有一个猜对了物体类别,就算正确。换言之,如果允许猜5次,Clarifai已经有接近90%的准确率了。这里的物体类别包括了英语中两万多个名词,几乎涵盖了各大类别。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E但是,2013年和2012年的情况又有很大不同。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E排名第二的新加坡国立大学的误差,是0.129,第三名ZF的误差是0.133,这都与Clarifai非常接近。再也无法出现Hinton组独步江湖的场面了。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E今年的结果还没出来,要等到12月份的NIPS 2014啦。我听到过一些小道消息,在LSVRC 12的训练集(因为测试集保密,所以线下研究的时候,大家都会辟出一部分训练集做测试),某公司已经能跑到10%以内的误差了。当然Clarifai也没闲着,在他主页上已经更新了准确率到10.7%了。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E那么Deepnet的难点在什么地方呢?从最近CVPR 14的情况来看,圈子在这个方面作出的改进,几乎见不到什么质的飞跃。调整deepnet在大多数时候变成了一门实验科学:一方面,对2012年原作的修改太大,会导致识别率惨不忍睹,另一方面,很少有人能有Stefan Mallat那样的数学功底能从理论层面分析deep learning到底在干什么。但是,由于图片的数据量实在太大,站在工程角度上,如何能够在几周甚至几天内完成几百万甚至上千万图片的训练,就是一个非常非常技术的活儿了。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E在工程实现方面,deepnet开山paper的一作Alex Krizhevsky已经开源了他的代码 \u003Ca href=\&https:\u002F\\u002Fp\u002Fcuda-convnet\u002F\& class=\&\&\u003Ehttps:\u002F\\u002Fp\u002Fcuda-convnet\u002F\u003C\u002Fa\u003E ,并且又另起了一个convnet2的项目 \u003Ca href=\&https:\u002F\\u002Fp\u002Fcuda-convnet2\u002F\& class=\&\&\u003Ehttps:\u002F\\u002Fp\u002Fcuda-convnet2\u002F\u003C\u002Fa\u003E。\u003Cbr\u003E\u003Cbr\u003E必须提到的,是UC-Berkeley Trevor Darrel的贾扬清,把他写的deepnet开源了。\u003Ca href=\&https:\\u002FBVLC\u002Fcaffe\& class=\&\&\u003Ehttps:\\u002FBVLC\u002Fcaffe\u003C\u002Fa\u003E 这个功能很全面,性能很高的deep net,不断被大量的开发者完善。目前来看,它是最有希望成为deep net通用架构的一个基础框架。目前,基于Caffe的识别误差,已经降到0.131了——非常接近Matt Zeiler的结果。但是要注意,这些结果几乎都是开源的。\u003Cbr\u003E\u003Cbr\u003E换言之,一群有过几年cv经验的初创小团队,基本都可以超过Hinton 2012年的世界纪录,与2013年Matt Zeiler的纪录非常接近。这简直让我想起战争之王检阅娃娃兵的片段:一个本科生训练出来的deepnet,和一个有30年经验的大学教授训练出来的deepnet,其实并没有区别。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E有这么个传说,真假待考,权当八卦说说吧。当年Hinton组在NIPS 12会场上,就被各家公司争相竞购。Hinton带着Google\u002FMS\u002FBaidu等公司的负责人,找了间屋子说我们团队竞拍,每次加价一百万。后来嫌一百万太慢,改加价两百万。再后来的故事,大家就都知道了。。。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E但是的估价和Hinton组被收购的故事又有所不同。一方面,Hinton本人是当今世界上最杰出(哪怕是2012年deepnet火爆之前)的machine learning研究者,20多年前back propagation也是他的杰作,而且deepnet的正宗首创效应也不可忽视。另一方面,deepnet席卷整个cv圈子带来的各种效应(比如开源),可能也是大家所始料不及的。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E最后,一方面,我希望能被收购,引起更多对cv的关注。另一方面也希望学术圈能尽快找准方向,尽早结束实验报告为主的探索期,能够真正从本质上解释这个伟大的理论究竟为什么work。\u003C\u002Fp\u003E&,&updated&:new Date(&T10:52:54.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:29,&likeCount&:249,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T18:52:54+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:29,&likesCount&:249},&&:{&title&:&visual saliency与benchmark tricks&,&author&:&filestorm&,&content&:&\u003Cp\u003E[转载请注明出处]\u003C\u002Fp\u003E今天和 \u003Ca href=\&http:\u002F\\u002Fpeople\u002F6a06d30e1d35db787be6a\& data-hash=\&6a06d30e1d35db787be6a\& class=\&member_mention\& data-editable=\&true\& data-title=\&@赵盛洋\& data-tip=\&p$b$6a06d30e1d35db787be6a\&\u003E@赵盛洋\u003C\u002Fa\u003E 讨论了一些visual saliency的问题。\u003Cp\u003E所谓visual saliency,目标就是分析人的视觉注意机制,并设计算法模拟之。比如这里,左图是输入图片,右图则是人在看这幅图片时候眼睛注视的区域的heatmap。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&1b5a69fd9b9acc8dcd9216f3\& data-rawwidth=\&248\& data-rawheight=\&204\&\u003E\u003Cp\u003E自从07年开始研究visual saliency以来,我目睹了整个领域一夜爆红(其实也包括我自己),惊喜之余也不免痛心地看到,这个领域被很多人当成了灌水发paper的工具,自己的paper被这些垃圾引用了很多次,这种事情让我怎么也开心不起来。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E尤其是近几年,审稿任务越来越多,才知道除了那些低质量的发表出来的paper,还有水平更差的人在那。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E为了发paper,你总要给个理由嘛。通常来说,如果想在不错的期刊发文章(我审IEEE系的杂志PAMI\u002FTIP\u002FSMCB比较多)至少要在通用benchmark上跑到满分才好。可是除了小孩子不懂事之外,现在的哪个算法没有玩了命的优化细节的?\u003C\u002Fp\u003E\u003Cp\u003E常见的套路如下:\u003Cbr\u003E1. 如果别人(譬如我 CVPR 07 那篇paper)的算法是针对灰度图的,坚决要直接拿来跑彩色图,保证分数很差\u003Cbr\u003E2. 在已有数据集上超不过,就自己重新造个数据集,以确保自己的相对领先优势\u003Cbr\u003E3. 使用center-bias。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E这个center-bias是说,人看图片的时候,倾向于看图片中心区域。那么只要在我设计算法的时候,人为地提高重心区域的权重,我的分数自然就高了。于是曾经有一度,改center-bias的做法可以算得上是八仙过海各显神通——但是基本没有谁明着说自己是在利用center-bias,反倒都是在花大力气修缮那个跟好结果没什么关系的一坨数学公式。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E再后来,一种称为sAUC的验证手段被广泛使用,这个评分办法能巧妙地利用正负抵消的原则,消除人为添加的center-bias对算法的影响。具体的请见Tatler 05年的论文,这里就不展开讲了。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E在作为审稿人的时候,我的原则是,凡是没见用sAUC作为benchmark的,至少major revision打回去重做实验。当然,大部分文章本身质量差的匪夷所思,三个审稿人一致决定据掉的至少占全部稿件的1\u002F3(可以理解,毕竟投稿又不花钱)\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E赵同学心中一直有个疑问,既然center-bias客观存在,那么为什么不能提出更好的模型利用这一点呢?\u003C\u002Fp\u003E\u003Cp\u003E答案有三点:\u003C\u002Fp\u003E\u003Cbr\u003E1. Center-bias modeling比较简单,直接加一个Gaussian mask基本上就可以解决这个问题了。所以本身不是一个非常有研究价值的问题\u003Cbr\u003E2. 在bench别人算法的时候,因为很多参数可调,所以可以轻易导致一个不诚实的研究者,通过调整别人的center-bias来获利,而这在初审时很难察觉。\u003Cbr\u003E3. 上述第二点在换新dataset的时候尤其明显。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E所以,总的来说sAUC是避免已经很混乱的performance分数大战变得更混乱的一个必要手段。\u003Cbr\u003E\u003Cbr\u003E但是,这也恰恰折射出现在saliency领域唯分数是从的怪现状:benchmark排名高度饱和,大家甚至都在拿1%甚至0.5%的改进做文章。\u003Cbr\u003E\u003Cbr\u003E在我2014年CVPR的 \u003Ca href=\&http:\u002F\u002Fwww.its.caltech.edu\u002F~xhou\u002Fpapers\u002Fcvpr14.pdf\& data-title=\&打脸文\& class=\&\&\u003E打脸文\u003C\u002Fa\u003E 中,特别分析了一下saliency圈的这些问题。其中一个主要结论是:\u003Cbr\u003Efixation prediction已经做得足够好了,在很多任务下,已经好到可以直接替换掉眼动的实验数据了。\u003Cb\u003E所以computer vision的真正挑战并不在一个0.5% more accurate saliency model。任何一个有追求的科研工作者都应该诚实地面对内心,选择真正重要的问题来研究\u003C\u002Fb\u003E(譬如我文中所说,对salient object detection来说,物体分割是一个远比fixation prediction重要的任务)。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E前阵子在CVPR会上也和朋友谈起saliency接下来的方向。被问及deep net是否可以和saliency有机结合,把从ImageNet的海量图片中训练好的feature提供给saliency detection框架,有助于更好滴预测眼动时,我内心悄悄觉得与其这么做不如找个美女把她内裤脱了抽皮筋做弹弓可能更有意义。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E不过,我赌五毛钱,18个月之内一定会有人做saliency + deep learning的文章发到CVPR\u002FICCV\u002FECCV\u002FNIPS上。。。\u003C\u002Fp\u003E&,&updated&:new Date(&T11:47:15.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:34,&likeCount&:73,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T19:47:15+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:34,&likesCount&:73},&&:{&title&:&BBB: Beyond Busy Benchmarking&,&author&:&filestorm&,&content&:&\u003Cp\u003E[转载请注明出处 \u003Ca href=\&http:\u002F\\u002Fpeople\u002Fb37bb83aa96a5bc05205\& data-hash=\&b37bb83aa96a5bc05205\& class=\&member_mention\& data-title=\&@Filestorm\& data-editable=\&true\& data-tip=\&p$b$b37bb83aa96a5bc05205\&\u003E@Filestorm\u003C\u002Fa\u003E ]\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E要想完整描述某个视觉计算的算法行为,通常需要非常高维的结构来描述它在各种情况下的输出。但显然,实际操作中我们需要更有效率的描述。譬如学术圈熟人见面聊起来谁谁新发明的方法,大都先问一句:\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003Ework嘛?\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E严谨的科研工作者一般会用数字说话:ImageNet \u002F PASCAL \u002F BSDS (或者其他dataset) 上跑了xxx分。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E在这当中,我们其实是对这个复杂的算法行为做了一次\u003Cb\u003E降维\u003C\u002Fb\u003E,映射到一维R1上了。当然,平时大家不想这么多,直接把这事称为 \u003Cb\u003Ebenchmarking\u003C\u002Fb\u003E。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E降维映射到R1有两个好处:\u003Cbr\u003E第一,是信息量非常小,一句话就能说清楚。\u003Cbr\u003E第二,\u003Cb\u003ER1是个良序集 (Totally Ordered Set)\u003C\u002Fb\u003E,也就是说,任何两个R1上的元素都可以PK比大小。\u003C\u002Fp\u003E\u003Cp\u003E别觉得第二点是废话——哪怕在R2 (二维平面) ,我们就已经失去“ordering”这个属性了。所以这也就是为什么,那些降到二维的benchmark算法 (PR\u002FAUC etc.) ,无论多别扭,最后总会再加一步,把最终数值压到R1数轴上。\u003C\u002Fp\u003E\u003Cp\u003E所以这就是为什么学术圈里大部分结果都是简单明了的一个数值——比对手高了xx点。如果你想用以前ayawawa “\u003Cb\u003E比我聪明的没我漂亮,比我漂亮的没我聪明\u003C\u002Fb\u003E” 这样的说法,就感觉差了点意思。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E降维到R1还有一个坏处:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E信息量损失很大!\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E譬如,题图就是个极端例子:在我设计的benchmark上,iPhone和锤子平分秋色,都只拿到了40%的成绩。只不过,稍有常识的人都会看出,这个benchmark是不公平的。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E不公平有两层意思:\u003Cbr\u003E1. 列出来的点与手机的使用体验相去甚远。\u003Cbr\u003E2. 每个子项分值不应以相等的权重线性平均得到总分。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E正如Torralba和Efros在那篇著名的 \u003Ca href=\&http:\u002F\u002Fpeople.csail.mit.edu\u002Ftorralba\u002Fpublications\u002Fdatasets_cvpr11.pdf\& data-title=\&Unbiased Look at Dataset Bias (2011 CVPR)\& class=\&hover\&\u003EUnbiased Look at Dataset Bias (2011 CVPR)\u003C\u002Fa\u003E 上说的:\u003C\u002Fp\u003E\u003Cblockquote\u003EUnlike datasets in machine learning, where the dataset is the world, computer vision datasets are supposed to be a representation of the world.\u003C\u002Fblockquote\u003E\u003Cp\u003E回过头看computer vision。在现有的各个数据集上,我们其实也远远没有达到“representing the world”这个目标。比如大家可以轻易地给各个数据集找茬:\u003C\u002Fp\u003E\u003Cp\u003E[Saliency detection] MSRA 的物体太简单,背景也单一\u003C\u002Fp\u003E\u003Cp\u003E[Boundary detection] BSDS偏好特别复杂的纹理\u003C\u002Fp\u003E\u003Cp\u003E[Object detection] PASCAL偏好大物体,而且只有20类\u003C\u002Fp\u003E\u003Cp\u003E[Scene parsing] MSRC的场景结构太单一,contextual cues 太强。\u003C\u002Fp\u003E\u003Cp\u003E[Optical flow estimation] Middlebury里图片位移相对KITTI要小,而且场景复杂度不同\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E至于巨无霸数据集ImageNet,至少在Torralba 和 Efros 的分析中,还是存在相当大的bias(泛化能力远低于PASCAL等数据集)。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E在比较benchmark分数1%的差异之前,我们其实更应该回头看看,我们测试的数据集是不是一个足够好的\&世界\&。在把各项属性映射到一维数值的时候,是不是还能保留这个测试原本的意思。\u003C\u002Fp\u003E&,&updated&:new Date(&T05:03:12.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:3,&likeCount&:32,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T13:03:12+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fa5e62d9e419d367a04eeb3bfacdb1616_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:3,&likesCount&:32},&&:{&title&:&人肉计算&,&author&:&filestorm&,&content&:&\u003Cp\u003E[转载请注明出处 \u003Ca href=\&http:\u002F\\u002Fpeople\u002Fb37bb83aa96a5bc05205\& data-hash=\&b37bb83aa96a5bc05205\& class=\&member_mention\& data-title=\&@Filestorm\& data-editable=\&true\&\u003E@Filestorm\u003C\u002Fa\u003E ]\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E今天在知乎上看到一个很有趣的问题:\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&http:\u002F\\u002Fquestion\u002F\& data-editable=\&true\& data-title=\&除了深度学习,机器学习领域近年来还有什么热点吗? - 模式识别\& class=\&\&\u003E除了深度学习,机器学习领域近年来还有什么热点吗?\u003C\u002Fa\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E除了当今炙手可热的深度学习,我认为最有趣的热点,是Human Computation——很形象的中文译名是“\u003Cb\u003E人肉计算\u003C\u002Fb\u003E”\u003C\u002Fp\u003E\u003Cp\u003E2005年,Amazon推出了一个叫做Mechanical Turk的任务外包平台。关于Mechanical Turk这个名字有这么个故事。在18世纪,有人发明了一种能自动下国际象棋的机械,名曰Mechanical turk (\u003Ca href=\&http:\u002F\u002Fzh.wikipedia.org\u002Fwiki\u002F%E5%9C%9F%E8%80%B3%E5%85%B6%E8%A1%8C%E6%A3%8B%E5%82%80%E5%84%A1\& data-editable=\&true\& data-title=\&土耳其行棋傀儡\& class=\&\&\u003E土耳其行棋傀儡\u003C\u002Fa\u003E)。就像文章开头的那张图一样,上面一个假人能拨弄棋盘,下面是一个柜子,里面封装着机械结构进行着“复杂”的计算。\u003C\u002Fp\u003E\u003Cp\u003E实际上是下面这个样子:\u003Cimg src=\&de9e417ad0cee1a9ca12e077b80dde01\& data-rawwidth=\&600\& data-rawheight=\&541\&\u003E\u003C\u002Fp\u003E\u003Cp\u003E操纵上面假人的,其实是藏在柜中的一个真人。而且据说棋力很高,能击败不少人类对弈者。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003EAmazon Mechanical Turk的初衷,是用这个平台做一些CD曲目整理之类的零散工作。但是随着2008年这个平台在计算机视觉领域首次亮相 [1],它的威力逐渐被人们所意识到。并在computer vision, machine learning领域扮演了越来越重要的角色。譬如NIPS 2010 best student paper runner up [2], ICCV 2013 best paper [3] (Marr prize) 都是人肉计算的范畴。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E当下computer vision的数据集里,人肉计算思想用的最好的,当属林宗义同学主导设计的 \u003Ca href=\&http:\u002F\u002Fmscoco.org\u002F\& class=\&\& data-editable=\&true\& data-title=\&Microsoft COCO\&\u003EMicrosoft COCO\u003C\u002Fa\u003E [4]。其次则是Stanford李菲菲老师组的ImageNet [5]。之所以我认为MSCOCO比 ImageNet 强,是从人肉计算的角度来说的——估算下来,MSCOCO 每个比特标定数据的获取成本只有 ImageNet 的几十分之一!当然ImageNet是先行者,遇到的各种坑也比MSCOCO更多。在此我也无意衡量两个系统的历史地位孰高孰低。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E而CV领域的其他数据集,哪怕是那些非常著名的数据集,也有不少蕴藏了大量的错误数据——包括在2013 [6] 和2014年 [7] 被我先后发文打脸的 Berkeley Segmentation Dataset [8] 和 EPFL FT dataset [9]。所以说人肉计算之于机器学习,可以说是承前启后。因为机器学习本身就是\u003Cb\u003E数据推动\u003C\u002Fb\u003E的科学,而各种数据中,又数各种主观数据应用最广, 但最难建模。所以如何用人肉计算的手段,能够低成本地得到可靠的主观数据,就成了机器学习的根本问题。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E我的一位师兄 Peter Welinder,[2] 的一作。在毕业后就开了一家公司叫Anchovi labs,专门做人肉计算平台。不知是可惜还是可喜的是,他们公司成立8个月就被Dropbox收购了。(再后来做出来那个难用屎了的 Carousel 相册管理器那是后话,按下不表)。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E话又说回来,Deep learning为什么能火到现在这个程度?引爆点是那篇横空出世的alexnet [10]。这Alex跟之前没火起来的 neural networks(Boltzmann machine, auto-encoder, 甚至1989年的 LeNet)的区别是什么?\u003Cbr\u003E是对 海量 \u003Cb\u003E带标定的 \u003C\u002Fb\u003E图片数据的胃口。\u003Cbr\u003E最早的LeNet自然不用想海量数据,但是到后来哪怕到了基于Boltzmann machine的第一代Google Brain,也没能如此充分地利用人肉标定数据(因为系统的很大一部分是unsupervised的,也就是说,不好直接引入人肉标定数据)。\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E最后,我的签名档,Artificial artificial intelligence,以及本专栏的缩略图(那张Escher 的画),其实也在是向人肉计算致敬~\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003EReference\u003Cbr\u003E[1] Utility data annotation with Amazon Mechanical Turk - CVPR Workshop Cbr\u003E[2] The Multidimensional Wisdom of Crowds - NIPS Cbr\u003E[3] From Large Scale Image Categorization to Entry- Level Categories - ICCV Cbr\u003E[4] Microsoft COCO: Common Objects in Context - ECCV Cbr\u003E[5] ImageNet: A Large-Scale Hierarchical Image Database - CVPR Cbr\u003E[6] Boundary Detection Benchmarking: Beyond F-Measures - CVPR Cbr\u003E[7] The secrets of salient object segmentation - CVPR Cbr\u003E[8] A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics - ICCV Cbr\u003E[9] Frequency-tuned Salient Region Detection - CVPR Cbr\u003E[10] ImageNet Classification with Deep Convolutional Neural Networks - NIPS 2012&,&updated&:new Date(&T11:09:48.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:5,&likeCount&:81,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T19:09:48+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002F54c53bcee2c72f1f1cf68_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:5,&likesCount&:81},&&:{&title&:&如何评价George Hotz在日TechCrunch Disrupt上发布的 “自动驾驶” 模块&,&author&:&filestorm&,&content&:&\u003Cp\u003E\u003Cb\u003E===八一八Mobileye的那点事===\u003C\u002Fb\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E不知道是不是为了博人眼球, geohot在一开场就语出惊人地列出了几家“搞笑”无人驾驶公司,首当其冲的就是Mobileye。他这样评价:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003ETheir business model\nis to work with regulators to lower the safety ratings of cars that do not\nhaving Mobileye chip in them.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EMobileye\u003C\u002Fi\u003E\u003Ci\u003E的商业模式,就是通过和立法者同流合污,来降低没安装Mobileye\u003C\u002Fi\u003E\u003Ci\u003E芯片的汽车的安全评级。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E谁要是能通过这么奇葩的商业模式,能让一个公司17年不倒闭,反倒有90亿美元的市值,那才是人间奇迹。而事实上,Mobileye自从2001年第一代芯片以来,他们所提供的辅助驾驶、半自动驾驶系统,一直是世界上你能买到的性能最好的产品,没有之一。特斯拉的无人驾驶,也正是用的Mobileye家的EQ3解决方案,并且这里有桩轶事,早在2015年底,特斯拉就针对彭博社对geohot的不实报道,写过一篇打脸文章以正视听(原文在这里,有兴趣大家可以读读:\u003Ca href=\&https:\u002F\\u002Fsupport\u002Fcorrection-article-first-person-hack-iphone-built-self-driving-car\& data-editable=\&true\& data-title='Correction to article: \&The First Person to Hack the iPhone Built a Self-Driving Car\&' class=\&\&\u003ECorrection to article: \&The First Person to Hack the iPhone Built a Self-Driving Car\&\u003C\u002Fa\u003E)文章最后一句是这么说的:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003ETheir part is the best\nin the world at what it does and that is why we use it.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EMobileye\u003C\u002Fi\u003E\u003Ci\u003E的视觉芯片是世界上最好的,正因为如此,我们才选择它。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E然后接着语出惊人:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EBecause Tesla is too\ninnovative and it scared them (Mobileye). After the accidents Mobileye gets\nscared. They want no part of innovation.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E因为特斯拉太有创新精神,吓到Mobileye\u003C\u002Fi\u003E\u003Ci\u003E了。所以出事之后,他们干脆举手投降不再创新了。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E这就更是无脑黑了。Tesla和Mobileye的合作是因为合同到期,双方不再续约。Mobileye\n创始人CEO对此曾经表态,Tesla有意无意地让人把辅助驾驶当成自动驾驶来用,这并不是Mobileye的本意,而且现阶段技术确实还做不到自动驾驶,故而不再续约。\u003C\u002Fp\u003E\u003Cp\u003E但如果从更深层讲,这两家分手其实本来也是必然的。体量如Tesla这样的公司,必定不可能长期通过跟其他公司,而且是当前世界上拥有独一无二技术的公司合作,来构建自己的核心竞(xue)争(tou)力。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E===999美元自动驾驶带回家===\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E在黑完一众汽车公司之后,隆重地从黑口袋里掏出他的驾驶模块\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EComma one – this is\nall you need to drive a car\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E逗一——自动驾驶,有它就行。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E然后淡淡地补了一句\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EAll you need to drive\na Honda car with limited self-driving capabilities\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E有它就能自动驾驶自带车道保持系统的本田轿车。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E听到这里我一口老血险些吐到键盘上。作为自动驾驶人工智能公司的CTO,我早就围观过本田的车道保持系统(Lane\nKeeping Assist System, LKAS)。简单来说,这个系统可以在车速45 miles以上,路面环境清晰的时候,自动开车。\u003C\u002Fp\u003E\u003Cp\u003E——是的,在车道线弯曲的情况下,还会自动转动方向盘。\u003C\u002Fp\u003E\u003Cp\u003E——是的,前面车速变慢的时候,还能自动减速。这是本田以及很多其他车厂商自带的另一项叫做Adaptive Cruise Control的功能。\u003C\u002Fp\u003E\u003Cp\u003E等等这不已经是geohot描述的自动驾驶吗?但为什么本田从来没有在TechCrunch Disrupt大会上宣称自己能做自动驾驶?因为毕竟作为负责任的汽车大厂,不能赌乘客身家性命做PR。本田在推这个产品的时候,要求驾驶员必须把手放在方向盘上,而且还老老实实地把自己做不到的场景都列出来了:\u003C\u002Fp\u003E\u003Cp\u003E1.
\n车道线看不见的时候,LKAS功能不可用\u003C\u002Fp\u003E\u003Cp\u003E2.
\n车速低于45英里的时候,LKAS功能不可用\u003C\u002Fp\u003E\u003Cp\u003E3.
\n车道弯曲过大的时候,LKAS功能不可用\u003C\u002Fp\u003E\u003Cp\u003E4.
\n打转向灯的时候,LKAS功能不可用\u003C\u002Fp\u003E\u003Cp\u003E5.
\n踩刹车以后,LKAS功能不可用\u003C\u002Fp\u003E\u003Cp\u003E在这么多限制条件下,脸皮稍微薄一点的人,自然不会说自己能做自动驾驶。事实上,目前除了采用LiDAR的Google和百度,还没有任何人声称基于机器视觉能够实现自动驾驶。\u003C\u002Fp\u003E\u003Cp\u003E毕竟没实测过geohot的产品(而且也不敢自己测),不知道这五个限制中,他能突破哪几个。但会上他提到一个细节:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003ECar’s built-in front\nradar… and one front facing camera, which is the same as what Tesla’s using for\nautopilot.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E(逗一Comma\none\u003C\u002Fi\u003E\u003Ci\u003E的输入包括)车内预装的前向雷达,以及单目前向摄像头;配置和Tesla\u003C\u002Fi\u003E\u003Ci\u003E一样。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E这也就是说,逗一无法观察到车两侧和后方的任何信息!换句话说,逗一所谓的“自动驾驶”,很可能根本连换道都做不了。更可怕的是,逗一要安装在后视镜的位置上,也就是说上车以后再想后悔切手动都来不及。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E当然geohot自己后来也承认,逗一的所谓自动驾驶,还是要人看着的:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EYou have to pay\nattention, and you have to be ready to take over it at every moment\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E(用逗一的时候)你还是得每时每刻留着神,随时准备切换成手动开车。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E那你一开始黑Mobileye黑的那么起劲儿是几个意思?!
(╯‵□′)╯︵┻━┻\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E===大数据和深度学习黑科技===\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E再接下来进入技术环节了。主持人先讲fleet learning(通过在同一路线上行驶的历史数据,增强在这段路上自动驾驶的可靠性)。Geohot不无自豪地点出自己和Mobileye\n(Tesla) 的区别:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EWhen we ship this our\nfleet learning will be much much fancier than Tesla’s, because we have all the videos\ndata. Tesla just has Mobileye feature vector and the radar\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E等逗一发货以后,我们的道路学习能力就要比特斯拉不知高到哪里去了,因为我们有全部原始视频数据,相比之下Tesla\u003C\u002Fi\u003E\u003Ci\u003E只有Mobileye\u003C\u002Fi\u003E\u003Ci\u003E(算法处理过的)特征向量和雷达数据。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E听到这里,我已经不知该做出什么表情了,数据比别人更原始,并不是什么值得炫耀的事情。反倒会带来从传输到存储的各种工程问题。而且最关键的不是数据有多原始,而是算法怎么处理这些数据。\u003C\u002Fp\u003E\u003Cp\u003E于是接下来,Geohot这样解释他的算法:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EIt’s deep learning. It\nuses the camera to try to predict what a human would do in this situation. And\nif it predicts something reasonable - it has an internal test for reasonability\n– it takes that path.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EOur car has only 2000\nlines of code, but it also has a 5MB model that was learned using machine\nlearning, and you can effectively think of the model as code. This thing was\ngenerated with deep learning, which is encoding all of those edge cases in it.\nThe reason that we can do it so quickly is because we have the data. The reason\nthat we can do it with so few lines of code is because that we have such\nadvanced machine learning\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E这就是深度学习。根据摄像头输入来预测人类驾驶员会对当前场景做出何种动作。如果算法预测出来的动作靠谱(内部有额外检查机制——后文还会提到)就控制汽车执行。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E我的模型有C\u002Fi\u003E\u003Ci\u003E行代码,还包括一个学出来的5MB\u003C\u002Fi\u003E\u003Ci\u003E模型文件。这个模型你可以理解为它就是代码。它是深度学习学出来的,可以包括各种极端情况。我们之所以只花几个月就做出这个系统,是因为我们有大量数据,我们之所以只写了C\u002Fi\u003E\u003Ci\u003E行代码,是因为机器学习非常先进。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E讲真,我这辈子见过的所有心安理得地跳过全球公认技术难点,声称自己解决全部问题的,统统都是民科。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003Egeohot大概是刚读完《21天实战Caffe》就以为自己已经领悟了深度学习的真谛。但是,这是错觉,这不是科学。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E接下来主持人又问起这套系统的安全性,Geohot很有信心地答道:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003EFirst of all, our car\nhas very strict torc limits, on how much it can turn the steering wheel, and\nhow hard one can hit the brakes…\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EThat’s really how we\ncan guarantee safety\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E我们对算法输出的扭矩有非常严格的限制,不至于猛打方向盘或者急刹车。这样我们才能保证安全。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E原来这就是他刚才提的 “额外检查机制internal\ntest for reasonability”。要知道,Tesla自动驾驶至今为止撞的那几次,没有一次是因为你刹车或者转向不够温柔造成的!\u003C\u002Fp\u003E\u003Cp\u003E据Geohot称,他们的训练数据只有30万英里,7900小时。拜托,这点数据在自动驾驶圈子里,提起来就让人不好意思。要知道,Tesla在首撞之前,可是已经安全行驶了1.3亿英里。\u003C\u002Fp\u003E\u003Cp\u003EGeohot的驾驶解决方案,不论如何改头换面加上big data, deep\nlearning等热词,其实学术上都早已有定论。近些年人们习惯管这套做法叫 \u003Ci\u003E端到端的学习end-to-end learning\u003C\u002Fi\u003E,更早些还有\u003Ci\u003E模仿学习\u003C\u002Fi\u003E\u003Ci\u003E imitation learning \u003C\u002Fi\u003E等其他别名。这类方法一大局限是,只能应付见过的输入类型。如果在实测的时候,遇到的情况和训练数据差太远,超过模型不变性(invariance)所能容忍的上限,这样的系统分分钟给跪。\u003C\u002Fp\u003E\u003Cp\u003E就连卷积网络发明人,Facebook AI Research带头人 Yann\nLeCun杨立昆教授,都点评过geohot这种拿end-to-end\nlearning做自动驾驶的思路:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Ci\u003ETraining a basic\nConvNet to keep you in lane most of the time is fairly simple and straightforward.\nThe problem is to make it work reliably.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EThe basic technique of\ntraining a neural net to keep you in lane was Dean Pomerleau at CMU in the late\n1980s, a system called ALVINN. I used imitation learning to train a ConvNet for\na self-driving robot called DAVE back in 2003. This work motivated the DARPA\nLAGR program.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EWhat this guy is doing\nmay be cool, but it isn't particularly innovative.\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E训练个基础版卷积网络做车道线保持没什么难度,难点在于可靠性。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E早在八十年代,卡耐基梅陇大学的Dean\nPomerleau\u003C\u002Fi\u003E\u003Ci\u003E就提出了用神经网络做车道线保持的基本模型,叫ALVINN\u003C\u002Fi\u003E\u003Ci\u003E。C\u002Fi\u003E\u003Ci\u003E年,我用这种以模仿来学习的方式,拿卷及网络搭出过一个自动行驶机器人DAVE\u003C\u002Fi\u003E\u003Ci\u003E。后来,美国国防部高等研究计划署的LAGR\u003C\u002Fi\u003E\u003Ci\u003E项目就是源自这里。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E这哥们儿的工作炫酷有余,创新不足。\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E试想一个主要在加州采数据的系统,它有见过几次下雨下雪?见过开夜车时候迎面来的远光灯吗?见过兔子、野猪、麋鹿站在路中间吗?见过行人、自行车横穿马路吗?更不要说让只有5MB模型文件的自动驾驶,来见识北京著名地标西直门立交桥了。\u003C\u002Fb\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T09:49:00.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:48,&likeCount&:161,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T17:49:00+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fv2-335fa1ceba535b3f7ff049_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:48,&likesCount&:161}},&User&:{&filestorm&:{&isFollowed&:false,&name&:&Filestorm&,&headline&:&http:\u002F\&,&avatarUrl&:&https:\u002F\\u002Fe3a7c0c55_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&filestorm&,&bio&:&图森互联 TuSimple&,&hash&:&b37bb83aa96a5bc05205&,&uid&:28,&isOrg&:false,&description&:&http:\u002F\&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Ffilestorm&,&avatar&:{&id&:&e3a7c0c55&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&nwebStickySidebar&:&sticky&,&androidPassThroughPush&:&all&,&newMore&:&new&,&nwebQAGrowth&:&default&,&nwebFeedAd&:&experiment&,&newSign&:&oldVersion&,&androidDbFeedHashTagStyle&:&button&,&liveReviewBuyBar&:&live_review_buy_bar_2&,&qawebRelatedReadingsContentControl&:&open&,&liveStore&:&ls_a2_b2_c1_f2&,&qawebThumbnailAbtest&:&new&,&nwebSearch&:&nweb_search_heifetz&,&searchHybridTabs&:&without-tabs&,&enableVoteDownReasonMenu&:&disable&,&iOSEnableFeedModuleWWANAritclePreRender&:&iOS_FeedModule_WWAN_PreRender_Enable&,&isOffice&:&false&,&enableTtsPlay&:&false&,&liveDetailWechatBanner&:&Live_detail_wechat_banner_1&,&wechatShareModal&:&wechat_share_modal_show&,&newLiveFeedMediacard&:&old&,&homeUi2&:&default&,&showVideoUploadAttention&:&true&,&recommendationAbtest&:&new&,&qrcodeLogin&:&qrcode&,&isShowUnicomFreeEntry&:&unicom_free_entry_off&,&newMobileColumnAppheader&:&new_header&,&androidDbCommentWithRepinRecord&:&open&,&androidDbRecommendAction&:&open&,&zcmLighting&:&zcm&,&favAct&:&default&,&appStoreRateDialog&:&close&,&mobileQaPageProxyHeifetz&:&m_qa_page_nweb&,&newAppViewRelatedAd&:&yes&,&default&:&None&,&isNewNotiPanel&:&yes&,&androidDbRepinSelection&:&open&,&nwebRelatedAdvert&:&default&,&qaStickySidebar&:&sticky_sidebar&,&androidProfilePanel&:&panel_b&,&nwebWriteAnswer&:&experiment&}},&columns&:{&next&:{},&cvprnet&:{&followersCount&:5400,&creator&:{&bio&:&图森互联 TuSimple&,&isFollowing&:false,&hash&:&b37bb83aa96a5bc05205&,&uid&:28,&isOrg&:false,&slug&:&filestorm&,&isFollowed&:false,&description&:&http:\u002F\&,&name&:&Filestorm&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Ffilestorm&,&avatar&:{&id&:&e3a7c0c55&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&topics&:[{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&模式识别&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&计算机视觉&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&人工智能&}],&activateState&:&activated&,&href&:&\u002Fapi\u002Fcolumns\u002Fcvprnet&,&acceptSubmission&:true,&firstTime&:false,&postTopics&:[{&postsCount&:2,&id&:350,&name&:&人工智能&},{&postsCount&:1,&id&:2232,&name&:&科研&},{&postsCount&:1,&id&:3084,&name&:&机器学习&},{&postsCount&:1,&id&:13309,&name&:&机器视觉&},{&postsCount&:1,&id&:28480,&name&:&自动驾驶&},{&postsCount&:1,&id&:89794,&name&:&深度学习(Deep Learning)&}],&pendingName&:&&,&avatar&:{&id&:&&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&canManage&:false,&description&:&&,&pendingTopics&:[],&nameCanEditUntil&:0,&reason&:&&,&banUntil&:0,&slug&:&cvprnet&,&name&:&机器视觉x模式识别&,&url&:&\u002Fcvprnet&,&intro&:&&,&topicsCanEditUntil&:0,&activateAuthorRequested&:&none&,&commentPermission&:&anyone&,&following&:false,&postsCount&:6,&canPost&:false,&FULLINFO&:true,&pins&:[]}},&columnPosts&:{&cvprnet&:{&entity&:[&&,&&,&&,&&,&&,&&]}},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&switches&:{&couldSetPoster&:false},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{&baidu&:false,&yidianzixun&:false,&qqnews&:false},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false,&userAgent&:{&ua&:&Mozilla\u002F5.0 (compatible, MSIE 11, Windows NT 6.3; Trident\u002F7.0; rv:11.0) like Gecko&,&browser&:{&name&:&IE&,&version&:&11&,&major&:&11&},&engine&:{&version&:&7.0&,&name&:&Trident&},&os&:{&name&:&Windows&,&version&:&8.1&},&device&:{},&cpu&:{}}},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}

我要回帖

更多关于 水下机器视觉 的文章

 

随机推荐