cf手游无影属性和湮灭哪个好啊,看着属性,好像湮灭更胜一筹

&p&这不同于ITAR条款禁止中国航天使用美国包括螺丝钉在内的所有器件;&/p&&p&也不同于美国出口管制条例EAR禁止对中国出口芯片清单3Ax01/5Ax01。&/p&&p&这些普遍需求数量小,便于通过其他渠道获得。&/p&&p&中兴通讯大规模民用通信的体量对芯片需求量很大,范围很广,国产自给率很低,如果美国商务部严格执行全面的出口禁令的影响会很大,所以很大程度上取决于执行力度和中美双方的斡旋。&/p&&p&我们不妨详细的了解一下我国的芯片现状,以及中兴和通信行业的现状:&/p&&p&&br&&/p&&p&&b&1#中国之于芯片&/b&&/p&&p&&b&2#中兴之于通信&/b&&/p&&p&&br&&/p&&p&&b&1#中国之于芯片&/b&&/p&&p&芯片 (集成电路)是目前我国进口的商品中金额最大的一项。&/p&&p&&br&&/p&&p&根据海关总署统计,月,&/p&&blockquote&&b&中国集成电路进口1391.44亿片,总额6072.49亿元,&/b&&br&同期其他总额排名第2~6位的商品包括:&br&原油4710亿;&br&铁矿砂及其精矿2424亿;&br&初级形状的塑料(所有的)1340亿;&br&汽车(所有的)1318亿;&br&大豆1090亿;&/blockquote&&p&以上是同期进口额超过千亿的全部商品类型。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-fad3af54dba3_b.jpg& data-size=&normal& data-rawwidth=&1050& data-rawheight=&590& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&1050& data-original=&https://pic4.zhimg.com/v2-fad3af54dba3_r.jpg&&&figcaption&1975年,一位工程师在查看芯片蚀刻用的掩模图样,摄影师Christoph Morlinghaus &/figcaption&&/figure&&p&现代社会是信息化的社会,所有的行业都被电子行业渗透,芯片的使用遍布各个角落,&/p&&p&而中国是世界工厂,中国制造了大量的各行各业的消费品和设施,也因此使用了大量的芯片,&/p&&p&除了,&/p&&p&大量的芯片来源于进口。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-0fae2a6aa70d04a9281e9_b.jpg& data-size=&normal& data-rawwidth=&720& data-rawheight=&576& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-0fae2a6aa70d04a9281e9_r.jpg&&&figcaption&摩托罗拉1987年推出的32位处理器芯片68030的内部照片,摄影师Christoph Morlinghaus&/figcaption&&/figure&&p&目前半导体工业正在挑战的制程工艺为5nm和7nm,这个尺寸不到头发丝直径的&b&万分之一,&/b&&/p&&p&在这个精度条件下加工,任何传统的加工方式都毫无用武之地,芯片加工采用的是多维的磁悬浮驱动。&/p&&p&而满足这一苛刻的加工要求,制作芯片的重要设备,比如光刻机:&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ee9ca283b35f1dfc9dfc_b.jpg& data-size=&normal& data-rawwidth=&656& data-rawheight=&428& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&656& data-original=&https://pic1.zhimg.com/v2-ee9ca283b35f1dfc9dfc_r.jpg&&&figcaption&ASML的光刻机,分辨率14nm&/figcaption&&/figure&&p&ASML2018年第一季度收入22.85亿欧元,毛利率48.7%,共卖出各类光刻机48台,翻新1台,平均一台光刻机售价3.6亿人民币,并且市场供不应求。&/p&&p&一台售价3.6亿人民币的光刻机,其研发投入可想而知。&/p&&p&目前国内先进的光刻机制造商有上海微电子装备(集团),成熟工艺的分辨率为90nm,已研制出的分辨率为65nm。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-159b27a166c6a2a1cd4c9bdc92e229d3_b.jpg& data-size=&normal& data-rawwidth=&354& data-rawheight=&267& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&content_image& width=&354&&&figcaption&国产SMEE的光刻机,分辨率65~90nm&/figcaption&&/figure&&p&尽管有《瓦森纳协定》,对中国出口光刻机需要通报(美国知情同意),因此国际上会同步“解禁”国内新出光刻机同一规格的设备(65nm)。&/p&&p&在冷战结束5年后的日,作为冷战的延续,灯塔国牵头在荷兰的瓦森纳签署了《关于常规武器和两用物品及技术出口控制的&b&瓦森纳协定&/b&》 ,即《瓦森纳协定》 。&/p&&p&这一协定限制了对我国的一些可以军民两用的高新技术设备的进口,目前影响最大的莫过于以光刻机为代表的半导体制造行业。&/p&&p&&br&&/p&&p&有了光刻机并不能说有了芯片生产的能力,芯片的生产是第二个难题。&/p&&p&世界顶尖的芯片制造厂之一就在中国……的台湾地区,著名的台积电TSMC,2016年对外推行10nm芯片加工工艺,2017年4月,台积电开始试产7nm芯片,预计2019年开始试产5nm芯片。&/p&&p&大陆地区最顶尖的芯片制造企业是中芯国际SMIC,目前对外提供最小28nm的芯片加工工艺,正在试产14nm芯片。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-b80d7f2fff087f16cdfba_b.jpg& data-size=&normal& data-rawwidth=&692& data-rawheight=&360& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&692& data-original=&https://pic2.zhimg.com/v2-b80d7f2fff087f16cdfba_r.jpg&&&figcaption&中芯国际在上海的工厂&/figcaption&&/figure&&p&&br&&/p&&p&芯片制造只是第二个难点,第三个难点是芯片设计。&/p&&p&由于芯片行业已经足够细分,有一类企业只进行芯片设计,而将芯片制造进行外包,这部分企业被称为fabless IC,即纯设计类的IC企业,这类企业里规模最大的就是我们很熟悉的高通Qualcomm、苹果半导体。&/p&&p&2017年世界10大纯设计类的IC企业清单如下,中国一共有3家,分别是联发科MediaTek(台湾)、华为海思HiSilicon和清华紫光Unigroup(包括展讯Spreadtrum和锐迪科 RDA):&/p&&figure&&img src=&https://pic1.zhimg.com/v2-10c372a045f1db56aeb8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&490& data-rawheight=&346& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&490& data-original=&https://pic1.zhimg.com/v2-10c372a045f1db56aeb8_r.jpg&&&/figure&&p&目前大陆最顶尖的芯片设计企业是华为的海思半导体,海思主要是为庞大的华为提供所需的芯片,并没有在此外打开足够的市场,在全球fabless IC的营业额常年位居5~10名,长期在大陆芯片设计行业领先第二名一大截。现在的请紫光也正在追赶,差距正在缩小,在可见的未来会出现更多中国的企业,不过时间会比较长。&/p&&p&中兴微电子以60亿人民币位居大陆第四,排在华为海思、清华紫光、豪威(刚被中资收购)之后。&/p&&p&中国的芯片设计在相对落后的芯片行业中是比较领先的,这主要在于设计直接跳过了基础薄弱的芯片生产,而集中力量组织和培养出高水平的芯片设计团队。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5eb3bdc450641_b.jpg& data-size=&normal& data-rawwidth=&585& data-rawheight=&332& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&585& data-original=&https://pic2.zhimg.com/v2-5eb3bdc450641_r.jpg&&&figcaption&图片来源:海思半导体&/figcaption&&/figure&&p&华为海思成立于2004年,其实一直以来,业内人士(是的,不需要有识之士,业内是个傻瓜都能看出来)都十分清楚,国内对于进口芯片的依赖程度太高了。&/p&&p&电脑处理器大量来自英特尔Intel和AMD,手机处理器大量来自高通Qualcomm,工业设备处理器、单片机大量来自于TI、Atmel、NXP(包括freescale)等等;&/p&&p&图像处理芯片大量来自于英伟达NVIDIA和AMD;&/p&&p&FPGA逻辑芯片大量来自于Altera 和Xilinx;&/p&&p&数字信号处理DSP芯片大量来自于TI、NXP、Micron等等;&/p&&p&数模转换AD/DA芯片大量来自于ADI等;&/p&&p&射频RF芯片大量来自于ADI(包括Hittite)、Qorvo、Skyworks、Mini-circuits等等;&/p&&p&电源芯片大量来自于ADI(包括Linear)、TI等等;&/p&&p&唯独存储器芯片主流的两家厂商三星Samsung和海力士Hynix是韩国的,但近些年内存大幅涨价就和这两家有关。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-444a8fa2c71d0fd784cd954f9541e83c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&734& data-rawheight=&440& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&734& data-original=&https://pic1.zhimg.com/v2-444a8fa2c71d0fd784cd954f9541e83c_r.jpg&&&/figure&&p&&br&&/p&&p&华为是率先走出芯片依赖的第一家企业,对于规模庞大、投入巨大的半导体行业,华为海思选择了专供芯片设计方向,成为国内最不依赖进口芯片的厂家。&/p&&p&&br&&/p&&p&芯片/半导体行业无论是芯片生产设备(光刻机等)制造、芯片制造,还是芯片设计,都是是资金密集型、技术密集型行业。&/p&&p&举一个简单的例子,一次流片,相当于其他行业的一次产品试制,大约需要几百万元,如果失败,则几百万元全部付诸东流。而一个成熟的芯片的诞生、一条成熟的芯片生产线工艺的诞生、一台高分辨率光刻机的诞生,无不花费海量资金和技术在其中。&/p&&p&这样巨额的投入和渺茫的回报前景,使得绝大多数资本望而却步,进入门槛的资本也有很多血本无归,但脱颖而出的极少数佼佼者,芯片生产便成为了印钞机。&/p&&p&因此,发展半导体行业是需要国家以及超大规模企业支持下的大量资金和高技术人员投入,逐渐积累才能带来长足的进步。这方面已经是国内的一个共识,但由于冰冻三尺非一日之寒,因此除了大量的资金投入外,还需要大量的时间,才可以形成大量高技术的人员、产线、公司。&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&2#中兴之于通信&/b&&/p&&p&这个世界电信设备行业的竞争是如此的激烈,以至于世界第5是谁?——不知道,思科?思科不做电信设备;&/p&&p&这个世界电信设备行业的竞争是如此的激烈,以至于世界第3是由4家通信巨头合并而成——诺基亚、西门子、阿尔卡特、朗讯;&/p&&p&这四家电信设备制造商按市场份额依次是:华为、爱立信、诺基亚(诺西阿朗)、中兴。&/p&&p&这便是残酷的世界通信市场。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8f2c382fd04d674bf96da8e06c6286fd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&481& data-rawheight=&288& data-watermark=&& data-original-src=&& data-watermark-src=&& data-private-watermark-src=&& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&https://pic2.zhimg.com/v2-8f2c382fd04d674bf96da8e06c6286fd_r.jpg&&&/figure&&p&接下来我们来了解一下中兴:&/p&&p&中兴投资的重点仍然是4G网络、光传输和宽带接入网络,并快速推进5G技术。2017年总营收1088.2亿元人民币,同比增长7.5%,营业利润67.53亿,同比增长479%!&/p&&p&营收中按业务划分,运营商网络占比58.6%,消费者终端(如手机)占比32.3%,政企业务占比9%;&/p&&p&按地区划分,中国市场占比56.9%,亚洲其他国家占比14.5%,非洲3.5%,欧美及大洋洲25%。&/p&&p&&br&&/p&&p&以下部分纯属理论上的假设:&/p&&p&我们做一个纯理论上的假设,假如中兴突然消失。那么现有的运营商网络份额将几乎被华为、爱立信和诺基亚瓜分,而消费者终端的份额也会被苹果、华为、三星、小米、OV等瓜分。&/p&&p&对于上游芯片厂商来说,华为份额的提升会增加海思的占比,此外的芯片仍将基本使用进口芯片。由于中兴的半数以上的营收范围在中国(56.9%),方向也是运营商网络(58.6%),因此华为在中兴的消失中很可能吃掉最大的一块蛋糕。&/p&&p&我们再做另一个假设,中兴衰退,市场份额缩水。与消失不同的是,缩水最明显的地区应该是欧美及大洋洲,这一部分的份额没有哪家有绝对优势可以占据,因此很大程度上会趋近于均分。&/p&&p&我门再做第三个假设,在管控比较严格的情况下,中兴必须依赖国内芯片市场来维持一个基本的市场份额,那么华为的海思可能成为主要受益方。&/p&&p&&br&&/p&&p&我们接下来从美国官方的角度来思考一下:&/p&&p&1.中兴是个长期可以和中国谈判和打压的筹码,因此一次性拍死就失去了筹码的意义,除非能卖一个合适的价钱,可以在需要的场合多次使用,每次达到一定的目的就可以保留筹码;&/p&&p&2.中兴是个非常合适的筹码,国资背景,芯片依赖程度高、数量大,短期内不会发生变化。至于违规项,那是我们制定的;&/p&&p&3.中国的主要进口项目为芯片、原油、铁矿、塑料、汽车和大豆,其中芯片金额最大,技术含量最高,短期内依赖性不会明显下降,也是美国不可替代性最高的项目,适合从中挖掘筹码;&/p&&p&&br&&/p&&p&&br&&/p&&p&因此这个问题很可能都不是中兴能够自己决定命运的,需要中美之间各种博弈和协商,最后达成一个比较制衡的态势。也正因为如此,现在对中兴和通信行业下结论为时尚早,静观其变。&/p&&p&&br&&/p&&p&&br&&/p&&p&&br&&/p&&p&Ref:&/p&&p&1.&a href=&//link.zhihu.com/?target=http%3A//www.customs.gov.cn/publish/portal0/tab49667/info855036.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&(14)2017年5月进口主要商品量值表(人民币值)&/a&&/p&&p&2.&a href=&//link.zhihu.com/?target=https%3A//www.asml.com/press/press-releases/strong-duv-demand-drives-solid-q1-results-and-confirms-positive-outlook-for-2018-multiple-euv-orders-including-highna-demonstrate-further-adoption-of-euv-technology/en/s5869%3Frid%3D56995& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ASML: Press - Press ReleasesStrong DUV Demand Drives Solid Q1 Results and Confirms Positive Outlook for 2018 - Multiple EUV Orders, Including High-NA, Demonstrate Further Adoption of EUV Technology - Press ReleasesStrong DUV Demand Drives Solid Q1 Results and Confirms Positive Outlook for 2018 - Multiple EUV Orders, Including High-NA, Demonstrate Further Adoption of EUV Technology&/a&&/p&&p&3.&a href=&//link.zhihu.com/?target=http%3A//www.smee.com.cn/eis.pub%3Fservice%3DhomepageService%26method%3Dindexinfo%26onclicknodeno%3D1_4_4_1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&上海微电子装备(集团)股份有限公司&/a&&/p&&p&4.&a href=&//link.zhihu.com/?target=http%3A//www.tsmc.com/english/dedicatedFoundry/technology/future_rd.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Taiwan Semiconductor Manufacturing Company Limited&/a&&/p&&p&5.&a href=&//link.zhihu.com/?target=http%3A//www.smics.com/eng/design/design_pdk.php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SMIC - Process/PDK&/a&&/p&&p&6.&a href=&//link.zhihu.com/?target=https%3A//www.statista.com/statistics/526037/global-telecom-equipment-market-share/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Global mobile infrastructure market share 2017 | Statistic&/a&&/p&&p&7.&a href=&//link.zhihu.com/?target=http%3A//res.www.zte.com.cn/mediares/zte/Investor/.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&res.www.zte.com.cn/medi&/span&&span class=&invisible&&ares/zte/Investor/.pdf&/span&&span class=&ellipsis&&&/span&&/a&&/p&
这不同于ITAR条款禁止中国航天使用美国包括螺丝钉在内的所有器件;也不同于美国出口管制条例EAR禁止对中国出口芯片清单3Ax01/5Ax01。这些普遍需求数量小,便于通过其他渠道获得。中兴通讯大规模民用通信的体量对芯片需求量很大,范围很广,国产自给率很低,…
&figure&&img src=&https://pic3.zhimg.com/v2-68f0ee9708eae3a67b447f_b.jpg& data-rawwidth=&410& data-rawheight=&552& class=&content_image& width=&410&&&/figure&&p&2016年3月,美国对中兴发起制裁,理由是中兴违反美国对伊朗出口管制政策。最终,中兴向美政府支付8.9亿罚金,换取“监外察看”。&/p&&p&昨日,美国商务部再次对中兴发起制裁。理由是中兴当年承诺处罚35名员工,但并未进行实际处罚。典型的“鸡蛋里挑骨头”。&/p&&p&在中美“贸易战”的紧要关头,很明显,美方这是在拿中兴当“棋子”。&/p&&p&那么为何中兴如此受伤?如此受气?&/p&&p&根本原因是——&b&美国集成电路产业冠绝全球!&/b&&/p&&h2&&b&集成电路,没有什么比它更重要&/b&&/h2&&p&集成电路,也就是“芯片”,它的成本极低,基本原料是沙子(二氧化硅)!科技含量却极高,只有少数科技发达国家(地区)才能设计生产。成本几毛钱,市场价格则高达几十元。这是暴利中的暴利。&/p&&p&都说石油重要,但随着可燃冰、天然气、太阳能等新的能源开发出来,石油的可替代性越来越强。但集成电路,却无可替代。所有带电设备的计算、存储、传输功能都要仰仗着它。可以说,没有集成电路,整个社会都将瘫痪。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d006e2d0eb467a339e418f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&914& data-rawheight=&509& class=&origin_image zh-lightbox-thumb& width=&914& data-original=&https://pic4.zhimg.com/v2-d006e2d0eb467a339e418f_r.jpg&&&/figure&&p&2017年,我国集成电路进口额超过1.6万亿元,远超其他所有大宗商品。可以说,发达国家的高品质生活,很大程度上,靠着集成电路所带来的高利润。&/p&&p&为了打破发达国家的垄断,我国在集成电路上的投资是空前的。单单存储器的总投入即高达4300亿元!但是,跟美国等相比,差距也是悬殊的,并且面临着越来越多的围堵。&/p&&h2&&b&美国,集成电路产业空前强大&/b&&/h2&&p&可以说,集成电路产业的领先是美国科技领先的一个很好例证。&/p&&p&集成电路最早由美国发明。冷战期间,美国一些公司意外发明了集成电路这玩儿。其后,美国一路狂奔,诞生出英特尔、AMDIBM、TI、镁光、飞思卡尔等一众一流企业。八十年代受到日本企业的短暂冲击,但在贸易战和广场协议等一系列打击下,日本企业节节败退。时至今日,全球集成电路产业链基本牢牢掌控在美国手中。&/p&&p&2017年,&b&全球前十大集成电路公司中,美国独占6家&/b&!(NXP公司即将被高通并入)。合计营收1300亿美元(超过1万亿元)!单单这六家企业,已占据全球1/3市场份额。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-85aef9fdbca_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&519& data-rawheight=&314& class=&origin_image zh-lightbox-thumb& width=&519& data-original=&https://pic3.zhimg.com/v2-85aef9fdbca_r.jpg&&&/figure&&p&在重点细分行业,美国的优势更加明显。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-12e5f9eb829ea736549dfe98c0305443_b.jpg& data-size=&normal& data-rawwidth=&522& data-rawheight=&343& class=&origin_image zh-lightbox-thumb& width=&522& data-original=&https://pic4.zhimg.com/v2-12e5f9eb829ea736549dfe98c0305443_r.jpg&&&figcaption&产业链各环节均有美国企业卡位&/figcaption&&/figure&&p&&b&生产装备&/b&。一套芯片生产线动辄上百亿,大头花在装备上。可以说,只要中国的装备制造商未能成长起来,那么中国每年几千亿的产业扶持投入将大部分以装备采购形式流入国外,尤其是美国。美国拥有全球第一大半导体装备公司——应用材料(Applied Materials),全球前十大装备公司中,美国占据四家:应用功能材料、Lam、KLA-Tencor和Teradyne。另外,全球最高端半导体设备——光刻机,其最高技术掌握在荷兰ASML手中,它的产品长期对中国禁运。而美国英特尔、苹果、高通等公司均是ASML的大股东。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5ff5ee46fad_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&641& data-rawheight=&297& class=&origin_image zh-lightbox-thumb& width=&641& data-original=&https://pic2.zhimg.com/v2-5ff5ee46fad_r.jpg&&&/figure&&p&&b&集成电路制造&/b&。芯片的设计和制造早已分家,设计公司专心设计芯片,将图纸交由制造商制造出来。这一块,美国英特尔、韩国三星、台湾地区台积电最为领先。目前,英特尔7nm工艺已经准备就绪,5nm、3nm也都在规划之中,而中国的中芯国际则刚刚在14nm工艺上实现部分突破(在美国高通公司帮助下完成)。可以说,美国处于全球第一方阵,而中国与美国之间隔着两三代的差距。&/p&&p&&b&通信芯片&/b&。在这个领域,高通堪称神一般的存在。高通骁龙芯片几乎垄断着Android系列旗舰机型(除却华为)。它是全球最大的移动芯片供应商,手中专利高达13万件之多!全球几乎所有手机生产商都要给高通缴纳高额专利使用费。2G、3G、4G、5G,高通一直在引领。&/p&&p&&b&人工智能芯片&/b&。人工智能(AI)代表着未来,其中最高科技当属AI芯片。虽然中国也取得了不错的成绩,但在AI芯片上却乏善可陈,仅有初创企业寒武纪公司在大规模研发AI芯片。而在美国,谷歌、Facebook、英伟达、苹果、高通、英特尔等大佬均已研发多年。谷歌的TPU芯片性能早已超越传统芯片几十倍,英特尔巨资将人工智能芯片巨头Mobileye收入囊中,高通也470亿巨资收购汽车芯片NXP。在AI芯片上,美国冠绝全球无疑。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-02eb65b196cfa8bb517a5fed7ba3e381_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&954& data-rawheight=&582& class=&origin_image zh-lightbox-thumb& width=&954& data-original=&https://pic2.zhimg.com/v2-02eb65b196cfa8bb517a5fed7ba3e381_r.jpg&&&/figure&&p&&b&量子计算芯片&/b&。相比传统芯片,量子计算芯片的计算速度堪称压倒性。借助自研的Bristlecone(狐尾松)量子芯片,谷歌开始测试72位量子计算机。2018年CES展上,Intel高调宣布已经成功设计、制造和交付49量子比特(量子位)的超导测试芯片。与之对比,中国中科大团队才仅仅实现10量子比特操作。差距悬殊。&/p&&h2&&b&对他国集成电路的打击,美国一贯坚决&/b&&/h2&&p&美国将集成电路当做战略级、核心级产业。他国一旦对美国造成潜在威胁,美国总是会毫不留情打击。&/p&&p&上世纪八十年代,日本集成电路产业崛起。为了打击日本,美国政府对日本动用301审查,对日本产品征收高额关税。其中,广场协议的签订也与此有关系。最终,日本迎来“失去的十年”,在全球集成电路领域节节败退,再也无法对美国构成威胁。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-0a7b85d927de898e450becb42c592d8c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&650& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&650& data-original=&https://pic1.zhimg.com/v2-0a7b85d927de898e450becb42c592d8c_r.jpg&&&/figure&&p&中国的产业扶持再次引来美国的警惕。特朗普一上台,美国白宫便发布《确保美国半导体的领导地位》,此次对华301审查中,集成电路占据大幅篇幅。可以说,未来美国对中国集成电路产业的打击将持续走强。&/p&&p&无芯片,不自主!中兴之鉴在前,无论围堵多么猛烈、前途多么艰难,自主芯片的支持都须一往无前。&/p&&p&崛起的中国,离不开强大的集成电路产业。&/p&&p&&/p&
2016年3月,美国对中兴发起制裁,理由是中兴违反美国对伊朗出口管制政策。最终,中兴向美政府支付8.9亿罚金,换取“监外察看”。昨日,美国商务部再次对中兴发起制裁。理由是中兴当年承诺处罚35名员工,但并未进行实际处罚。典型的“鸡蛋里挑骨头”。在中美…
我刚刚从微博上拔下来的图&figure&&img data-rawwidth=&800& data-rawheight=&700& src=&https://pic4.zhimg.com/v2-b98d4d1f7b_b.jpg& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic4.zhimg.com/v2-b98d4d1f7b_r.jpg&&&/figure&&br&革命尚未成功,同志仍需努力。
我刚刚从微博上拔下来的图 革命尚未成功,同志仍需努力。
&figure&&img src=&https://pic2.zhimg.com/v2-55b0b2c63a478d8e1b250_b.jpg& data-rawwidth=&1000& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&https://pic2.zhimg.com/v2-55b0b2c63a478d8e1b250_r.jpg&&&/figure&&blockquote&&i&天下武功,无坚不破,唯快不破——火云邪神&/i&&/blockquote&&p&深度学习如何做的更快,最好最实用的压缩加速方法有哪些,tensorlite中的MobileNet+SSD为什么那么快?推荐来自Google的CVPR 2018论文,介绍tensorlite的量化技术,有论文有源码,能work的良心大作,&b&MobileNet+int8,快到飞起来&/b&。&/p&&h2&相关论文&/h2&&ul&&li&Jacob B, Kligys S, Chen B, et al. &b&Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference&/b& [C]// CVPR, 2018.&/li&&li&Google. &b&TensorFlow Lite&/b&. &a href=&https://link.zhihu.com/?target=https%3A//www.tensorflow.org/mobile/tflite& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&tensorflow.org/mobile/t&/span&&span class=&invisible&&flite&/span&&span class=&ellipsis&&&/span&&/a&.&/li&&li&S. Kligys, S. Sivakumar, et al. &b&Tensorflow quantized training support&/b&. &a href=&https://link.zhihu.com/?target=https%3A//github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/quantize& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&tensorflow/tensorflow&/a&.&/li&&li&Howard A G, Zhu M, Chen B, et al. &b&Mobilenets: Efficient convolutional neural networks for mobile vision applications&/b&. arXiv:, 2017.&/li&&/ul&&h2&背景简介&/h2&&p&&b&计算量限制了我的想象力!&/b&&/p&&p&目前SOTA(State Of The Art,顶尖水平)的CNN都不适合在移动设备上部署,两点原因使CNN模型压缩和加速领域快速发展:&/p&&ol&&li&从AlexNet开始,CNN都以&b&ImageNet上的分类准确率&/b&作为性能评估的主要甚至唯一标准,这使得CNN架构的发展都没有考虑模型复杂度和计算效率问题。&/li&&li&想要在智能手机,AR/VR设备,无人机等移动设备上部署CNN,需要&b&模型大小比较小、时耗比较低&/b&,才满足设备的内存限制,保证用户体验。&/li&&/ol&&p&CNN模型压缩和加速领域的主流方法,可以划分为两类:&/p&&ol&&li&&b&设计类&/b&:设计新颖的网络结构,研究计算量低,内存消耗少的操作或层。高效的层有1*1 Conv, DepthwiseConv(DwConv), residuals connect, Global Average Pooling(GAP)等,和基于这些层的代表性CNN结构有:SqueezeNet,MobileNet,ShuffleNet,MobileNetV2,NASNet等。还有一种叫&b&Distillation蒸馏法&/b&,从大模型teacher指导训练小模型student,压缩和加速的关键还是小模型设计的好不好,Distillation只是辅助训练的方法,所以也属于这一类。&/li&&li&&b&量化压缩类&/b&:将CNN的权值(weights)和/或激活值(activations),从32-bits浮点数 量化到低比特位数表示,代表性方法是Ternary weight networks (TWN), Binary Neural Networks (BNN), XNOR-net, 和Deep Compression等。顺便说一句,还有一类&b&Pruning剪枝法&/b&,如Filter/Channel Pruning,仅对冗余很大的大模型有效,天然紧凑的小模型基本无效,如果用剪枝的大模型,还不如直接上小模型更方便。&/li&&/ol&&p&设计类不是这篇论文的重点,按下不表(&i&留在下一篇介绍我所认识的MobileNetV2,如果有下一篇的话。。&/i&)&/p&&p&量化压缩类是这篇论文关注的重点,虽然纷繁复杂、多种多样,但目前压缩量化方法在处理&b&速度-精度的权衡(latency-accuracy trade-off)&/b&时有两个通病:&/p&&h2&【这是重点,打上高光】&/h2&&p&&b&第一个问题:已有压缩量化方法都没有在一个合理的基准CNN结构(reasonable baseline architecture)上进行评估&/b&。最常用的CNN结构,如AlexNet, VGGNet, GoogleNet, ResNet等,这些竞赛模型为了在ImageNet上取得最优性能和极限准确率提升,在设计时参数都是严重过量的,因此这些CNN结构很容易获得大倍数或超大倍数的压缩。以两个例子来解释:&/p&&ol&&li&&b&FC层问题&/b&:AlexNet和VGGNet中参数最多的是那两个FC全连接层,而近期CNN结构都表明去掉这两个FC层,仅用GAP就能获得高精度,如Inception系列和ResNet系列都去掉了FC仅用GAP,所以这两年有很多论文专捡软柿子捏,在FC层上大作文章就能轻易得到亮瞎狗眼的压缩率,把AlexNet和VGGNet压缩个几十倍还能保证精度不变,您怎么不在ResNet或者Inception系列上做实验呢?&/li&&li&&b&CONV层通道/滤波器数量&/b&:网络设计时,每个层的通道数通常都是人工设置的,比如最常用的64, 128, 256, 512, 1024等,这些数字都去遍历调参不太可能,而且ILSRVC竞赛打得火热,大家都尽可能的让卷积核/通道的数量比较大,网络宽一点保证性能最优。这其中肯定有很大冗余,所以这两年也有论文研究减少滤波器数量这个点(128换成127试试,哎呦效果不错,再试试125,嘿嘿嘿。。)&/li&&/ol&&p&所以这篇论文呼吁:&b&这些CNN结构上的实验最多只能证明某方法理念正确,但意义不大,所以这种量化实验要少做,更有意义的挑战是量化那些本来就在速度-精度权衡方面比较高效的模型,如MobileNet&/b&。&/p&&p&&b&第二个问题:很多压缩量化方法都无法在真实硬件上提供可验证的效率提升。&/b&仅量化weight方法的主要理念是减少设备上的存储需求,而不是减少计算量,如int8的权值乘float32的输入得到输出float32,计算量足纯float32完全没有区别。特例是二值,三值和bit-shift比特移位网络:&/p&&ol&&li&&b&bit-shift&/b&方法的权值是0或2的指数倍,这样乘法就可以通过比特移位的方式实现,然而,bit-shift仅能在定制的硬件上比较高效,在采用乘加指令(multiply-add instructions)的已有常用硬件上几乎无法加速。&/li&&li&&b&multiply-add instructions&/b&乘加指令的常用硬件,如果能正确使用流水线,乘加运算与单独用加法的速度差别不大,所以bit-shift加速乘法的优化就没有意义了。此外,乘法操作仅在操作位数很宽时才耗时,一旦权值和激活值都被量化到低比特位数,就没有必要避免乘法操作,而且操作位数越少就越不需要避免,所以这类量化方法都不会在设备上实测,都没有给出能验证预期加速的实验结果。&/li&&li&&b&1-bit&/b&看起来更实用,将权值和激活值都量化到1-bit表示,这样乘法和加法都可以通过bit-shift和bit-count实现,如BNN在定制GPU kernels上的展示,但1-bit量化会导致严重的性能下降,这或许对模型表达太过于严苛了。&/li&&/ol&&p&所以Google这篇论文,在移动硬件上对MobileNet做量化加速,提高latency-vs-accuracy tradeoffs:&/p&&ul&&li&核心是量化方案quantization scheme,权值和激活值都量化到8-bit整数,少量参数是32-bit整数;&/li&&li&提供inference framework和高效ARM NEON实现;&/li&&li&提供模拟量化效应的协同训练,最小化量化误差;&/li&&li&在分类检测任务上量化MobileNet的实验验证。&/li&&/ul&&p&论文分quantized inference和Training with simulated quantization两部分。&/p&&h2&Quantized Inference量化预测&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-ae54cb3185c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&279& data-rawheight=&298& class=&content_image& width=&279&&&/figure&&p&参考论文:用8-bit定点计算在x86 CPU上加速预测。&/p&&ul&&li&V. Vanhoucke, A. Senior, and M. Z. Mao. &b&Improving the speed of neural networks on cpus&/b& [C]// NIPSw, 2011.&/li&&/ul&&p&量化方案,权值和激活值从实数r量化到8-bit定点整数q的公式:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-aec3e452e6aeb1747b3bc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&128& data-rawheight=&25& class=&content_image& width=&128&&&/figure&&p&两个量化参数,S是实数scale,Z是零点zero-point的量化值,每个权值矩阵内和每个激活矩阵内的所有值用一组量化参数,不同矩阵不同量化参数。定点后卷积:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-a56052efc63e1f1e08a45e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&351& data-rawheight=&26& class=&content_image& width=&351&&&/figure&&p&累加结果是int32,所以偏置也量化到32-bit保证与累加结果同类型,最后激活值截断到uint8,激活函数用ReLU6&/p&&figure&&img src=&https://pic3.zhimg.com/v2-11f31dc83b6a115c2e34bb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&403& data-rawheight=&34& class=&content_image& width=&403&&&/figure&&p&具体推导和细节见论文,就不展开了。&/p&&h2&Training with simulated quantization模拟量化训练&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-2d02e4aefbdfe60739a7af_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&386& data-rawheight=&294& class=&content_image& width=&386&&&/figure&&p&参考论文:低精度定点计算加速CNN训练。&/p&&ul&&li&S. Gupta, A. Agrawal, K. Gopalakrishnan, and P. Narayanan. &b&Deep learning with limited numerical precision&/b& [C]// ICML, 2015.&/li&&/ul&&p&实验发现,浮点数训练后直接量化权值的&b&简单量化方法&/b&,对大模型效果较好,但会严重影响小模型的准确率,可能原因:&/p&&ul&&li&不同输出通道的权值范围差异较大(有时候超过100倍),如果所有通道量化到同一范围,权值范围较小的通道误差相对更大。&/li&&li&异常权值会降低其他权值的量化后精度。&/li&&/ul&&p&论文依然采用浮点训练,但在训练的前向传播中模拟量化效应,反向传播保持不变。这部分也不展开了,有兴趣直接看论文:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-f0deb0f6ef3eb5eda2361d7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&380& data-rawheight=&188& class=&content_image& width=&380&&&/figure&&p&TensorFlow code(&i&逼我学TF系列&/i&):&/p&&figure&&img src=&https://pic2.zhimg.com/v2-cb8df2a7dfbf1f54fb95b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&360& data-rawheight=&278& class=&content_image& width=&360&&&/figure&&p&BN层融入权值层一起量化,节省了单独做BN的计算了:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-b3bbdb7c141fdde_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&226& data-rawheight=&49& class=&content_image& width=&226&&&/figure&&h2&实验结果&/h2&&p&影响CNN性能最重要的一点,是矩阵乘法GEMM,论文中8-bit整数用Google自己的gemmlowp library,32-bit浮点乘法用Eigen library。&/p&&p&&b&量化大模型的实验结果速览:&/b&&/p&&p&量化不同深度的ResNet,定点准确率比浮点仅低2%:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-dacf82aa3318_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&384& data-rawheight=&80& class=&content_image& width=&384&&&/figure&&p&ResNet50不同量化方法的比较,这篇论文的方法精度最好,而且预测加速最友好:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ecafaaedf871446_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&380& data-rawheight=&102& class=&content_image& width=&380&&&/figure&&p&InceptionV3用8-bit量化和7-bit量化结果接近,ReLU6比ReLU量化后精度下降更少:&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-3cb1ec826b300fde2e612e9d257cd76e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&410& data-rawheight=&202& class=&content_image& width=&410&&&/figure&&p&&b&量化小模型的实验结果速览:&/b&&/p&&p&量化MobileNet在ImageNet分类任务上的结果,硬件依次是:高功效处理器Snapdragon 835 LITTLE core,高性能处理器Snapdragon 835 big core,专门优化了浮点运算的高性能处理器Snapdragon 821 big core:注意横轴不是均匀的&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8ebfa971b62a8a851c5802bbeb5ffb62_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1131& data-rawheight=&281& class=&origin_image zh-lightbox-thumb& width=&1131& data-original=&https://pic2.zhimg.com/v2-8ebfa971b62a8a851c5802bbeb5ffb62_r.jpg&&&/figure&&p&量化Mobile SSD在COCO目标检测任务上,时间减少50%,精度下降1.8%:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-fae50d2ca22c2f3cc475_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&433& data-rawheight=&157& class=&origin_image zh-lightbox-thumb& width=&433& data-original=&https://pic4.zhimg.com/v2-fae50d2ca22c2f3cc475_r.jpg&&&/figure&&p&量化Mobile SSD在人脸检测任务上,精度下降2%,耗时下降接近一半,四核加速1.5~2.2倍:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2fef7cb2da323e154e89b3_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&733& data-rawheight=&217& class=&origin_image zh-lightbox-thumb& width=&733& data-original=&https://pic1.zhimg.com/v2-2fef7cb2da323e154e89b3_r.jpg&&&/figure&&p&人脸属性分类,即使是优化浮点运算的821 big core,也有明显加速:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-80e85c952bf8bd283a4fa1bf0c42d5df_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&397& data-rawheight=&209& class=&content_image& width=&397&&&/figure&&p&&b&消融实验:&/b&&/p&&ol&&li&量化比特宽度减少时,权重对变化更敏感&/li&&li&8bit和7bit量化与浮点模型性能相当&/li&&li&当总bit深度相同时,保持权值和激活的bit深度相同时更好&/li&&/ol&&h2&&b&END&/b&&/h2&&p&以上,其实大部分都是论文翻译,很多地方强迫翻译成中文,表达不当之处请见谅!&/p&
天下武功,无坚不破,唯快不破——火云邪神深度学习如何做的更快,最好最实用的压缩加速方法有哪些,tensorlite中的MobileNet+SSD为什么那么快?推荐来自Google的CVPR 2018论文,介绍tensorlite的量化技术,有论文有源码,能work的良心大作,MobileNet+int8…
&figure&&img src=&https://pic4.zhimg.com/v2-8bb26eeca510ee2104850a_b.jpg& data-rawwidth=&770& data-rawheight=&602& class=&origin_image zh-lightbox-thumb& width=&770& data-original=&https://pic4.zhimg.com/v2-8bb26eeca510ee2104850a_r.jpg&&&/figure&&p&最近9to5Google发布了一篇&a href=&https://link.zhihu.com/?target=https%3A//9to5google.com//fuchsia-friday-the-dream-team-behind-googles-new-os/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文章&/a&说到:&/p&&ul&&li&Fuchsia开发团队里有35名,约1/4的开发人员也是安卓的开发人员。&/li&&li&另据传闻,Google的设计副总裁 Matias Duarte (也是 Material Design 的创始人)可能会参与到Fuchsia项目。&/li&&li&Flutter的带头人Ian Hickson原来是HTML5规范的编辑(the original editor of the HTML5 spec)。&/li&&/ul&&p&国外主流媒体越来越多的开始套路 Fuchsia 和安卓的关系。&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//www.technotification.com/2018/04/fuchsia-os-google.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google's Fuchsia OS - A Replacement for Android OS?&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//www.zdnet.com/article/google-fuchsia-is-not-linux-so-what-is-it-and-who-will-use-it/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google Fuchsia is not Linux: So, what is it and who will use it? | ZDNet&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//www.cbronline.com/news/new-google-os-details-breaks-cover& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&New Google OS Details Break Cover – A Future Android-Killer?&/a&&/p&&p&&br&&/p&&p&Fuchsia会替代安卓吗? 这越来越不是疑问了,我们该问何时、如何替换掉安卓?&/p&&p&&/p&
最近9to5Google发布了一篇说到:Fuchsia开发团队里有35名,约1/4的开发人员也是安卓的开发人员。另据传闻,Google的设计副总裁 Matias Duarte (也是 Material Design 的创始人)可能会参与到Fuchsia项目。Flutter的带头人Ian Hickson原来是HTML5规范的编…
&figure&&img src=&https://pic2.zhimg.com/v2-d961ff59d892a40648fa_b.jpg& data-rawwidth=&970& data-rawheight=&296& class=&origin_image zh-lightbox-thumb& width=&970& data-original=&https://pic2.zhimg.com/v2-d961ff59d892a40648fa_r.jpg&&&/figure&&p&by 鲍捷,文因互联&/p&&p&&br&&/p&&p&人工智能公司和互联网公司是不一样的,不一样的,不一样的。重复三遍。互联网公司大概只要做一次PMF(Product-Market Fit,市场-产品结合点),但AI公司通常要做多次才行。&/p&&p&&br&&/p&&p&传统的互联网创业核心是抓紧用户需求,只要不断尝试,找到了市场-产品结合点,技术不会是太大的障碍。人工智能创业则不仅要找这个点,而且找到了你也不一定做的出来。甚至明知道那个点在在哪,也不能去直接做,必须先把到那个点的路径一点点分解出来,再寻找路径上每一个点的场景-单元结合点。每个点都是下一次跃迁的基础。这就是场景跃迁理论。&/p&&p&&br&&/p&&p&AI公司和互联网公司很不一样。互联网应用是规模复杂系统complex system,关键的是可扩展性scalability,只要做出一个小原型,跑得通,之后后面的工程架构可能经历多次的scale out,但是场景可以保持不变。但AI应用不同,是细致复杂系统complicated system,关键是可演进性evolvability,从原型到最终的市场认可产品,不仅工厂架构会变,从产品形态到场景都会变。&/p&&p&&br&&/p&&p&通俗来讲,互联网公司是养鸡场模式,养几只鸡觉得感觉不错,就复制一万倍,养一万只鸡。AI是养小孩模式,要很长时间,一点一点去培育,从吃奶开始,小学中学大学,没办法像养鸡那样养的。&/p&&p&&br&&/p&&p&“Complicated” 这种复杂是内在的不可简约的复杂性。没有办法把养小孩简约成养鸡,真的,没有办法的。&/p&&p&&br&&/p&&p&人工智能公司当然也和其他一切公司一样,最重要的是深刻理解用户的业务场景,设计一个能逐步盈利的路径。核心是场景,不是人工,也不是智能。人工智能公司的存活关键,是先在人工智障阶段也能挣钱,然后再考虑用人工智能挣钱。人工智能能发挥作用,都是要大投入的。没有什么灵丹妙药,一个什么神奇的算法就能解决问题。路径设计才是生死的关键,如何一步步结合场景让“智障”算法也发挥价值,在不同的智障阶段服务不同的场景。&/p&&p&&br&&/p&&p&场景跃迁就是一种路径设计。这可能对互联网时代的成功者有点反常识,但是再说一遍,不能把互联网产品的逻辑套到人工智能产品上,正如不能把PC产品的逻辑套到互联网产品上。&/p&&p&&br&&/p&&p&所以AI公司一定要做场景跃迁,就是在养小孩的过程中,不断把阶段性的成果去商业化。AI产品是复杂产品,但这种复杂产品是先有简单产品而后演化为复杂产品。深入场景和产品,从现有低复杂度技术开始服务,提供小而立即可用的产品。实现人工智能场景的目标,算法和框架其实没有大的秘密,秘密就在于如何降低成本。在不同的复杂度上的产品,可能产品形态和服务人群都不同,甚至连领域都不同。&/p&&p&&br&&/p&&p&为什么不能等到完全成熟了再去商业化呢?因为风险太大。而且,一个好的产品一定是总结出来的,不是设计出来的。AI公司必须在实践中一个案例一个案例去总结出好产品来。那些设计出来的产品,成功的几乎没有。这些实践案例,就是不断把”人工智障“的阶段性成果去运用的过程。所以AI公司开始都看起来像是“外包”公司,这个是符合规律的。&/p&&p&&br&&/p&&p&所以这些场景的跃迁 ,乍看起来好像公司不断换客户群。如果习惯了互联网这种单次PMF的模式,会极为不理解AI产品的成长过程。是不是创始人在犯晕?为什么不能直接一步到位到最后一个PMF呢?不可能,因为 product 需要成长,需要好几次蜕皮才能从毛毛虫变成美丽的蝴蝶。毛毛虫阶段的商业模式是吃叶子,蝴蝶的阶段是吃花蜜,但你不能叫毛毛虫去吃花蜜。&/p&&p&&br&&/p&&p&所以对于AI团队,你看那些执行得特别好的,并不是非要是一堆大牛的集合,而是那些最有演化能力的公司。演化能力才是保证公司在一次又一次的“蜕皮”(即场景跃迁)中,保持团队凝聚力的关键。演化力就是最主要的执行力,演化力是公司成败的第一关键。&/p&&p&&br&&/p&&p&我觉得不管是对创业者也好,还是对投资人也好,这个“AI场景跃迁理论”恐怕是这个领域最大的“秘密”。其他的一切都可以从这个第一原理推导出来。不能理解这个理论,就难以找到价值所在,执行就会碰壁,投资就会亏钱。不能用做互联网产品的思路来做AI产品,更不能用投互联网产品的思路来投资AI产品。&/p&&p&&br&&/p&&p&---------------&/p&&p&如果读了本文有你自己的想法,欢迎和我交流,我的邮箱是 baojie@memect.co&/p&&p&&/p&
by 鲍捷,文因互联 人工智能公司和互联网公司是不一样的,不一样的,不一样的。重复三遍。互联网公司大概只要做一次PMF(Product-Market Fit,市场-产品结合点),但AI公司通常要做多次才行。 传统的互联网创业核心是抓紧用户需求,只要不断尝试,找到了市…
&figure&&img src=&https://pic3.zhimg.com/v2-bc101db7f4fd442f27bb5ad6_b.jpg& data-rawwidth=&829& data-rawheight=&441& class=&origin_image zh-lightbox-thumb& width=&829& data-original=&https://pic3.zhimg.com/v2-bc101db7f4fd442f27bb5ad6_r.jpg&&&/figure&&blockquote&纯属个人理解,梳理自己思路用,仅供参考(可能会有标点错误或语句不通顺 +_+)&/blockquote&&h2&损失函数集合&/h2&&p&损失函数对于机器学习,就像一把尺子,用来度量模型,指导模型训练用,因此损失函数的设计和模型结构设计一样重要。损失函数用来评价预测值和真实值间的关系,好像大多数关于loss的论文都出在人脸辨识和细粒度分类领域。&/p&&h2&Contrastive Loss&/h2&&p&对比损失函数,来自Yann LeCun的论文&code&Dimensionality Reduction by Learning an Invariant Mapping&/code&,出发点想让增大类间差异并且减小类内差异.&br&公式如下:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-616e0f5c8bf3d8f6b97bf5d664ecab2c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&483& data-rawheight=&252& class=&origin_image zh-lightbox-thumb& width=&483& data-original=&https://pic3.zhimg.com/v2-616e0f5c8bf3d8f6b97bf5d664ecab2c_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-617446fba0b4e63cf0fb00acdf38b894_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&474& data-rawheight=&80& class=&origin_image zh-lightbox-thumb& width=&474& data-original=&https://pic1.zhimg.com/v2-617446fba0b4e63cf0fb00acdf38b894_r.jpg&&&/figure&&p&Y=0表示x1和x2是相似的,Ls表示相似时候的度量,通常用距离的平方表示,用来惩罚相似时候预测距离变大的问题。Y=1表示x1和x2不相似,Ld表示不相似的距离,用&code&hinge loss&/code&的平方表示,用来鼓励x1和x2不一致时,二者距离越大越好。公式4是L函数,其中中的Ls和Ld如下图所示。&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-f65f1b93ab5d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&481& data-rawheight=&348& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&https://pic3.zhimg.com/v2-f65f1b93ab5d_r.jpg&&&/figure&&p&上图图表示的就是损失函数L与样本特征的欧式距离之间的关系,其中红色虚线表示的是相似样本的损失值,蓝色实线表示的不相似样本的损失值。&/p&&h2&Triplet Loss&/h2&&p&来自论文&code&FaceNet: A Unified Embedding for Face Recognition and Clustering&/code&,本文基本上是对上文的改进,但这次要求的是输入三张信息,正样本x1,负样本x2,以及要判断的输入x,定义公式如下:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-8d044057b0a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&540& data-rawheight=&340& class=&origin_image zh-lightbox-thumb& width=&540& data-original=&https://pic3.zhimg.com/v2-8d044057b0a_r.jpg&&&/figure&&p&原理上,是衡量输入x与正负样本对的相对距离差,如下图所示:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-9b0ee6fa6c99e3b757afa089bb33ea34_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&533& data-rawheight=&228& class=&origin_image zh-lightbox-thumb& width=&533& data-original=&https://pic3.zhimg.com/v2-9b0ee6fa6c99e3b757afa089bb33ea34_r.jpg&&&/figure&&p&之后有大量关于&code&triplet loss&/code&的改进方法,例如&code&Quadruplet Loss&/code&等。&/p&&h2&Softmax Cross-Entropy Loss&/h2&&p&简称为&code&softmax loss&/code&,公式如下,xi表示第i维特征,分子中的指数项表示xi预测指为yi所得的分数。用softmax函数做压缩,用来表示多类预测的概率,整体是将其带入交叉熵公式所得。m表示对应的&code&mini-batch&/code&样本数。偏置b分析时候可以省略影响不大,因为其和输入的xi没有关系。&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d023b9ede06e7de14091_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&416& data-rawheight=&107& class=&content_image& width=&416&&&/figure&&p&如果cnn网络使用&code&softmax loss&/code&的话,可以将其分类前提取到的特征xi投影到2d平面上(应该是用t-sne),如下图所示。由于fc层其实就是一个近似线性的分类器,从下图可以看出其决策边界,可以注意到,类间基本可分,但是类内分布并不均匀。&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-ea0cb26ebf0d3fdc94d1e07_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&976& data-rawheight=&566& class=&origin_image zh-lightbox-thumb& width=&976& data-original=&https://pic2.zhimg.com/v2-ea0cb26ebf0d3fdc94d1e07_r.jpg&&&/figure&&p&标准CNN训练流程如下图所示:&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-64e7dc3b3bee397e545fe17adb5bdf8a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&455& data-rawheight=&213& class=&origin_image zh-lightbox-thumb& width=&455& data-original=&https://pic2.zhimg.com/v2-64e7dc3b3bee397e545fe17adb5bdf8a_r.jpg&&&/figure&&p&&br&&/p&&h2&Center Loss&/h2&&p&中心损失函数center loss,来自论文&code&A Discriminative Feature Learning Approach for Deep Face Recognition&/code&,其目的是关注类内分布均匀性的,想让其绕类内中心均匀分布,最小化类内差异,公式如下:&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-70dbad04e5fac0eedc82da_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&289& data-rawheight=&97& class=&content_image& width=&289&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-9b71ac9a74cfc036fb72eca9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&602& data-rawheight=&144& class=&origin_image zh-lightbox-thumb& width=&602& data-original=&https://pic2.zhimg.com/v2-9b71ac9a74cfc036fb72eca9_r.jpg&&&/figure&&p&其中Cyi表示对应yi的类别中心,Lc可以有效描述类内的关系。λ表示融合关系,当λ=0时,就变成&code&softmax loss&/code&。想法很好,但问题是Cyi类别中心怎么确定,总不能遍历所有样本后提取特征在做平均求得,这样计算效率太低。所以有没有像meanshift那样的,通过迭代或求导的方式慢慢逼近中心。方法每次中心计算依赖&code&mini-batch&/code&,为了避免错误分类时的干扰,利用学习率α控制Cyi的更新,如下公式所示:&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-c14d2384b3adbf1e81a744_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&412& data-rawheight=&154& class=&content_image& width=&412&&&/figure&&p&这样整个cost loss就是可以训练的,通过sgd就可以优化了,计算流程如下。&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-f1eb205c51eb55e141b2ffe8bdc1119a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&675& data-rawheight=&332& class=&origin_image zh-lightbox-thumb& width=&675& data-original=&https://pic3.zhimg.com/v2-f1eb205c51eb55e141b2ffe8bdc1119a_r.jpg&&&/figure&&p&训练效果如下所示:&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-12f65a140b3e94ad9a5ed_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&884& data-rawheight=&650& class=&origin_image zh-lightbox-thumb& width=&884& data-original=&https://pic2.zhimg.com/v2-12f65a140b3e94ad9a5ed_r.jpg&&&/figure&&p&&br&&/p&&h2&L-Softmax&/h2&&p&最大间隔softmax loss,出发点也是类内压缩和类间分离,对于softmax loss,向量相乘可以转化为cos距离,可以改写为下式:&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-4df9f8b10f7ff1d353244f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&291& data-rawheight=&72& class=&content_image& width=&291&&&/figure&&p&softmax loss的目的也是想让两个特征分开,但是设计上没有加强约束,其中m就是约束,是一个控制距离的变量,它越大训练会变得越困难,如下公式所示&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ebcb3b55e0af9e6b35ca9d7216eab6b9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&502& data-rawheight=&40& class=&origin_image zh-lightbox-thumb& width=&502& data-original=&https://pic1.zhimg.com/v2-ebcb3b55e0af9e6b35ca9d7216eab6b9_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-ec6e991c03de876cea50dc1fe4987636_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&316& data-rawheight=&59& class=&content_image& width=&316&&&/figure&&p&L-softmax可以由下公式表示:&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d234decad37b237a42247bd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&463& data-rawheight=&185& class=&origin_image zh-lightbox-thumb& width=&463& data-original=&https://pic4.zhimg.com/v2-d234decad37b237a42247bd_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-cf5fe80ea8308_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&448& data-rawheight=&254& class=&origin_image zh-lightbox-thumb& width=&448& data-original=&https://pic1.zhimg.com/v2-cf5fe80ea8308_r.jpg&&&/figure&&p&针对φ函数可简化为&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-e5f6fe1ced8cb92d2f3b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&396& data-rawheight=&44& class=&content_image& width=&396&&&/figure&&p&关于L-softmax的几何解释,这对二分类简单说明,只有W1和W2,可以下面这张图:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-1ba8269dcea5d2b15395_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&433& data-rawheight=&490& class=&origin_image zh-lightbox-thumb& width=&433& data-original=&https://pic3.zhimg.com/v2-1ba8269dcea5d2b15395_r.jpg&&&/figure&&p&在训练过程中,当W1=W2时,softmax loss要求 θ1&θ2, 而&code&L-Softmax&/code&则要求θ1&θ2,所以可以看出&code&L-softmax&/code&要求更严格,单也要主要到当W1和W2不等(以及x1和x2分布不均匀)时,分类会存在较大的径向偏差,因此才有下面LMCL。&/p&&h2&LMCL&/h2&&p&论文为解决人脸识别问题,提出LMCL损失函数,其认为softmax作为损失函数,不能够使模型学到更具判别能力的特征,不足以最大化在分类任务上的判别能力,来自论文&code&cosFace:Large Margin cosine loss for deep face recognition&/code&。&code&Center Loss、L-Softmax、A-Softmax&/code&等所有这些改进算法都基于一个核心思想:增大类间差异并且减小类内差异。本文也本着这样想法,通过对特征向量和权重向量的L2归一化,把softmax loss损失函数转化为余弦损失函数,这样做消除了半径方向的变化(相比与L-Softmax),并在此基础上引入了一个余弦边缘值 m 来进一步最大化所学习的特征在角度空间的决策边界。&br&人脸识别中,训练时用loss进行监督,测试时verification和identification流程如下图。&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-7cbca0c07fcb0_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&463& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&463& data-original=&https://pic1.zhimg.com/v2-7cbca0c07fcb0_r.jpg&&&/figure&&p&通过对特征向量和权重向量的L2归一化,LMCL的公式定义如下:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-f76aae615c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&474& data-rawheight=&268& class=&origin_image zh-lightbox-thumb& width=&474& data-original=&https://pic3.zhimg.com/v2-f76aae615c_r.jpg&&&/figure&&p&其决策边界的几何解释如下图所示:&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-835a65eeecab4cca20aa72_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&510& data-rawheight=&220& class=&origin_image zh-lightbox-thumb& width=&510& data-original=&https://pic1.zhimg.com/v2-835a65eeecab4cca20aa72_r.jpg&&&/figure&&ul&&li&softmax在不考虑x的影响(归一化),可以表示为:&/li&&/ul&&figure&&img src=&https://pic2.zhimg.com/v2-046c027d53c26cf959d91b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&258& data-rawheight=&46& class=&content_image& width=&258&&&/figure&&ul&&li&NSL在不考虑x和w的影响,可以表示为:&/li&&/ul&&figure&&img src=&https://pic4.zhimg.com/v2-fe69435dae3d650b967de3fd099de71a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&161& data-rawheight=&29& class=&content_image& width=&161&&&/figure&&ul&&li&A-Softmax在不考虑x和w的影响,可以表示为:&/li&&/ul&&figure&&img src=&https://pic2.zhimg.com/v2-a522ba6b07bef0d5e9f5c7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&217& data-rawheight=&71& class=&content_image& width=&217&&&/figure&&ul&&li&LMCL在不考虑x和w的影响,可以表示为: &/li&&/ul&&figure&&img src=&https://pic3.zhimg.com/v2-0d71ec44e88b3e5daded1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&239& data-rawheight=&67& class=&content_image& width=&239&&&/figure&&p&论文推出了尺度因子s的下界,给定Pw时,类别数增大,s将增大:&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-691bbcbc6883afb84f04600_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&238& data-rawheight=&60& class=&content_image& width=&238&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-7a9fdefe504faf3b03928a19_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&748& data-rawheight=&410& class=&origin_image zh-lightbox-thumb& width=&748& data-original=&https://pic3.zhimg.com/v2-7a9fdefe504faf3b03928a19_r.jpg&&&/figure&&blockquote&这篇和下面两篇基本一样:&br&
1.&code&additive margin softmax for face verification&/code& &br&
2.&code&ArcFace: additive angular margin loss for deep face recognition&/code&&/blockquote&&h2&L-GM&/h2&&p&论文提出了最大间隔混合高斯损失函数&code&L-GM&/code&,其希望特征分布是混合高斯的,同时特征间满足最大间隔,可以看作是&code&center loss&/code&的泛化版本,相当于说&code&center loss&/code&要求特征是关于中心对称分布的(欧氏距离),但是&code&L-GM&/code&中的混合高斯可以用马氏距离建模,能表征相关性特征间的距离(话虽如此,但论文中为了优化,选择协方差矩阵为对角矩阵,虽然是对角但不是单位阵,还是有区别的),同时关于类别损失函数也不一样,&code&center loss&/code&的类别损失项使用&code&softmax loss&/code&,用的是cos距离衡量相似性,&code&L-GM&/code&的类别损失项利用的是欧式距离衡量相似性。&br&基于混合高斯的类别损失函数loss,如下公式定义(简介明了,很容易得到,后验概率用GM来构造,然后带入&code&cross-entropy&/code&):&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f950c00ff3cad849d951_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&395& data-rawheight=&147& class=&content_image& width=&395&&&/figure&&p&换成一般化的写法,用距离来度量,如下式:&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d4f6e58a28d7cc466fdbfe6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&408& data-rawheight=&126& class=&content_image& width=&408&&&/figure&&p&文中出现了我没见过的新名词&code&likelihood regularization&/code&,是这样解释:只用上式的分类loss并不能使特征朝着GM的分布去优化。我的理解就是极大似然估计(不考虑相关性就是最小二乘的概率解释),公式如下:&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-e14e979add7de_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&542& data-rawheight=&196& class=&origin_image zh-lightbox-thumb& width=&542& data-original=&https://pic1.zhimg.com/v2-e14e979add7de_r.jpg&&&/figure&&p&如果对距离度量加上margin,同时认为p(k)是均匀分布,如下式:&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-8ecffd6d21_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&447& data-rawheight=&91& class=&origin_image zh-lightbox-thumb& width=&447& data-original=&https://pic1.zhimg.com/v2-8ecffd6d21_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-2a29fd4acb60b9813eadf0_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&507& data-rawheight=&199& class=&origin_image zh-lightbox-thumb& width=&507& data-original=&https://pic2.zhimg.com/v2-2a29fd4acb60b9813eadf0_r.jpg&&&/figure&&p&对上面式子分析的话,式子17的第一项(类别损失项),由于p(k)是均匀分布,是常数项,可以省略。分母项归一化用,而且放在log里面,也相当于加上一个常数项。做完这些操作后,发现式子17第一项和第二项,基本一样。 第一项分子项有指数幂,可以简化出来成关于距离d的量,所以对于后面&code&likelihood regularization&/code&,也简化为距离d加常数项。那么这两项都是关于距离d的,基本一样,所以感觉作用不是很大,感觉α和λ基本上一回事(以上分析,不知道对错,是我哪里出错了吗?)。论文后面我也没找到关于加&code&likelihood regularization&/code&和不加的对比(我没找到?),总感觉这个&code&likelihood regularization&/code&不起作用。&br&关于margin,定义为平均特征距离的α倍数,有如下特性:&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-0ff4506dde669ace4baf1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&566& data-rawheight=&342& class=&origin_image zh-lightbox-thumb& width=&566& data-original=&https://pic2.zhimg.com/v2-0ff4506dde669ace4baf1_r.jpg&&&/figure&&p&在minst上的对比效果,如下图所示:&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-91f39e27eeca50300ef22dbc1c7601fe_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1101& data-rawheight=&549& class=&origin_image zh-lightbox-thumb& width=&1101& data-original=&https://pic1.zhimg.com/v2-91f39e27eeca50300ef22dbc1c7601fe_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-b986e61cbe0744d23eee2a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&483& data-rawheight=&295& class=&origin_image zh-lightbox-thumb& width=&483& data-original=&https://pic4.zhimg.com/v2-b986e61cbe0744d23eee2a_r.jpg&&&/figure&&p&可能理解不对,还请见谅。&/p&&blockquote&关于损失函数,现在看来要不从softmax出发,好处是模型不用怎么改动,有两个思路,转成cos距离或者是欧式距离,要不就像Contrastive Loss和Triplet Loss等考虑,从样本度量对比出发,考虑样本距离的约束。哪种loss好呢?可能只有试试才知道。&/blockquote&
纯属个人理解,梳理自己思路用,仅供参考(可能会有标点错误或语句不通顺 +_+)损失函数集合损失函数对于机器学习,就像一把尺子,用来度量模型,指导模型训练用,因此损失函数的设计和模型结构设计一样重要。损失函数用来评价预测值和真实值间的关系,好像大…
&figure&&img src=&https://pic4.zhimg.com/v2-10006bfd19bb16ed9d01b0c89bb07e62_b.jpg& data-rawwidth=&896& data-rawheight=&440& class=&origin_image zh-lightbox-thumb& width=&896& data-original=&https://pic4.zhimg.com/v2-10006bfd19bb16ed9d01b0c89bb07e62_r.jpg&&&/figure&&p&我们开源了目前为止PyTorch上最好的semantic segmentation toolbox。其中包含多种网络的实现和pretrained model。自带多卡同步bn, 能复现在&a href=&http://link.zhihu.com/?target=http%3A//sceneparsing.csail.mit.edu/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&MIT ADE20K&/a&上SOTA的结果。欢迎试用。由&a href=&http://link.zhihu.com/?target=http%3A//www.mit.edu/%7Ehangzhao/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Hang Zhao&/a& &a class=&member_mention& href=&http://www.zhihu.com/people/52cdde928a8e785f3ba8792& data-hash=&52cdde928a8e785f3ba8792& data-hovercard=&p$b$52cdde928a8e785f3ba8792&&@Jason Hsiao&/a& 共同开发。&/p&&a href=&http://link.zhihu.com/?target=https%3A//github.com/CSAILVision/semantic-segmentation-pytorch& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-527c4add8f7b61f7aa52a_ipico.jpg& data-image-width=&240& data-image-height=&240& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CSAILVision/semantic-segmentation-pytorch&/a&&p&&/p&
我们开源了目前为止PyTorch上最好的semantic segmentation toolbox。其中包含多种网络的实现和pretrained model。自带多卡同步bn, 能复现在上SOTA的结果。欢迎试用。由
共同开发。
&p&&/p&&p&作者:de,light &br&来源:&a href=&https://link.zhihu.com/?target=http%3A//gitbook.cn/gitchat/activity/5a2f6e9ed8ff692ea2b577b6& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&gitbook.cn/gitchat/acti&/span&&span class=&invisible&&vity/5a2f6e9ed8ff692ea2b577b6&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&b&环境说明:&/b&&/p&&ul&&li&Python 2.7;&/li&&li&Sklearn 0.19.0;&/li&&li&graphviz 0.8.1 决策树可视化。&/li&&/ul&&p&&b&1. 决策树&/b&&/p&&p&&b&1.1 原理&/b&&/p&&p&顾名思义,决策树就是用一棵树来表示我们的整个决策过程。这棵树可以是二叉树(比如 CART 只能是二叉树),也可以是多叉树(比如 ID3、C4.5 可以是多叉树或二叉树)。&/p&&p&根节点包含整个样本集,每个叶节都对应一个决策结果(注意,不同的叶节点可能对应同一个决策结果),每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶节点的路径对应一个判定测试序列。&/p&&p&举个例子:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-65b90d7f7dddc16057c2dc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&573& data-rawheight=&404& class=&origin_image zh-lightbox-thumb& width=&573& data-original=&https://pic3.zhimg.com/v2-65b90d7f7dddc16057c2dc_r.jpg&&&/figure&&p&就像上面这个例子,训练集由三个特征:outlook(天气),humidity(湿度),windy(是否有风)。&/p&&p&那么我们该如何选择特征对训练集进行划分那?连续型特征(比如湿度)划分的阈值又是如何确定的?&br&&/p&&p&决策树的生成就是不断的选择最优的特征对训练集进行划分,是一个递归的过程。递归返回的条件有三种:&/p&&p&(1)当前节点包含的样本属于同一类别,无需划分;&/p&&p&(2)当前属性集为空,或所有样本在属性集上取值相同,无法划分;&/p&&p&(3)当前节点包含样本集合为空,无法划分。&/p&&p&&b&1.2 ID3、C4.5、CART&/b&&/p&&blockquote&这三个是非常著名的决策树算法。简单粗暴来说,ID3 使用信息增益作为选择特征的准则;C4.5 使用信息增益比作为选择特征的准则;CART 使用 Gini 指数作为选择特征的准则。&/blockquote&&p&&b&ID3:&/b&熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是我们希望的划分之后每个子节点的样子。&/p&&p&信息增益 = 划分前熵 - 划分后熵。信息增益越大,则意味着使用属性 a 来进行划分所获得的 “纯度提升” 越大 **。也就是说,用属性 a 来划分训练集,得到的结果中纯度比较高。&/p&&p&ID3 仅仅适用于二分类问题。ID3 仅仅能够处理离散属性。&/p&&p&&b&C4.5:&/b&克服了 ID3 仅仅能够处理离散属性的问题,以及信息增益偏向选择取值较多特征的问题,使用信息增益比来选择特征。信息增益比 = 信息增益 / 划分前熵
选择信息增益比最大的作为最优特征。&/p&&p&C4.5 处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准。尝试每一种划分,并计算修正后的信息增益,选择信息增益最大的分裂点作为该属性的分裂点。&/p&&p&&b&CART&/b&:与 ID3,C4.5 不同之处在于 CART 生成的树必须是二叉树。也就是说,无论是回归还是分类问题,无论特征是离散的还是连续的,无论属性取值有多个还是两个,内部节点只能根据属性值进行二分。&/p&&p&CART 的全称是分类与回归树。从这个名字中就应该知道,CART 既可以用于分类问题,也可以用于回归问题。&/p&&p&回归树中,使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值,是划分到该叶子节点的所有样本目标值的均值,这样只是在给定划分的情况下最小化了平方误差。&/p&&p&要确定最优化分,还需要遍历所有属性,以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差,选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则,所以又叫做最小二乘回归树。&/p&&p&分类树种,使用 Gini 指数最小化准则来选择特征并进行划分;&/p&&p&Gini 指数表示集合的不确定性,或者是不纯度。基尼指数越大,集合不确定性越高,不纯度也越大。这一点和熵类似。另一种理解基尼指数的思路是,基尼指数是为了最小化误分类的概率。&/p&&p&&b&1.3 信息增益 vs 信息增益比&/b&&/p&&p&之所以引入了信息增益比,是由于信息增益的一个缺点。那就是:信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项,解决了这个问题。&/p&&p&&b&1.4 Gini 指数 vs 熵&/b&&/p&&p&既然这两个都可以表示数据的不确定性,不纯度。那么这两个有什么区别那?&/p&&ul&&li&Gini 指数的计算不需要对数运算,更加高效;&/li&&li&Gini 指数更偏向于连续属性,熵更偏向于离散属性。&/li&&/ul&&p&&b&1.5 剪枝&/b&&/p&&p&决策树算法很容易过拟合(overfitting),剪枝算法就是用来防止决策树过拟合,提高泛华性能的方法。&/p&&p&剪枝分为预剪枝与后剪枝。&/p&&p&预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行评估,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点。&/p&&p&后剪枝是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点。&/p&&p&那么怎么来判断是否带来泛化性能的提升那?最简单的就是留出法,即预留一部分数据作为验证集来进行性能评估。&/p&&p&&b&1.6 总结&/b&&/p&&p&决策树算法主要包括三个部分:特征选择、树的生成、树的剪枝。常用算法有 ID3、C4.5、CART。&/p&&ul&&li&特征选择。特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则:信息增益、信息增益比、Gini 指数;&/li&&li&决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini 指数最小作为特征选择的准则。从根节点开始,递归的生成决策树。相当于是不断选取局部最优特征,或将训练集分割为基本能够正确分类的子集;&/li&&li&决策树的剪枝。决策树的剪枝是为了防止树的过拟合,增强其泛化能力。包括预剪枝和后剪枝。&/li&&/ul&&p&&b&2. 随机森林(Random Forest)&/b&&/p&&blockquote&要说随机森林就要先说 Bagging,要说 Bagging 就要先说集成学习。&/blockquote&&figure&&img src=&https://pic4.zhimg.com/v2-5f62aaa56ebba4897fac10_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&563& data-rawheight=&332& class=&origin_image zh-lightbox-thumb& width=&563& data-original=&https://pic4.zhimg.com/v2-5f62aaa56ebba4897fac10_r.jpg&&&/figure&&p&&b&2.1 集成学习方法&/b& &/p&&p&集成学习(ensemble learning)通过构建并组合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合,常获得比单一学习器显著优越的泛化性能。&/p&&p&根据个体学习器是否是同类型的学习器(由同一个算法生成,比如 C4.5,BP 等),分为同质和异质。同质的个体学习器又叫做基学习器,而异质的个体学习器则直接成为个体学习器。&/p&&p&原则:要获得比单一学习器更好的性能,个体学习器应该好而不同。即个体学习器应该具有一定的准确性,不能差于弱学习器,并且具有多样性,即学习器之间有差异。&/p&&p&根据个体学习器的生成方式,目前集成学习分为两大类:&/p&&ul&&li&个体学习器之间存在强依赖关系、必须串行生成的序列化方法。代表是 Boosting;&/li&&li&个体学习器之间不存在强依赖关系、可同时生成的并行化方法。代表是 Bagging 和随机森林(Random Forest)。&/li&&/ul&&h2&&b&2.2 Bagging&/b&&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-fc258d39d86e2e25c813ef5ba242e931_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1240& data-rawheight=&448& class=&origin_image zh-lightbox-thumb& width=&1240& data-original=&https://pic3.zhimg.com/v2-fc258d39d86e2e25c813ef5ba242e931_r.jpg&&&/figure&&p&前面提到,想要集成算法获得性能的提升,个体学习器应该具有独立性。虽然 “独立” 在现实生活中往往无法做到,但是可以设法让基学习器尽可能的有较大的差异。&br&&/p&&p&Bagging 给出的做法就是对训练集进行采样,产生出若干个不同的子集,再从每个训练子集中训练一个基学习器。由于训练数据不同,我们的基学习器可望具有较大的差异。&/p&&p&Bagging 是并行式集成学习方法的代表,采样方法是自助采样法,用的是有放回的采样。初始训练集中大约有 63.2% 的数据出现在采样集中。&/p&&p&Bagging 在预测输出进行结合时,对于分类问题,采用简单投票法;对于回归问题,采用简单平均法。&/p&&p&Bagging 优点:&/p&&ul&&li&高效。Bagging 集成与直接训练基学习器的复杂度同阶;&/li&&li&Bagging 能不经修改的适用于多分类、回归任务;&/li&&li&包外估计。使用剩下的样本作为验证集进行包外估计(out-of-bag estimate)。&/li&&/ul&&blockquote&Bagging 主要关注降低方差。(low variance)&/blockquote&&figure&&img src=&https://pic4.zhimg.com/v2-91fe74c2d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&600& data-rawheight=&567& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic4.zhimg.com/v2-91fe74c2d_r.jpg&&&/figure&&p&&br&&/p&&p&&b&2.3 随机森林(Random Forest)&/b&&/p&&p&&b&2.3.1 原理&/b&&/p&&p&随机森林(Random Forest)是 Bagging 的一个变体。Ramdon Forest 在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入随机属性选择。&/p&&p&原来决策树从所有属性中,选择最优属性。Ramdom Forest 的每一颗决策树中的每一个节点,先从该节点的属性集中随机选择 K 个属性的子集,然后从这个属性子集中选择最优属性进行划分。&/p&&p&K 控制了随机性的引入程度,是一个重要的超参数。&/p&&p&预测 :&/p&&ul&&li&分类:简单投票法;&/li&&li&回归:简单平均法。&/li&&/ul&&p&&b&2.3.2 优缺点&/b& &/p&&p&优点:&/p&&ul&&li&由于每次不再考虑全部的属性,而是一个属性子集,所以相比于 Bagging 计算开销更小,训练效率更高;&/li&&li&由于增加了属性的扰动,随机森林中基学习器的性能降低,使得在随机森林在起始时候性能较差,但是随着基学习器的增多,随机森林通常会收敛于更低的泛化误差,相比于 Bagging;&/li&&li&两个随机性的引入,使得随机森林不容易陷入过拟合,具有很好的抗噪声能力;&/li&&li&对数据的适应能力强,可以处理离散和连续的,无需要规范化;&/li&&li&可以得到变量的重要性, 基于 oob 误分类率和基于 Gini 系数的变化。&/li&&/ul&&p&缺点:在噪声较大的时候容易过拟合。&/p&&p&&b&3. AdaBoost&/b&&/p&&blockquote&AdaBoost 是 Boosting 的代表,前面我们提到 Boosting 是集成学习中非常重要的一类串行化学习方法。&/blockquote&&p&&b&3.1 Boosting&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-f270bb85be38a2003ddf10ccc3d22bc2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1240& data-rawheight=&807& class=&origin_image zh-lightbox-thumb& width=&1240& data-original=&https://pic4.zhimg.com/v2-f270bb85be38a2003ddf10ccc3d22bc2_r.jpg&&&/figure&&p&Boosting 是指个体学习器之间存在强依赖关系,必须串行序列化生成的集成学习方法。他的思想来源是三个臭皮匠顶个诸葛亮。Boosting 意为提升,意思是希望将每个弱学习器提升为强学习器。&br&&/p&&p&&b&工作机制如下:&/b&&/p&&ul&&li&先从初始训练集中学习一个基学习器;&/li&&li&根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续收到更多关注;&/li&&li&基于调整后的样本分布来训练下一个基学习器;&/li&&li&如此反复,直到基学习器数目达到 T,最终将这 T 个基学习器进行加权结合。&/li&&/ul&&p&对训练样本分布调整,主要是通过增加误分类样本的权重,降低正确分类样本的权重。&/p&&blockquote&Boosting 关注的主要是降低偏差。(low bias)&/blockquote&&p&&br&&/p&&p&&b&3.2 AdaBoost 原理&/b&&/p&&fig

我要回帖

更多关于 红眼无影要打光属性吗 的文章

 

随机推荐