本报北京1月10日电 (记者姜洁)1月10日晚,十九届中央第四轮巡视反馈情况在中央纪委国家监委网站集中向社会公布。

根据党中央统一部署,2019年9月至11月,中央对37个中央和国家机关单位党组织开展常规巡视。巡视组坚持以习近平新时代中国特色社会主义思想为指导,全面贯彻巡视工作方针,坚守政治巡视定位,把“两个维护”作为根本任务,围绕中心、服务大局,紧扣职责使命强化政治监督,重点检查落实党的路线方针政策和党中央重大决策部署、全面从严治党战略部署、新时代党的组织路线以及巡视整改等情况,推动中央和国家机关加强政治建设,带头做到“两个维护”、践行“三个表率”、建设模范机关,推进党和国家治理体系和治理能力现代化。中央巡视工作领导小组听取了巡视组的巡视情况汇报,并向中央政治局常委会会议报告了有关情况。

京东:开启技术服务元年

图 6:用于问题的Hamiltonian 下降(HD)和梯度下降算法的对比情况

不止于此,12月19日,阿里巴巴宣布新一轮面向未来的升级,大力推进全球化、内需、大数据和云计算三大战略。同日,张勇也发布内部信宣布了新一轮架构调整和人事变动。其中,这一轮架构调整的一个重要着力点在于技术体系的变革。

这使得图神经网络能够完美地适应组合优化(例如,旅行商问题、任务调度问题)、身份匹配(在这种问题中 Twitter 用户和 Facebook 的用户是一样的吗?)、推荐系统等任务。

图 2:测试准确率于批处理大小、学习率的诶关系。第四行分别是(1)使用 CIFAR-10 数据集训练的 ResNet-110 模型(2)使用 CIFAR-100 数据集训练的 ResNet-110 模型(3)使用 CIFAR-10 数据集训练的 VGG-19 模型(4)使用 CIFAR-100 数据集训练的 VGG-19 模型。每条曲线都是根据 20 个网络的情况综合绘制而出。

在现实世界的应用中,让系统能够进行预测是远远不够的。弄明白每个预测的可靠性是很重要的。例如,对癌症进行预测时,可靠性为 50.1% 和可靠性为 99.9% 时的治疗方案是不同的。在贝叶斯学习中,非确定性估计是一个内在的特质。

据了解,去年侵华日军第七三一部队罪证陈列馆开展跨国取证,寻访到须永鬼久太和91岁的侵华日军第七三一部队少年班原队员长沼久夫,取得了超过300分钟的珍贵影像资料。

这一年,京东集团明确了“以零售为基础的技术与服务企业”的战略定位,明确开启“技术服务元年”,成为京东集团发展进入“新十年”的一个全新注脚。

尽管这些理论分析非常吸引人,也很重要,但是很难讲它们聚合成一个大的研究体系,因为这其中的一个研究都集中在整个系统的一个较为狭窄的方面。

图也可以表征神经网络的输出。正如 Yoshua Bengio 在他的演讲中提醒人们的那样:任何联合分布都可以通过因子图来表示。

我一直默默推崇 Stephen Boyd 关于凸优化的工作,所以很高兴看到它在 NeurIPS 上越来越受欢迎。在今年的 NeurIPS 上,有 32 篇论文是关于这个主题的。

神经切线核(NTK,https://arxiv.org/abs/1806.07572)是近年来提出的一个研究方向,旨在理解神经网络的优化和泛化。有关 NTK 的讨论多次出现在本届 NeurIPS 的亮点演讲中,我在 NeurIPS 期间也与其他人多次谈到 NTK。

2、图神经网络(GNN)

一系列的动作可以看到,阿里巴巴正发挥其在技术人才方面的优势,并且在战略上对技术进行了更多强调。

在分布式AI加持之下,过去一段时间,拼多多平台累积诞生数十款销售过百万单的冠军农货单品和超过600款销量10万+的爆款农货单品,开拓了包括雪莲果、百香果在内的全新市场。

苏宁深知,打造全场景零售,必须要有强大的技术支撑各业态之间的协同。所以,2019年,如何运用自己科技能力,协助制造商建立面向未来的消费者运营体系,驱动零售企业能够从传统模式向数字化、场景互联网化转型成为这一年的重点工作之一。

凸优化问题之所以吸引人,是因为它们可以被精确地求解(可以实现 1e-10 的容错率),而且速度很快。它们也不会产生奇怪的或意料之外的输出,而这对于现实世界中的应用是至关重要的。尽管在真实场景中遇到的许多问题是非凸的,但是将它们分解为一系列凸问题可以达到很好的效果。

同时,上述负责人还表示,虽然“中央大脑”能够对大量用户过往生活轨迹、消费轨迹、出行轨迹、衣食住行等全场景的喜好进行全面分析,能为整个零售体系提供底层的数据支持,但集中式AI也会面临一系列问题,如用户很难了解自己的需求是怎么被算出来的,算法对普通用户是一个黑箱状态。相较之下,分布式AI更有利于演化出下一代互联网架构,让公共数据和私有数据的边界更加清晰。

根据 Khan 的说法,深度学习使用的是一种「试错」的方法,我们通过实验看看会得到什么结果,然而贝叶斯原理迫使你事先考虑一个假设(先验)。

与常规的深度学习相比,贝叶斯深度学习有两个主要的优势:非确定性估计以及在小数据集上更好的泛化性能。

2. 科学研究应该是一个从假设到实验的过程,而如今的人工智能研究则往往是先做实验然后证明结果成立。

NTK 的观点还认为,神经网络只会像核方法一样泛化,但根据我们的经验来看,它们可以更好地泛化。

接下来,技术依然会是苏宁投入的重点。就在12月16日-17日,苏宁召开的2020年度工作部署会上,张近东透露,2020年苏宁将继续稳健投入,重点加大智慧零售基础设施方面的投入,强化互联网店面模型建设和升级、打造物流仓配一体的核心能力、提升零售科技能力的研发与应用,据了解,苏宁新增科技、物流等领域基础设施投入将不低于400亿。

在拼多多崛起之时,本土主要消费品市场已被传统电商平台占据,不过市场痛点犹在。彼时,淘宝将义乌小商品市场搬上了网,京东将中关村电脑城搬上了网,而农贸市场还未被搬到线上。不过,农产品上行难度颇大,并严重依赖中间环节,仓储、物流及高强度劳动力和资本投入,使得每个环节的成本增加30%以上。

三、神经科学 x 机器学习

对此,拼多多通过产地直发模式,巧妙地绕过了“中间商”。首先,就是以算法推荐为核心模式,实现“货找人”,确保订单量的相对稳定;其次,以拼农货的模式,帮助消费者建立“计划性消费”的概念,社交拼团的模式,将购买农货,从一个冲动性的即时消费,变成了预期的计划消费;再次,拼多多将上述相对稳定的未来需求传递给农民,后者可以根据需求来发货,变成了需求决定供给等。

根据阿里巴巴方面12月中旬对外公开的最新数据,截至2019年9月,商家在天猫发布超9000万款新品,这相当于每个天猫品牌商家平均每月发布50款新品。过去一年,2000个淘品牌在淘宝上诞生,C2M产业带定制新品同比增长7倍,商家每月通过阿里妈妈营销推广200万件新品。2019年,超500个品牌4000多款新品接入天猫精灵。

于“内生”成效而言,京东集团2019年第三季度财报显示,报告期内,该集团实现净收入1348亿元,同比增长28.7%,大幅高于市场预期;非美国通用会计准则下(NonGAAP)归属于普通股股东的净利润同比增长160.6%至31亿元。京东零售经营利润率实现了3.3%的新高点,这是京东零售的经营利润率第一次进入“3”时代,而其所依赖的是,京东通过技术升级带来的运营效率提升。

在本届大会上,我最喜欢 Aguera y Arcas 的演讲。他的演讲在理论上非常严谨,但同时也是可行的。他认为通过优化方法不足以获得类似于人类的智力:「优化不是生命体工作的方式,大脑不仅仅是在评估一个函数。它们会发展。它们会自我修正。他们从经验中学习。仅仅通过一个函数并不能包含这些东西」。

他们还表明,当我们使用梯度下降法训练一个有限层版本的 NTK 时,其性能将收敛到宽度无限的 NTK 上,然后在训练中性能保持不变。

在2019这场云端军备竞赛较量中,阿里巴巴无疑是最受瞩目那一个。阿里云创始人王坚获选中国工程院院士,更将这场关切推至舆论制高点。

传统的神经网络给出的是单点估计——它们使用一组权值针对一个数据点输出一个预测。另一方面,贝叶斯神经网络使用一个关于网络权重的概率分布,并输出该分布中所有权重组合的平均预测值,这与对许多神经网络求平均的效果相同。

当然,在看到京东技术越发枝繁叶茂的同时,也可以看到,其背后是京东集团对技术研发的巨额投入。

2019年1月,阿里巴巴发布阿里商业操作系统。时任阿里巴巴CEO的张勇明确提出,阿里巴巴商业操作系统将帮助企业完成“品牌、商品、销售、营销、渠道、制造、服务、金融、物流供应链、组织、信息技术”等11大商业要素的在线化和数字化。

这一战略意味着在2019年苏宁一方面要保证规模、门店、品类等方面的增速,还要推动组织、管理、运营、服务等全经营管理流程的数字化和智能化。

他们认为一致收敛理论本身并不能解释深度学习的泛化能力。随着数据集的规模增大,泛化差异(Generalization Gap,模型在见过和未见过的数据上的性能差异)的理论界限也会增大,而经验泛化差异则会减小。

最近,研究人员对深度学习的局限性进行了大量的反思,以下为几个例子:

下面,我们列出本届 NeurIPS 上一些基于 NTK 构建的论文:

阿里:商业操作系统全面开花

NeurIPS 上的这一趋势与我观察到的现象不谋而合:很多人工智能界的研究人员正转而研究神经科学。他们把神经科学重新带回了机器学习领域。

拼多多:分布式AI支撑起电商第三极

根据 Bengio 的说法,如果我们希望机器学习算法能够泛化到分布之外的样本上,那么受意识启发的方法可能是一种解决方案。

与此同时,阿里巴巴搭建的数字商业基础设施已为数千万企业提供普惠金融支持,上万品牌享受数智化供应链服务,以中台为代表的数字化转型技术正在通过阿里云对外输出,目前已有100余个针对企业全面上云的定制化解决方案诞生,令企业IT综合成本下降一半、创新提效3倍。

而在“外赋”的规划上,在2019京东全球科技探索者大会,京东集团副总裁黎科峰首次对外展示了京东集团技术全景图。正如黎科峰表示,通过对原有的中心化技术系统进行改造,通过组件化、积木化的敏捷开发体系,低成本高效率地实现能力复制,在支持京东不断扩展的业务布局的同时,京东技术也具备了承接更多外部需求的能力,包括对接国际化业务、对外部企业的系统改造等。

换言之,不同于PC购物年代,“人找物”抑或“物为先”的特征,拼多多通过拼购模式,汇集人群同质需求,并通过AI技术实现人、货精准匹配。目前,在拼多多的研发队伍中,超1000人专注于算法设计和开发。

而王坚主持研发的飞天云操作系统,在2019天猫“双11”中,成功支撑起新的流量高峰:订单峰值54.4万笔/秒,单日数据处理量达970PB。这在全球的云计算巨头中绝无仅有,再次创造了历史,也成就了2019新零售史上新的交易奇迹。技术和创新,成为了重构电商/零售增长力的根本所在。

就2019年被各大平台提到了一个前所未有的高度的下沉市场,苏宁零售云作为苏宁深耕县镇市场、成就县镇创业者的核心平台,在今年9月突破4000店,同时正式推出3.0模式,全面整合苏宁内外部品牌、供应链、运营、技术、物流、金融、服务对县镇传统门店进行数字化改造,通过双线融合提升乡镇消费者的消费体验。

对于分布式AI,拼多多技术团队负责人曾解释,集中式AI相当于有一个“中央大脑”,而分布式AI中系统的数据、知识、控制逻辑等信息都是分布存在的,系统中的节点和路径能并行求解,各个子系统不是孤立存在的,可以彼此协作,相互联系。

那么,增加深度能让它更有效率吗?他们说明了,在高斯混合模型的最优贝叶斯分类的情况下,这些函数可以用带有单个隐层的神经网络中的 o (exp (n)) 个节点以任意精度近似,而在两层网络中只需要用 o (n) 个节点近似。

图 7:神经科学是论文接收率最高的类别

具体来说,张建锋在以往担任达摩院院长、阿里云智能事业群的基础之上,又被赋予阿里巴巴技术委员会主席的角色,从而领导阿里巴巴未来的技术总战略、达摩院的建设,以及致力于阿里云智能业务的进一步突破。从CTO到技术委员会主席,张建锋在职位晋升的同时,也把阿里巴巴CTO的角色空了出来,由原蚂蚁金服CTO程立担任。

来自英伟达的工程师小姐姐 Chip Huyen 基于自己的参会体验,较为全面地总结了 NeurIPS 2019 反映的关键研究趋势。

图 3:贝叶斯学习与深度学习对比

当你想要控制一个系统的输出时,凸优化特别有用。例如,SpaceX 公司使用凸优化来发射火箭,BlackRock 公司将它用于交易算法。看到凸优化在深度学习中的应用真的很酷,就像现在的贝叶斯学习一样。

有些我所熟知的智者纷纷离开了人工智能研究领域,投身工业界或神经科学领域。这是为什么呢?

本届 NeurIPS 上也有几篇论文说明了,传统的神经网络可以具有比 NTK 更好的性能:

苏宁:用技术打通全场景零售

在今年的 NeurIPS 上,研究者们提出了一系列新颖的方法,而不仅仅是在别人的工作上叠加上新的网络层。我感兴趣的三个方向是:贝叶斯学习、图神经网络,以及凸优化。

多年来,我经常谈到:图论是在机器学习领域最被低估的课题之一。我很高兴有关图的工作在本届 NeurIPS 上大放异彩。

京东集团财报显示,2019年前三季度,该集团在技术和内容上的投入高达110.28亿元,同比增长27.61%。此外,京东集团方面还透露,2019年前三季度,京东体系所属上市及非上市企业合计研发投入超130亿元。

图 4:(左图)二分图 St=(G,C,E,V)有 n=3 个变量和 m=2 个常量。(右图)用于将策略πθ(a|st)参数化的二分图 GCNN 架构。

下面是向大家推荐的本届 NeurIPS 上有关贝叶斯深度学习的 3 篇论文:

图是适用于许多种数据(例如,社交网络、知识库、游戏的状态)的优雅而自然的表征形式。用于推荐系统的「用户-物品」数据可以被表示为一个二分图,其中一个不相交的集合由用户组成,另一个由物品组成。

「图表征学习」是本届 NeurIPS 上最受欢迎的研讨会。令人惊讶的是,该领域已经取得了如此大的进步。时间回到 2015 年,当我在实习期间开始研究图神经网络时,我没有想到会有如此多的研究人员参与到这个领域中来。

Bengio 的演讲将「意识」引入了主流的机器学习词汇体系中。Bengio 提出的「意识」概念的核心是注意力。他将机器注意力机制与我们的大脑选择分配注意力的方式进行了比较:「机器学习可以用来帮助脑科学家更好地理解意识,但我们对意识的理解也可以帮助机器学习发展出更好的能力」。

训练具有数百万参数的贝叶斯神经网络仍然需要非常大的计算开销。要想使网络收敛到一个后验上可能需要花费数周的时间,因此诸如变分推断这样的近似方法越来越流行。本届 NeurIPS 的「概率方法-变分推断」环节共有 10 篇论文与这类变分贝叶斯方法有关。

就在12月9日,京东集团宣布成立集团技术委员会。京东集团副总裁周伯文担任技术委员会主席,而技术委员会由此成为京东技术条线的最高管理决策机构。同时,京东集团整合原京东云、人工智能、IoT三大事业部的架构与职责,设立京东云与AI事业部,由周伯文担任负责人。

(除 NeurIPS 论文之外的)推荐阅读材料:

如今,距阿里巴巴商业操作系统的提出也已经过了一年。这一年中,一大批企业利用阿里巴巴集成的能力走向全方位数字化,实现超预期的业绩增长,从消费零售领域开始掀起各行各业的数字化、智能化革命。

更具体来说,2019“双11”期间,京东通过全平台实时监控系统,采用大数据和AI技术管控价格,实时处理1000多万条价格数据;通过采用智能客服深度学习技术,京东智能客服累计处理超过3416万次服务;通过数字营销能力及智能供应链能力,京东零售单品类商品成交额突破亿元仅用了20秒。

近日,37家被巡视单位党组织相继召开巡视反馈会议。中央巡视工作领导小组、中央纪委国家监委、中央组织部有关领导主持召开向被巡视单位党组织主要负责人的反馈会议,出席向被巡视单位党组织领导班子反馈巡视情况会议,对巡视整改提出要求。会议向被巡视单位党组织主要负责人传达了习近平总书记关于巡视工作的重要讲话精神,中央巡视组组长代表中央巡视组分别向被巡视单位党组织主要负责人和被巡视单位党组织领导班子反馈了巡视情况。被巡视单位党组织主要负责人主持向领导班子反馈会议并就做好巡视整改工作作表态讲话。

同样是乐于调整组织架构的企业,今年1月,苏宁集团董事长张近东在2019部署会上提出了“极智”理念——“极”是指要有发展的速度,“智”则是指要有发展的内涵。同时张近东指出,未来零售行业将全面迈入产业互联网的时代。基于这一判断,苏宁全面推进全场景零售战略。

目前最流行的图神经网络是图卷积神经网络(GCNN),这是意料之中的,因为图和卷积都可以编码局部的信息。卷积以寻找输入中邻近部分之间的关系为目标编码一种偏置。而图通过边对输入中关系最密切的部分进行编码。

他呼吁人们研究「一种更通用的、受生物学启发的突触更新规则,它允许使用损失函数和梯度下降法,但并不要求一定要这么做」。

或许很少有人意识到,拼多多能在三、四年之间,一跃成为中国电商第三极,不只是其瞄准下沉市场,更与拼多多背后的技术支撑有关。

与此同时,Yuanzhi Li 等人的论文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一个具有较大的初始学习率并使用退火算法训练的双层网络,比使用较小的初始学习率训练的相同的网络具有更好的泛化性能。这是因为学习率较小的模型首先会记忆低噪声、难以拟合的模式,它在较高噪声、易于拟合的情况下的泛化性能比学习率较大的情况下差一些。」

1. 我们需要理解人类学习的机制,从而教导机器进行学习。

相较于零售C端的战火纷飞,不得不承认,由云端技术支撑的品牌、供应链、IT、零售能力、增值服务等,更加无形且抽象,被讨论的声音仿佛也更小一些。然而,这并不意味着这场军备竞赛不重要,相反,这才是2019零售江湖最无声、又最核心的较量。

这一年,阿里巴巴商业操作系统全面开花;京东喊出全集团技术革命开启京东“技术服务元年”;拼多多持续利用分布式AI的加持支撑起电商第三极;苏宁则利用技术升级打通了零售全场景……

1、使用贝叶斯原理进行深度学习

在这种大环境下,我们很高兴看到探究深度学习背后的理论(深度学习为何有效?它是如何工作的?)的论文的数量迎来了爆炸式增长。

无独有偶,2019,无论之于京东、还是京东的技术转型都是至关重要的一年。

然而,许多人认为 NTK 不能完全解释深度学习。一个神经网络要接近 NTK 状态需要具备学习率小、初始化宽度大、无权值衰减等超参数设置,而在实际训练中并不经常使用这样的设置。

图 8:将机器学习用于意识&将意识用于机器学习——(1)形式化定义并测试特定的意识的假设函数(2)揭开意识的神秘面纱(3)从计算和统计的角度(例如,系统的泛化)理解意识演化的优势(4)将这些优势应用于学习智能体。

早在2014年,马云便在论坛演讲时提到他的判断,“人类正在从IT时代走向DT时代”。基于此判断,之后的阿里巴巴在大数据与云计算等前沿科技领域加大投入。而到了2019年,这些技术投入也随着阿里巴巴商业操作系统的全面开花得到集中显现。

神经网络也使用凸优化的算法进行训练。然而,神经网络重点强调以一种端到端的方式从头进行学习,而凸优化问题的应用则显式地使用领域特定的知识对系统建模。如果能够以凸方法对系统进行显式建模,那么通常所需的数据就会少得多。关于可微凸优化层的工作是将端到端学习和显式建模的优势结合起来的一种方法。

中央巡视组组长在反馈中对被巡视党组织贯彻落实党中央重大决策部署和全面从严治党等方面取得的成绩给予正面肯定。巡视也发现了一些问题,主要集中在以下几个方面:学习贯彻习近平新时代中国特色社会主义思想不够深入,落实党中央重大决策部署有差距;贯彻落实全面从严治党战略部署不够有力,“两个责任”落实不力,压力传导层层递减,违反中央八项规定精神问题时有发生,形式主义、官僚主义仍然存在;重点领域、关键环节存在廉洁风险,个别单位基层腐败问题突出;贯彻落实新时代党的组织路线不到位,选人用人存在薄弱环节,机关和基层党建工作比较薄弱;对巡视、审计发现问题整改落实不彻底。同时,巡视组还收到反映一些领导干部的问题线索,已按有关规定转中央纪委国家监委、中央组织部等有关方面处理。

让我们从更宏观的角度看看本届 NeurIPS 大会上的论文都与什么主题相关。首先,我使用 Vennclods 将 1,011 份 NeurIPS 2018 的论文和 1,428 份 NeurIPS 2019 的论文的标题进行了可视化。中间黑色的部分是在这两年都十分常见的论文关键词的列表。 

一、 解构深度学习的黑盒

Facebook 的人工智能总监表达了对算力达到瓶颈的担忧。人工智能企业不应该仅仅寄希望于通过更大的深度学习系统来不断取得进步。因为「现在,一个实验可能要花费七位数的金钱,但现实情况不会让这一数字增长到九位数或十位数,因为没人负担得起这样的开销」 Yoshua Bengio 认为以 Gary Marcus 为代表的一些人经常指出深度学习的局限性。Bengio 将 Gary Marcus 的观点总结为「你们看,我就说深度学习不行吧」,而 Gary Marcus 则反驳了这种说法。 针对这一趋势,Yann Lecun 谈到:「我不明白,为什么突然之间,我们看到了许多新闻和推特声称人工智能的进步正在放缓,或称深度学习正在碰壁。在过去的五年中,我几乎在每一次演讲上都会指出这两个局限和挑战。所以,认识到这些局限性并不是什么新鲜事。而且,实际上人工智能的发展并没有慢下来」。

下面是向大家推荐的 GNN 论文:

图 1:泛化差异和泛化边界随训练集规模变化的情况

Arthur Jacot 等人提出了「全连接的神经网络等价于宽度无限时的高斯过程」这一众所周知的概念,能够在函数空间而不是参数空间中研究它们的训练动力学(Training Dynamics)。他们证明了「在人工神经网络参数梯度下降的过程中,网络函数(将输入向量映射到输出向量)遵循关于一种新的核——NTK的函数代价的核梯度」。

Stephen Boyd 和 j. Zico Kolter 的实验室也展示了他们的论文「Differentiable Convex Optimization Layers」,该论文说明了如何通过凸优化问题的解来进行微分,这使得将它们可以被嵌入可微分的程序(如神经网络)并根据数据进行学习。

而拼多多仍在技术研发方面加大投入。根据拼多多发布的Q3财报,三季度,拼多多的研发费用为11.272亿元,较去年同比增长240%,占收入比达15.0%。同时,技术工程师占整体员工比例始终维持在50%以上。

张勇坚信,所有的商业要素未来都会在新技术的驱动下全面走向数字化,进而走向智能化运营,数据不仅产生在商业场景当中,同时也在被实时应用。

值得一提的是,在2019年3月,拼多多创始人兼CEO黄峥宣布将成立技术顾问委员会,并由前微软全球执行副总裁、前百度总裁陆奇领导技术委员会相关工作。其中的关键技术,正是拼多多一直强调的分布式AI。

同样,京东对技术研发的投入回报也充满期待。在2019年Q3财报发布后的电话会议上,刘强东就表示,未来5年,京东集团的技术服务收入的增长幅度会远远高于收入的增长幅度,成为集团收入和利润增长的重要驱动力。

因此,贝叶斯神经网络是一种自然的集成,它的作用类似于正则化,并且能够防止过拟合。

在周伯文看来,如果要对京东技术的发展阶段进行总结,那2019年的关口就是京东技术从“内生能量”到“外赋于行”的转变节点。

从纯电商时代走向数字经济时代,这在阿里乃至行业是共识。