智能+&产业行业

永利国际幸福快三-41183399云顶

一文读懂创新工场2019年科研进展及AI工程院科研布局。

9月4日,被誉为机器学习和神经网络领域的顶级会议之一的NeurIPS 2019揭晓收录论文名单,创新工场人工智能工程院的论文《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》被接收在列。



这篇论文围绕现阶段人工智能系统的安全性展开研究,具体而言,文章提出了一种高效生成对抗训练样本的方法DeepConfuse,通过微弱扰动数据库的方式,彻底破坏对应的学习系统的性能,达到“数据下毒”的目的。这一技术的研究并不单单是为了揭示类似的AI入侵或攻击技术对系统安全的威胁,而是致力于在深入研究相关的入侵或攻击技术的基础上,有针对性地制定防范“AI黑客”的完善方案,对AI安全攻防这一前沿研究方向的推动与发展具有积极指导作用。



NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),自1987年诞生至今已有32年的历史,一直以来备受学术界和产业界的高度关注。该会议固定在每年的12月举行,由NIPS基金会主办。在中国计算机学会的国际学术会议排名中,NeurIPS为人工智能领域的A类会议,同时也是人工智能领域最富盛名的年度会议之一,会议门票动辄在数分钟内售磬。



一直以来,NeurIPS都以重视论文质量著称,并保持着相对较低的录取率。今年,NeurIPS会议的论文投稿量再创造新高,共收到6743篇投稿,最终录取1428篇论文,录取率为21.2%。



创新工场“数据下毒”论文入选顶会NeurIPS

近年来,机器学习热度不断攀升,并逐渐在不同应用领域解决各式各样的问题。不过,却很少有人意识到,其实机器学习本身也很容易受到攻击,模型并非想象中坚不可摧。例如,在训练(学习阶段)或是预测(推理阶段)这两个过程中,机器学习模型就都有可能被对手攻击,而攻击的手段也是多种多样。创新工场AI工程院为此专门成立了AI安全实验室,针对人工智能系统的安全性,进行了深入对评估和研究。



《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》这篇论文的主要贡献,就是提出了高效生成对抗训练数据的最先进方法之一——DeepConfuse,通过劫持神经网络的训练过程,教会噪声生成器为训练样本添加一个有界的扰动,使得该训练样本训练得到的机器学习模型在面对测试样本时的泛化能力尽可能地差,非常巧妙地实现了“数据下毒”。



顾名思义,“数据下毒”即让训练数据“中毒”,具体的攻击策略是通过干扰模型的训练过程,对其完整性造成影响,进而让模型的后续预测过程出现偏差。(“数据下毒”与常见的“对抗样本攻击”是不同的攻击手段,存在于不同的威胁场景:前者通过修改训练数据让模型“中毒”,后者通过修改待测试的样本让模型“受骗”。)



举例来说,假如一家从事机器人视觉技术开发的公司希望训练机器人识别现实场景中的器物、人员、车辆等,却不慎被入侵者利用论文中提及的方法篡改了训练数据。研发人员在目视检查训练数据时,通常不会感知到异常(因为使数据“中毒”的噪音数据在图像层面很难被肉眼识别),训练过程也一如既往地顺利。但这时训练出来的深度学习模型在泛化能力上会大幅退化,用这样的模型驱动的机器人在真实场景中会彻底“懵圈”,陷入什么也认不出的尴尬境地。更有甚者,攻击者还可以精心调整“下毒”时所用的噪音数据,使得训练出来的机器人视觉模型“故意认错”某些东西,比如将障碍认成是通路,或将危险场景标记成安全场景等。



为了达成这一目的,这篇论文设计了一种可以生成对抗噪声的自编码器神经网络DeepConfuse,通过观察一个假想分类器的训练过程更新自己的权重,产生“有毒性”的噪声,从而为“受害的”分类器带来最低下的泛化效率,而这个过程可以被归结为一个具有非线性等式约束的非凸优化问题。



从实验数据可以发现,在MNIST、CIFAR-10以及缩减版的IMAGENET这些不同数据集上,使用“未被下毒”的训练数据集和“中毒”的训练数据集所训练的系统模型在分类精度上存在较大的差异,效果非常可观。

与此同时,从实验结果来看,该方法生成的对抗噪声具有通用性,即便是在随机森林和支持向量机这些非神经网络上也有较好表现。(其中蓝色为使用“未被下毒”的训练数据训练出的模型在泛化能力上的测试表现,橙色为使用“中毒”训练数据训练出的模型的在泛化能力上的测试表现)

在CIFAR和IMAGENET数据集上的表现也具有相似效果,证明该方法所产生的对抗训练样本在不同的网络结构上具有很高的迁移能力。

此外,论文中提出的方法还能有效扩展至针对特定标签的情形下,即攻击者希望通过一些预先指定的规则使模型分类错误,例如将“猫”错误分类成“狗”,让模型按照攻击者计划,定向发生错误。



例如,下图为MINIST数据集上,不同场景下测试集上混淆矩阵的表现,分别为干净训练数据集、无特定标签的训练数据集、以及有特定标签的训练数据集。

实验结果有力证明了,为有特定标签的训练数据集做相应设置的有效性,未来有机会通过修改设置以实现更多特定的任务。 



对数据“下毒”技术的研究并不单单是为了揭示类似的AI入侵或攻击技术对系统安全的威胁,更重要的是,只有深入研究相关的入侵或攻击技术,才能有针对性地制定防范“AI黑客”的完善方案。随着AI算法、AI系统在国计民生相关的领域逐渐得到普及与推广,科研人员必须透彻地掌握AI安全攻防的前沿技术,并有针对性地为自动驾驶、AI辅助医疗、AI辅助投资等涉及生命安全、财富安全的领域研发最有效的防护手段。



联邦学习对AI安全研发提出新的目标

除了安全问题之外,人工智能应用的数据隐私问题,也是创新工场AI安全实验室重点关注的议题之一。 近年来,随着人工智能技术的高速发展,社会各界对隐私保护及数据安全的需求加强,联邦学习技术应运而生,并开始越来越多地受到学术界和工业界的关注。具体而言,联邦学习系统是一个分布式的具有多个参与者的机器学习框架,每一个联邦学习的参与者不需要与其余几方共享自己的训练数据,但仍然能利用其余几方参与者提供的信息更好的训练联合模型。换言之,各方可以在在不共享数据的情况下,共享数据产生的知识,达到共赢。



创新工场AI工程院十分看好联邦学习技术的巨大应用潜力,今年3月,《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》论文的作者、创新工场南京国际人工智能研究院执行院长冯霁代表创新工场当选为IEEE联邦学习标准制定委员会副主席,着手推进制定AI协同及大数据安全领域首个国际标准。创新工场也将成为联邦学习这一技术“立法”的直接参与者。





创新工场AI工程院论文成果斩获多项国际顶会

创新工场凭借独特的VC+AI(风险投资与AI研发相结合)的架构,致力于扮演前沿科研与AI商业化之间的桥梁角色。创新工场2019年广泛开展科研合作,与其他国际科研机构合作的论文在多项国际顶级会议中崭露头角,除上述介绍的“数据下毒”论文入选NeurlPS之外,还有8篇收录至五大学术顶会。



1、两篇论文入选计算机视觉领域国际顶会ICCV



ICCV,全称国际计算机视觉大会( IEEE International Conference on Computer  Vision),由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议,在业内具有极高的评价。



今年,创新工场AI工程院与加州大学伯克利分校、清华大学等单位合作的2篇论文收录其中。

  • Disentangling Propagation and Generation for Video Prediction这篇论文的主要工作围绕一个视频预测的任务展开,即在一个视频中,给定前几帧的图片预测接下来的一帧或多帧的图片。视频中的动态场景可以被划分成以下两种情况:第一种是移动相对平滑的画面,它们可以通过上一帧的画面使用比较简单的预测方式得到;第二种是有遮挡发生,通常难以直接通过外插得到的画面。此前关于这类视频预测的工作,只能考虑对之前图片的外插,或是使所有像素均由生成模型得到。本文提出了一种组合式的模型来完成该任务,将视频预测任务解耦成运动相关的图片传播和运动无关的图片生成两个任务,并分别通过光流预测和图片生成的方法完成这两个任务,最后提出了一个基于置信度的图片转换算子将这两个操作融合起来。





实验证明,在动画场景和真实场景下,论文提出的方法都能产生更加精确的遮挡区域和更加锐利和真实的图片。



  • Joint Monocular 3D Vehicle Detection and Tracking这篇论文提出了一种全新的在线三维车辆检测与跟踪的联合框架,不仅能随着时间关联车辆的检测结果,同时可以利用单目摄像机获取的二维移动信息估计三维的车辆信息。在此基础上,论文还提出了基于深度的三维检测框匹配方法,并利用三维轨迹预测对遮挡目标进行重识别,该方法能够利用三维信息做到更加鲁棒的轨迹跟踪。此外,论文设计了一个基于长短期记忆网络的运动预测模型,它能更加准确地预测长期运动。

基于模拟数据,KITTI和Argoverse数据集的实验验证了该方法的鲁棒性。同时发现,在Argoverse数据集上,对30m以内的物体,仅使用视觉输入的方法的性能显著优于基于激光雷达输入的基线方法。





2、一篇论文入选机器人与自动化领域国际顶会IROS

IROS,全称国际智能机器人与系统大会(International Conference on Intelligent Robots and  Systems),是国际机器人与自动化领域的两大影响最大的学术会议之一。



自机器人技术发展初期的1988年开始,IROS每年举办一届,迄今已经是第30届。每年,来自世界各个顶尖机器人研究机构的专家和业界人士汇聚在这个盛会,探讨和展示机器人行业最前沿的技术。



今年,创新工场AI工程院与加州大学伯克利分校等单位合作的1篇论文收录其中。



  • Monocular Plan View Networks for Autonomous Driving通常情况下,在单目视频上的卷积神经网络方法能够有效的捕获图片的空间信息,但是却对深度信息难以有效利用,这也是一直以来有待业内攻克的难点之一。本文针对端到端的控制学习问题提出了一个对当前观察的视角转换,将其称之为规划视角,它把将当前的观察视角转化至一个鸟瞰视角。具体的,在自动驾驶的问题下,在第一人称视角中检测行人和车辆并将其投影至一个俯瞰视角。本文认为,这种人工设计的表征能够提供了一个对环境信息的抽象,使得神经网络能够更有效的推断物体的位置,朝向等信息。



在GTA 5模拟器上进行的实验验证,一个同时使用规划视角和正面视角作为输入的神经网络比起纯基于正面视角的基线方法碰撞率下降了一个数量级,和之前的基于检测结果的方法,本文中提出的方法降低了一半的碰撞率。

3、三篇论文入选自然语言处理领域国际顶会EMNLP



EMNLP,全称自然语言处理中的经验方法会议(Conference on Empirical Methods in Natural  Language Processing),是自然语言处理领域的顶级会议



今年,创新工场AI工程院与香港科技大学、中科院计算所、清华大学、中国科学院大学等单位合作的3篇论文收录其中。



  • Multiplex Word Embeddings for Selectional Preference Acquisition
  • 本论文的主要工作是与香港科技大学联合完成。传统的词向量模型通常利用静态向量来表示词与词之间共现关系,然而这种模型无法很好地捕捉词语之间(在不同场景下)的不同关系,例如,这类静态向量无法有效分辨“食物”应该作为“吃”的主语还是宾语。为了解决这个问题,文本提出了一种multiplex词向量模型。在该模型中,对于每个词而言,其向量包含两部分,主向量和关系向量,其中主向量代表总体语义,关系向量用于表达这个词在不同关系上的特征,每个词的最终向量由这两种向量融合得到。



为了有效使用这种多向量表达,文本提出的模型还包含了一个向量压缩模块,能够将向量压缩至原始尺寸的十分之一而不损失效果。



本文提出的模型在多个实验中均证明了其有效性,尤其是在一些需要句法信息的场景下超越了当前最优的预训练模型。



可以说,文本表征一直是自然语言理解在深度学习时代的重要基础技术和前沿阵地。近年来预训练模型的广泛使用以及其在多数任务上的优良性能证明了其可以更好地表达一段文本在特定上下文中的语义。然而,作为语言表达的基本单元,词语一直是研究语义和理解的重要基础,尤其对于很多复杂场景中需要句法和各类关系信息的支撑,预训练模型也无法很好地表达这些文本中的词汇语义信息。



因此,本文延续了传统词向量方面的研究,将关系信息加入到词向量建模过程中,得以显示区分不同场景下的词的不同表征,并在一系列任务中证明了其有效性,同时借助于模型中的压缩模块可以将词向量规模缩小至原始尺寸的十分之一,将极大改善使用该词向量的运行环境对于资源的需求。



  • What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues本论文的主要工作是与香港科技大学、清华大学联合完成。在实际语言使用中,将一个代词链接到其指代的物体需要多种知识的支持。例如,当两个人谈话时,当他们共同看见一个物体,他们可能会直接用代词(例如“它”)来指代而不会在文字中先行描述。该现象给现有的指代消解模型带来了巨大的挑战,为此,本文提出了一个新模型(VisCoref)及一个配套数据集(VisPro),用以研究如何将代词指代与视觉信息进行整合。



其中,数据集部分,本文从一个含有视觉信息支撑的对话数据中随机挑选了5000个对话,然后邀请众包平台上的标注者标注代词和它们指代的名词短语之间的关联关系,并经过一系列的清洗之后,得到了高质量的标注数据;模型部分,为了整合对话中的文字信息和图片中的信息,首先对于文字和图片进行信息抽取,并分别获得对应的向量表达,然后使用这些向量对于抽取的图像信息进行基于注意力机制的整合,并将得到的结果通过一个全连接神经网络预测基于视觉和文字的分数用于预测指代关系。

本文研究表明,加入视觉信息能够有效地帮助到对话中的代词指代消解任务。



事实上,多模态一直是人工智能各个领域的研究热点。尤其对于人类沟通场景(对话)而言,这个过程中需要利用和产生的很多信号都不仅仅只是文本,视觉信息在其中占据了重要成分。作为自然语言理解中的一个重要任务,指代消解也对于视觉信号有极强依赖。



为了研究这一问题,本文首次提出联合建模视觉信号和指代消解中的代词及被指代的名词,将视觉信息加入到经典的指代消解任务中,并证明了其有效性。同时,本文还构建了一个带有视觉信号的指代消解数据集,为学界和业界提供了一个基准测试对象,以助于将来这方面的研究。



  • Reading Like HER: Human Reading Inspired Extractive Summarization本论文的主要工作是与中科院计算所联合完成,本项研究重新审视了长文档的抽取式摘要问题。人类通过阅读进行文本语义的摘要总结大体上可以分为两个阶段:1)通过粗略地阅读获取文本的概要信息,2)进而进行细致的阅读选取关键句子形成摘要。本文提出一种新的抽取式摘要方法来模拟以上两个阶段,该方法将文档抽取式摘要形式化为一个带有上下文的多臂老虎机问题,并采用策略梯度方法来求解。



首先,采用卷积神经网络对段落要点进行编码以模拟粗略阅读阶段。随后,利用一种带有自适应终止机制的决策策略模拟细致阅读阶段。

在CNN和DailyMail数据集上的实验表明,论文提出的方法不仅在ROUGE-1、2、L等度量上明显优于当前最好的抽取式摘要方法,并且能够抽取出具有不同长度的高质量摘要。



一直以来,模拟人的行为习惯执行自然语言处理任务都是NLP和AI学界的努力方向,特别对于像文本摘要这样对于人类而言也属于高级和复杂的任务,需要级强地自然语言理解和文本组织能力。



本文在这一方面做了有益的尝试,将阅读理解过程拆分成类似人类阅读的两阶段进行建模,并证明这样做可以得到更好地抽取式摘要生成效果。





4、一篇论文入选计算机图形学和可视化领域国际顶级期刊IEEE TVCG



IEEE TVCG,全称IEEE Transactions on Visualization and Computer Graphics,是计算机图形学和可视化领域国际顶级学术期刊。



今年,创新工场AI工程院与香港科技大学合作的1篇论文被IEEE TVCG接受,同时将于2019年10月在加拿大温哥华举行的可视化领域顶级会议IEEE VIS上做口头文章报告。



  • sPortfolio: Stratified Visual Analysis of Stock Portfolios本文主要是对于金融市场中的投资组合和多因子模型进行可视分析的研究。



多年以来量化投资分析人员提出了数千种因子策略,并构建了使用过去市场数据的回测组合,以验证因子模型和组合策略的有效性。在这样做的过程中,由于缺乏有效的分析工具,因此大量投资组合的数据未得到充分的利用。



几乎每个国家的股票市场包含数千种股票,每只股票每年包含大约数千个因子数据。此外,因子数据的高维性对于理解数据又造成了一个很大的障碍,这使得大多数投资者通过传统的视觉表达(折线图或其他基本图表)对因子和投资组合进行研究时效率极低。



论文通过三个方面的分析任务来帮助投资者进行日常分析并升决策准确性。首先,它包括多因子模型的分析,这可以帮助投资者分析一段时间内的市场情况。其次,投资者需要研究投资组合过去的风险偏好,以便进一步研究。最后,在投资者决定了他们感兴趣的投资组合之后,需要进一步研究具体的行业持股和交易策略。



为了完成上述任务,这篇论文提出了一个全新的可视化分析系统sPortfolio,它允许用户根据持仓,因子和历史策略来观察投资组合的市场。sPortfolio提供了四个良好协调的视图。同时系统可以使用户从数据的多个角度理解因子的重要性和因子间关系,并发现其相应投资组合使用的策略。最后,可以基于此来创建新策略并决定构建自己的投资组合。

5、一篇论文入选计算机网络顶级学术会议NSDI



NSDI,全称Networked Systems Design and Implementation,是 USENIX 旗下的旗舰会议之一,也是计算机网络系统领域久负盛名的顶级会议。

 

一直以来,NSDI以重视文章质量著称,采用严格的双盲评审,每篇文章都要经过两轮总计六到八个审稿人审阅,之后还需经过程序委员会的讨论筛选。通常,每届会议录用20多篇论文,录取率仅在25%左右。



今年,创新工场执行董事王嘉平博士与汪浩博士共同发表的论文《Monoxide:  Scale Out Blockchain with Asynchronized Consensus Zones》闯入NSDI  2019,是国际主流学术界首次认可区块链扩容方案的相关研究,是该会议今年录取的唯一一篇与区块链相关的论文。



值得一提的是,论文的两名作者,王嘉平博士与汪浩博士均毕业于中国科院计算所,中科院计算所也是这篇论文的联合署名单位之一。未来,创新工场也将与中科院计算所展开更深入的技术和产业合作。



  • Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones这篇论文提出了一种名为异步共识组 Monoxide 的区块链扩容方案,可以在由 4.8  万个全球节点组成的测试环境中,实现比比特币网络高出 1000 倍的每秒事务处理量,以及 2000  倍的状态内存容量,有望打破“不可能三角”这个长期困扰区块链性能的瓶颈。



受到“不可能三角”的制约,早期的区块链网络通常是单链形式,为了兼顾安全性与去中心化,不得作出性能方面的牺牲—— 



如果把区块链网络处理任务的进程,类比成人们去售票大厅购买车票的过程,那么单链区块链就可以看作是整个售票大厅只有一个售票窗口,所有前来买票的人全部要在这个窗口外排队,于是这个售票大厅的卖票速度可想而知,在单位时间内卖出的车票数目自然也不甚理想。

 

论文中提出的Monoxide 模型则打破了这一瓶颈,在满足安全、高性能和去中心化的三角特性前提下,尽量不引入额外的实体,不引入额外的机制。

Monoxide 异步共识组系统在丝毫没有牺牲去中心化特性实现了性能提升,每一个全节点的工作压力 (带宽、计算、内存、磁盘 IO) 并没有伴随全网横向扩展提升而显著加大。如此一来,就能够保证让一台普通中档价位的电脑轻松地作为网络的一个全节点,通过普通家用宽带网络接入主网,为推进区块链技术的落地进程作出重要贡献,意义重大。

创新工场独特的“科研助推商业”思路

创新工场“VC+AI”模式的最独特之处在于,创新工场的AI工程院可以通过广泛的科研合作以及自身的科研团队,密切跟踪前沿科研领域里最有可能转变为未来商业价值的科研方向。这种“科研助推商业”的思路力图尽早发现有未来商业价值的学术研究,然后在保护各方知识产权和商业利益的前提下积极与相关科研方开展合作,同时由AI工程院的产品研发团队尝试该项技术在不同商业场景里可能的产品方向、研发产品原型,并由商务拓展团队推动产品在真实商业领域的落地测试,继而可以为创新工场的风险投资团队带来早期识别、投资高价值赛道的宝贵机会。



“科研助推商业”并不是简单地寻找有前景的科研项目,而是将技术跟踪、人才跟踪、实验室合作、知识产权合作、技术转化、原型产品快速迭代、商务拓展、财务投资等多维度的工作整合在一个统一的资源体系内,用市场价值为导向,有计划地衔接学术科研与商业实践。



以AI为代表的高新技术目前正进入商业落地优先的深入发展期,产业大环境亟需前沿科研技术与实际商业场景的有机结合。创新工场凭借在风险投资领域积累的丰富经验,以及在创办AI工程院的过程中积累的技术人才优势,特别适合扮演科研与商业化之间的桥梁角色。



创新工场于2016年9月成立创新工场人工智能工程院,以“科研+工程实验室”模式,规划研发方向,组建研发团队。目前已经设有医疗AI、机器人、机器学习理论、计算金融、计算机感知等面向前沿科技与应用方向的研发实验室,还先后设立了创新工场南京国际人工智能研究院、创新工场大湾区人工智能研究院,致力于培养人工智能高端科研与工程人才,研发以机器学习为核心的前沿人工智能技术,并同各行业领域相结合,为行业场景提供一流的产品和解决方案。



创新工场与国内外著名的科研机构广泛开展科研合作,例如,今年3月20日,香港科技大学和创新工场宣布成立计算机感知与智能控制联合实验室(Computer Perception and Intelligent Control Lab)。此外,创新工场也积极参与国际相关的技术标准制定工作。例如,今年8月,第28届国际人工智能联合会议(IJCAI)在中国澳门隆重举办,期间召开了IEEE P3652.1(联邦学习基础架构与应用)标准工作组第三次会议。IEEE联邦学习标准由微众银行发起,创新工场等数十家国际和国内科技公司参与,是国际上首个针对人工智能协同技术框架订立标准的项目。创新工场的科研团队深度参与到联邦学习标准的制定过程中,希望为AI技术在真实场景下的安全性、可用性以及保护数据安全、保护用户隐私贡献自己的力量。