英特尔最近对外公布了Xeon Phi的基准测试结果,引来业界广泛关注。根据英特尔的说法,Xeon Phi是“集成众核架构”处理器,基于Atom CPU而非GPU打造,不仅更高效,而且具备比GPU更强的深度学习性能。
英特尔明确表示,Xeon Phi处理器比Nvidia Tasla显卡功耗低40%。此举显然惹怒了Nvdia,后者在自家博客中发了篇帖子,列出种种原因,称英特尔的测试结果有“作弊”嫌疑。
深度学习神经网络
不管英特尔与Nvidia孰是孰非,可以肯定的是GPU是时下训练深度学习神经网络的主流选择。这是因为训练深度学习神经网络要求低精度计算,GPU符合这一标准,而CPU却是为执行高精度计算而生。至于GPU未来是否会被更有效的产品替代,还有待观察。
过去几年里,Nvidia一直在优化GPU的深度学习性能。另一方面,Nvidia也在GPU架构的开发上加大投资,以方便开发人员训练深度学习神经网络,这也是机器学习研究人员会首选Nvidia而非AMD的主要原因。Nvidia表示,与Kepler架构相比,Pascal架构的机器学习性能提升了好几个档次。
然而,GPU不是训练深度学习神经网络游戏中的唯一玩家。深度学习神经网络蓬勃发展,新老企业纷纷插足,希望能分得一杯羹。
有些公司希望藉由FPGA来加速深度学习,谷歌、CEVA、Mocidius专注于开发自定义的深度学习芯片。而英特尔则希望用拥有几十个Atom核心的Xeon Phi处理器,与GPU竞争。
英特尔的报告
在报告中,英特尔称,4个Knights Landing Xeon Phic处理器比“4个GPU”快2.3倍。
英特尔还称,在多个计算结点上,Xeon Phic处理器的可扩展率比GPU高38%。
它还说,128个Xeon Phic处理器构成的系统,比单一Xeon Phic处理器构成的系统,快50倍。这意味着Xeon Phic处理器的扩展性很棒。
此外,英特尔还在报告中指出,使用英特尔优化过的Caffe深度学习框架,Xeon Phic芯片比标准Caffe硬件快30倍。
Nvidia的反驳
对英特尔在论文中所举种种,Nvidia不屑一顾。Nvidia将矛头对准基准,称英特尔在基准中使用了过去的数据。Nvidia指责英特尔将使用了旧数据的基准与GPU进行比较是误导大家,因为该公司的GPU从28纳米工艺转变为16纳米FinFET工艺后,性能、效率都得到了大幅提升。与此同时,过去几年里,Nvidia也对旗下多个GPU框架进行了优化。
基于上述种种,Nvidia称,如果英特尔使用最近的Caffe AlexNet测试数据,就会发现4个Maxwell GPU比4个Xeon Phi处理器快30%。
至于英特尔在论文中所说的“可扩展率高38%”,Nvidia表示,英特尔将该公司四年前的Kepler架构Titan X GPU,与Xeon Phi处理器对比,本就有失公平。Nvidia还援引百度的数据称,语音训练负载在128个Maxwell GPU上几乎呈线性扩展。
Nvidia认为,深度学习最好使用几个强的结点,而不是多个弱的结点。Nvidia还指出,一台DGX-1超级计算机的速度比21个Xeon Phi处理器还要快,是4个Xeon Phi处理器速度的5.3倍。
人工智能芯片竞争白热化
种种迹象显示,英特尔Xeon Phi处理器在深度学习领域,仍然落后于GPU。但从另一个角度来看,就算Nvidia的DGX-1超级计算机速度比21个Xeon Phi处理器快,至少英特尔的Xeon Phi处理器更有价格优势。
一台DGX-1超级计算机的成本是12.9万美元(折合人民币约85.6万元),而Xeon Phi处理器的价格从2000美元至6000美元不等。即便DGX-1超级计算机可与21个Xeon Phi处理器匹敌,但其价格仍比Xeon Phi组合贵。
很显然,英特尔与Nvidia的战争在未来几年会日趋激烈。但更有趣的是,谷歌TPU之类ACIS芯片能否渔翁得利。
英特尔在Phi协处理器中大量使用“通用”核心,而Nvidia仍必须为游戏优化其GPU。换句话说,两家公司都不会极端追求芯片的深度学习性能。与此同时,软件在发展深度学习芯片过程中意义重大,而Nvidia无疑有最强的软件支撑。