Flex Logix公司称它解决了深度学习的DRAM问题

IEEE电气电子工程师学会 2018-11-08 14:12 次阅读
深度学习有一个DRAM问题。设计用来实时处理复杂任务(比如,在汽车的备份摄像头视频流中分辨猫和孩子)的系统,不断地将构成神经网络内容的数据从存储器传送到处理器。 根据初创公司Flex Logix的说法,问题并不是缺乏存储这些数据的空间,而是处理器和存储器之间缺乏带宽。为了将数百千兆比特的数据提供给处理器,有些系统需要4个甚至8个DRAM芯片,这既使占用的空间增加了不少,又消耗了大量的电能。Flex Logix表示,它为可重构芯片开发的互连技术和tile-based架构将使AI系统只需要1个DRAM芯片的带宽,且功耗仅为十分之一。 图片来源:Flex Logix NMAX512 tile的架构。 位于加州山景城的Flex Logix公司已经开始将一种新的嵌入式现场可编程门阵列(eFPGA)架构商业化。但经过一番探索后,其创始人之一Cheng C. Wang意识到,这项技术可以加快神经网络的速度。 神经网络由连接和表示连接强度的“权重”组成。另一位创始人Geoff Tate解释说,一个好的AI芯片需要两样东西。一种是一些做关键“推断”计算(即乘法和累加)的电路。“但更困难的是,你必须非常擅长引入所有这些权重,以便其乘法器总能得到它们需要的数据,从而进行所需的数学运算。Wang意识到我们在FPGA的互连方面所拥有的技术,他可以对它做适应性改造,来创建一种非常擅长快速高效地加载权重、高性能和低功耗的架构。” 需要快速连续地将数百万个权重加载到网络中,这就是每秒要做数万亿次到数十万亿次运算的AI系统为什么需要那么多DRAM芯片的原因。DRAM芯片上的每个引脚每秒最多可以传输4Gb数据,因此要达到所需的每秒数百Gb的数据传输速度,就需要多个芯片。 在为FPGA开发最初的技术时,Wang注意到,这些芯片有约80%的面积互连,因此他寻求一种能够缩小互连面积并考虑到更多逻辑的架构。他和他在加州大学洛杉矶分校的同事对一种称为folded-Beneš网络的电信架构做了适应性改造来完成这项工作。这使得FPGA架构看起来像一堆逻辑和SRAM的瓦片(tile)。 图片来源:Flex Logix Flex Logix公司表示,在芯片中构建分布式SRAM可加快计算速度并降低功耗。 Tate说,在这种专用互连方案中使用分布式SRAM最终会对深度学习的DRAM带宽问题产生重大影响。“我们正在用芯片上的SRAM取代DRAM带宽。” 图片来源:Flex Logix 若干NMAX tile可以置于一个芯片上并连在一起,以扩大计算能力。 用于Flex Logix的AI产品的tile称为NMAX,采用了台积电的16纳米技术,面积不到2平方毫米。每个tile都由一组核心组成,这些核心这些核心负责关键的乘法和累加计算、控制数据的处理和流动的可编程逻辑以及SRAM。这涉及三种不同类型的互连技术。一种tile上的所有零件连接在一起。另一种将tile与位于tile之间的附加SRAM及外部的DRAM相连接。第三种将相邻的tile连接在一起。 在深度学习领域,很难进行真正的横向比较。但Flex Logix的分析显示,将使用1个DRAM芯片的模拟的6×6tile的NMAX512阵列与使用8个DRAM 的Nvidia Tesla T4进行比较,结果是新架构每秒能识别4,600张图像,而Nvidia每秒识别3,920张图像。在一项名为YOLOv3的实时视频处理测试中,同样大小的NMAX阵列可达到每秒22万亿次运算,而使用的DRAM带宽是其他系统的十分之一。 Tate表示,首批NMAX芯片的设计将于2019年下半年送至代工厂以便进行制造。 Flex Logix将波音公司视作其高吞吐量嵌入式FPGA产品的客户之一。但Tate承认,与神经网络相比,嵌入式FPGA是个很难卖的产品。“嵌入式FPGA是一项很好的业务,但是推理可能很快就会超越它。”Tate说。
原文标题:Flex Logix公司称它解决了深度学习的DRAM问题 文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师学会】欢迎添加关注!文章转载请注明出处。
收藏 人收藏
分享:

评论

相关推荐

深度学习通往人类水平人工智能的挑战

2018年11月7日晚,被称为“深度学习三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yosh....
的头像 人工智能学家 发表于 11-15 15:07 51次 阅读
深度学习通往人类水平人工智能的挑战

第三季DRAM产值再创新高 原厂获利能力恐已见顶

根据集邦咨询半导体研究中心(DRAMeXchange)调查显示,2018年第三季DRAM整体产业营收....
发表于 11-15 13:43 19次 阅读
第三季DRAM产值再创新高 原厂获利能力恐已见顶

怎么用Python玩GTA5?跟着教程玩!

好了,第一步,我们如何实现读取屏幕画面?我一直在想可以做,但还真没想过怎么做。所以,Google!我....
的头像 马哥Linux运维 发表于 11-15 12:55 107次 阅读
怎么用Python玩GTA5?跟着教程玩!

我们需要知道怎样的人工智能

智能意味着“获取和应用知识和技能的能力”。如今,机器可以做到这一点,通过机器学习和深度学习,它们甚至....
的头像 AI人工智能D1net 发表于 11-15 11:10 96次 阅读
我们需要知道怎样的人工智能

使用英特尔®至强®可扩展处理器和OpenVINO™工具包加快深度学习推理速度

除了精准医疗,越来越多的医疗机构都在使用深度学习推理来更快、更准确地查看患者的医学图像。同时,随着医....
的头像 知IN 发表于 11-15 11:07 121次 阅读
使用英特尔®至强®可扩展处理器和OpenVINO™工具包加快深度学习推理速度

新的内存即将到来 给国内的DDR内存制造厂商当头一棒

早在2017年,国内公司进军内存产业的消息便一直甚嚣尘上,其中的代表便是紫光公司,拥有国家政策与资金....
发表于 11-15 08:58 51次 阅读
新的内存即将到来 给国内的DDR内存制造厂商当头一棒

三星净利润继续上涨 存储芯片需求持续强劲

对于三星来说,真正扛起整个公司利润的还是半导体业务。
发表于 11-15 08:36 26次 阅读
三星净利润继续上涨 存储芯片需求持续强劲

如何进行卷积神经网络的细胞核智能分割研究

在许多疾病的病理学诊断中,细胞核的形状、特征的变化是病变发生与否的重要依据,利用计算机智能分割出病理....
发表于 11-14 17:34 19次 阅读
如何进行卷积神经网络的细胞核智能分割研究

如何使用蝙蝠优化算法的网络入侵检测模型提高入侵检测的正确率

网络入侵具有突发性和隐蔽性等特点,传统的技术很难描述其变化规律,这导致入侵检测正确率非常的低。为提高....
发表于 11-14 17:34 15次 阅读
如何使用蝙蝠优化算法的网络入侵检测模型提高入侵检测的正确率

西数发布了新款内存扩展固态盘 可优化内存系统容量与性能

根据西部数据官方的消息,西数发布了新款Ultrastar® DC ME200 内存扩展固态盘,可优化....
发表于 11-14 17:02 97次 阅读
西数发布了新款内存扩展固态盘 可优化内存系统容量与性能

看一看本届高交会,机器人创新生态将会秀出哪些漂亮的回旋踢吧!

优地机器人同样是今年第一次来到机器人生态的展区,作为迎宾机器人的先行者,于2016年推出第一代服务机....
的头像 机器人创新生态 发表于 11-14 15:08 153次 阅读
看一看本届高交会,机器人创新生态将会秀出哪些漂亮的回旋踢吧!

值得研究的四大机器学习策略分析

机器学习有四种广受认可的形式:监督式、无监督式、半监督式和强化式。在研究文献中,这些形式得到了深入的....
发表于 11-14 10:17 32次 阅读
值得研究的四大机器学习策略分析

如何使用迁移学习的分层注意力网络情感分析来算法的详细资料概述

文本情感分析的目的是判断文本的情感类型。传统的基于神经网络的研究方法主要依赖于无监督训练的词向量,但....
发表于 11-14 09:56 17次 阅读
如何使用迁移学习的分层注意力网络情感分析来算法的详细资料概述

GitHub上25个最受欢迎的开源机器学习库

除了 TensorFlow 、Keras 和 Scikit-learn 之外,Apache 的 MX....
的头像 电子发烧友网工程师 发表于 11-14 09:23 227次 阅读
GitHub上25个最受欢迎的开源机器学习库

谷歌大脑提出了一种简单的方法,用于将概率编程嵌入到深度学习生态系统

要在程序中指定随机选择,我们使用了Edward的RandomVariables。RandomVari....
的头像 新智元 发表于 11-14 09:15 591次 阅读
谷歌大脑提出了一种简单的方法,用于将概率编程嵌入到深度学习生态系统

基于BP神经网络的手势识别系统

  摘 要:本文给出了采用ADXL335加速度传感器来采集五个手指和手背的加速度三轴信息,并通过ZigBee无线网络传输来提取手...
发表于 11-13 16:04 69次 阅读
基于BP神经网络的手势识别系统

闪存物理结构,闪存器件原理

图3-4是闪存芯片里面存储单元的阈值电压分布函数,横轴是阈值电压,纵轴是存储单元数量。其实在0或1的....
的头像 ssdfans 发表于 11-13 15:44 222次 阅读
闪存物理结构,闪存器件原理

联电声明反击美诉讼战与美光设计架构完全不同

联华电子同意与晋华公司联合开发DRAM工艺,这是一个与联华电子晶圆专工服务完全分开的单独项目,在做成....
的头像 DIGITIMES 发表于 11-13 14:29 266次 阅读
联电声明反击美诉讼战与美光设计架构完全不同

联电严肃对待美方指控 全力应对这场诉讼

联电公司日前又发布了新的声明,强调联电已经有超过15年的DRAM技术开发经验,与美光公司的DRAM设....
的头像 电子发烧友网工程师 发表于 11-13 08:40 249次 阅读
联电严肃对待美方指控 全力应对这场诉讼

深入了解到Google是如何助力企业抓住数字商机

谷歌翻译支持 133 种语言。搭载 Word Lens,可实现英汉之间的即时识别翻译。只需在手机上打....
的头像 TensorFlow 发表于 11-12 17:13 520次 阅读
深入了解到Google是如何助力企业抓住数字商机

基于深度学习的人脸识别技术全解

全面解析人脸识别技术原理、领域人才情况、技术应用领域和发展趋势。
的头像 悟空智能科技 发表于 11-12 14:54 2188次 阅读
基于深度学习的人脸识别技术全解

非局部神经网络,打造未来神经网络基本组件

将非局部计算作为获取长时记忆的通用模块,提高神经网络性能在深度神经网络中,获取长时记忆(long-range dependency)至关重要...
发表于 11-12 14:52 126次 阅读
非局部神经网络,打造未来神经网络基本组件

面对美国起诉 联电全力并积极地自我防卫

台湾联电日前遭美国司法部起诉,被指控与福建晋华共谋窃取美光商业机密,引发各界关注。 联电昨晚正式发布....
的头像 中国半导体论坛 发表于 11-12 14:22 163次 阅读
面对美国起诉 联电全力并积极地自我防卫

开源工具就是你数据科学入门时所需的全部内容

如你所见,它返回一个列表,每个数字预测训练集中每个记录的武器。我们之所以看到的是数字而不是武器名称,....
的头像 电子发烧友网工程师 发表于 11-12 14:15 155次 阅读
开源工具就是你数据科学入门时所需的全部内容

七大大咖嘉宾主题报告,指明AI发展新趋势

大会的第一位嘉宾是亚马逊资深主任科学家、Alexa&Echo 技术负责人 Nikko Strom,他....
的头像 电子发烧友网工程师 发表于 11-12 10:55 465次 阅读
七大大咖嘉宾主题报告,指明AI发展新趋势

CSDN三倍速定律,透过技术社区看未来趋势

最近,我们针对一些AI Top公司做了一些调查报告,希望了解这些大公司的人才分布,公开论文的发表情况....
的头像 电子发烧友网工程师 发表于 11-12 10:51 281次 阅读
CSDN三倍速定律,透过技术社区看未来趋势

专家告诉你中国如何成为AI头雁

那中国目前的AI发展有哪些短板需要补齐呢?杨静认为,中国在人工智能产业发展里存在“脚重头轻”症状,具....
的头像 新智元 发表于 11-12 10:25 267次 阅读
专家告诉你中国如何成为AI头雁

在数据科学领域,真正的“全科专家”屈指可数

当我还在大学读书的时候,我写了一篇关于数据科学和建筑能源审计的长论文,这是我第一个真正意义上的数据科....
的头像 论智 发表于 11-12 09:42 262次 阅读
在数据科学领域,真正的“全科专家”屈指可数

词对嵌入技术,可以改善现有模型在跨句推理上的表现

这种做法其实和词嵌入一脉相承。词嵌入同样面临计算所有上下文(softmax)过于复杂的问题。因此,w....
的头像 论智 发表于 11-12 09:38 193次 阅读
词对嵌入技术,可以改善现有模型在跨句推理上的表现

如何用单独的GPU,在CIFAR-10图像分类数据集上高效地训练残差网络

现在我们假设在一个英伟达Volta V100 GPU上用100%的计算力,训练将需要多长时间。网络在....
的头像 论智 发表于 11-12 09:35 228次 阅读
如何用单独的GPU,在CIFAR-10图像分类数据集上高效地训练残差网络

DRAM研制的集成电路公司遭到美国制裁

自特朗普上任以来,各种国家保护主义的措施接踵而来,不仅是各种“退群”,诸如“丰田汽车如果不在美国建厂....
的头像 台电存储 发表于 11-10 10:50 637次 阅读
DRAM研制的集成电路公司遭到美国制裁

《深度学习500问》通过问答的形式对深度学习相关的各类热点问题进行梳理阐述

本章开始进入主题,为了描述神经网络,书中从最简单的神经网络说起,然后层层深入,列举了神经网络的常用模....
的头像 新智元 发表于 11-10 10:43 375次 阅读
《深度学习500问》通过问答的形式对深度学习相关的各类热点问题进行梳理阐述

OpenAI的研究人员开发了一套基于能量的神经网络模型

训练数据由(注意掩膜、状态)的轨迹组成,提前生成的轨迹用于确认我们希望模型学习的特定概念。我们为给定....
的头像 新智元 发表于 11-10 10:34 397次 阅读
OpenAI的研究人员开发了一套基于能量的神经网络模型

新书《解析深度学习:卷积神经网络原理与视觉实践》试读

我们知道,深度神经网络模型复杂的解空间中存在非常多的局部最优解,但经典批处理随机梯度下降法(mini....
的头像 新智元 发表于 11-10 10:23 419次 阅读
新书《解析深度学习:卷积神经网络原理与视觉实践》试读

深度学习在可解释性推理方向上的进展

所以网络学习特征向量,和未见分类一起保存于可微记忆块之中。这一表示不断发展,给了神经网络学习“如何快....
的头像 论智 发表于 11-10 10:07 444次 阅读
深度学习在可解释性推理方向上的进展

搭建了一款GIF动图生成器,其中使用的是OpenCV

ImageMagick是一个跨平台的、基于命令行的工具,能提供多种图片处理功能,例如只用一行指令就能....
的头像 论智 发表于 11-10 09:27 194次 阅读
搭建了一款GIF动图生成器,其中使用的是OpenCV

申请数据科学家职位的经验分享

这里是一些例子:如果你需要参加一个MOOC课程学习一些基础,那很好。但不要陷入MOOC螺旋:MOOC....
的头像 论智 发表于 11-10 09:24 213次 阅读
申请数据科学家职位的经验分享

存储芯片供给过剩 价格下行趋势确立

因为英特尔14纳米x86 CPU 产能短缺,比特币价格下跌造成的中低阶挖矿机需求不振,及新兴市场货币....
发表于 11-09 17:37 253次 阅读
存储芯片供给过剩 价格下行趋势确立

为何我们不把机器学习更广泛地应用在文件压缩方面呢?

这篇文章告诉我们:通过神经网络,在带宽相同的条件下,用户体验将能提高43%,或者在带宽缩减17%的条....
的头像 中国人工智能学会 发表于 11-09 15:45 341次 阅读
为何我们不把机器学习更广泛地应用在文件压缩方面呢?

南亚科:单月月营收创近7个月新低

DRAM大厂南亚科昨日公布10月合并营收67.26亿元,受到平均销售单价下滑与需求放缓影响,营收月减....
的头像 芯闻社 发表于 11-09 14:23 436次 阅读
南亚科:单月月营收创近7个月新低

2018TowerJazz全球技术研讨会美国站的活动,芯禾科技现场将带来多项技术演示

该流程无缝集成在Cadence Virtuoso平台中,并使用Xpeedic加速矩量法引擎和人工神经....
的头像 Xpeedic芯禾科技 发表于 11-09 11:53 376次 阅读
2018TowerJazz全球技术研讨会美国站的活动,芯禾科技现场将带来多项技术演示

晋华原计划年底试产的DRAM计划或已无法实现

在美国的出口禁令下,福建晋华原计划年底试产的DRAM计划或已无法实现。台媒《自 由 时报》报道称,由....
的头像 ICChina 发表于 11-09 11:45 517次 阅读
晋华原计划年底试产的DRAM计划或已无法实现

南茂明年营运续扬 产能估双位数成长

封测厂南茂昨(8)日召开线上法说,董事长郑世杰表示,虽然半导体景气仍不明朗,南茂受惠标准型DRAM订....
发表于 11-09 09:32 155次 阅读
南茂明年营运续扬 产能估双位数成长

美光新10纳米DRAM已量产 攻移动设备市场

智慧型手机和平板电脑这样的移动设备,现在通常都会配备足够的存储器(RAM)来与电脑桌机匹敌,但容量(....
发表于 11-09 09:25 326次 阅读
美光新10纳米DRAM已量产 攻移动设备市场

是什么让BERT与众不同?如何使用BERT?

如果双向如此强大,为什么以前没有这样实现?在训练单向模型时,预测词时必须只能基于句子中上文的单词。然....
的头像 TensorFlow 发表于 11-08 15:46 422次 阅读
是什么让BERT与众不同?如何使用BERT?

如何发挥边缘人工智能的潜力

这些基于DSP的平台包括由标量和矢量DSP处理器及硬件加速器组成的混合架构,以及用于简化软件开发的....
的头像 电子发烧友网工程师 发表于 11-08 14:33 219次 阅读
如何发挥边缘人工智能的潜力

浅析自动驾驶的发展历程、市场规模态势及国内外厂家的布局

本报告对自动驾驶的发展历程、产业链图谱、市场规模态势及国内外厂家的布局进行了详细的阐述和分析。
的头像 智车科技 发表于 11-08 11:03 956次 阅读
浅析自动驾驶的发展历程、市场规模态势及国内外厂家的布局

美的与英特尔的人工智能专家用一套工业视觉检测云平台为智能制造“点睛”

美的工业视觉检测云平台采用了这样的架构:前端图像收集-云端大数据分析-深度学习模式识别,解决视觉检测....
的头像 电子发烧友网工程师 发表于 11-08 10:14 578次 阅读
美的与英特尔的人工智能专家用一套工业视觉检测云平台为智能制造“点睛”

Intel 以高达 48 核心的Cascade Lake advanced performance 回应AMD Epyc

对一般的消费者,超过4核心以上不一定能为娱乐或是一般轻度负载应用带来更高的性能,但伴随着越来越多个人....
发表于 11-08 09:51 195次 阅读
Intel 以高达 48 核心的Cascade Lake advanced performance 回应AMD Epyc

FPGA DRAM数据错位

使用NI的 FPGA,开辟了一个1294*1040大小的DRAM,在60HZ帧频下按地址一个MCK一个地址的刷新DRAM中的数据,也...
发表于 11-07 23:57 80次 阅读
FPGA DRAM数据错位

ApIC32 MZ嵌入式图形与Stacked DRAM(DA)启动器套件LED存在问题

大家好,我有ApIC32 MZ嵌入式图形与Stacked DRAM(DA)启动器套件(P/N:DMS3200)。我已经成功地完成了所有的工...
发表于 11-07 15:13 42次 阅读
ApIC32 MZ嵌入式图形与Stacked DRAM(DA)启动器套件LED存在问题

NUC8i7BEH DRAM频率不稳定

我购买了新的NUC8i7BEH,并配对: HyperX金士顿科技Impact 32GB套件(2x16GB)2400MHz DDR4 CL14 260针SO...
发表于 10-26 14:58 46次 阅读
NUC8i7BEH DRAM频率不稳定

IC Insights:DRAM市场即将放缓 国产品牌稳步挺近

在过去两年中,全球DRAM制造商一直在以近乎满负荷的速度运营着自己的内存芯片厂,从而导致了DRAM价格的持续上涨。在IC...
发表于 10-18 17:05 180次 阅读
IC Insights:DRAM市场即将放缓 国产品牌稳步挺近

DRAM市场起落是产业常态?

繁荣与萧条交错——这正是记忆体产业长期以来的景气循环。除了需求多样化以及中国供应商崛起,市场的周期性起落会一直是常态吗?...
发表于 09-28 10:25 393次 阅读
DRAM市场起落是产业常态?

刚开始进行深度学习的同学怎么选择合适的机器配置

怎么为自己的深度学习机器选择合适的GPU配置呢?对于那些一直想进行深度学习研究的同学来说,一直是个比较纠结的问题,既要考...
发表于 09-19 13:56 437次 阅读
刚开始进行深度学习的同学怎么选择合适的机器配置

天睿视迅深度学习 nvidia tk1 开发板

产品概述:Tir-TK1V200是基于NVIDIA CD575M开发的一款AI深度学习模块。其NVIDIA处理器带有4+1的ARM Co...
发表于 09-17 16:42 397次 阅读
天睿视迅深度学习 nvidia tk1 开发板

对于国内存储来说,市场崩盘到底是福是祸?

据CNBC等外媒报道,存储市况近几周来有恶化迹象,DRAM需求逐渐趋疲,库存、定价压力与日俱增,而NAND型快闪存储的供...
发表于 09-11 09:59 1254次 阅读
对于国内存储来说,市场崩盘到底是福是祸?