存储加速fpga_FPGA用到的各个存储器问题

1. 如何用fpga实现算法的硬件加速

首先，利用传统的软件技巧来优化算法，然后将其转向定制指令以加速算法。我们将讨论不同实现方法的性能比较和折衷。
CRC算法可用来校验数据在传输过程中是否被破坏。这些算法很流行，因为它们具有很高的检错率，而且不会对数据吞吐量造成太大影响，因为CRC校验位被添加进数据信息中。但是，CRC算法比一些简单的校验和算法有更大的计算量要求。尽管如此，检错率的提高使得这种算法值得去实施。
一般说来，发送端对要被发送的消息执行CRC算法，并将CRC结果添加进该消息中。消息的接收端对包括CRC结果在内的消息执行同样的CRC操作。如果接收端的结果与发送端的不同，这说明数据被破坏了。
CRC算法是一种密集的数学运算，涉及到二元模数除法(molo-2 division)，即数据消息被16或32位多项式(取决于所用CRC标准)除所得的余数。这种操作一般通过异或和移位的迭代过程来实现，当采用16位多项式时，这相当于每数据字节要执行数百条指令。如果发送数百个字节，计算量就会高达数万条指令。因此，任何优化都会大幅提高吞吐量。
代码列表1中的CRC函数有两个自变量(消息指针和消息中的字节数)，它可返回所计算的CRC值(余数)。尽管该函数的自变量是一些字节，但计算要逐位来执行。该算法并不高效，因为所有操作(与、移位、异或和循环控制)都必须逐位地执行。
列表1：逐位执行的CRC算法C代码。
/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))
crc crcSlow(unsigned char const message[], int nBytes)
{
crc remainder = 0;
/*
* Perform molo-2 division, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
/*
* Bring the next byte into the remainder.
*/
remainder ^= (message[byte] << (WIDTH - 8));
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
}
/*
* The final remainder is the CRC result.
*/
return (remainder);
}
1.传统的软件优化
图3：带CRC外围电路和DMA的系统模块示意图。
让我们看一下如何利用传统的软件技巧来优化CRC算法。因为CRC操作中的一个操作数，即多项式(除数)是常数，字节宽CRC操作的所有可能结果都可以预先计算并存储在一个查找表中。这样，通过一个读查找表动作就可让操作按逐个字节执行下去。
采用这一算法时，需要将这些预先计算好的值存储在存储器中。选择ROM或RAM都可以，只要在启动CRC计算之前将存储器初始化就行。查找表有256个字节，表中每个字节位置包含一个CRC结果，共有256种可能的8位消息(与多项式大小无关)。
列表2示出了采用查找表方法的C代码，包括生成查找表crcInit()中数值的代码。
列表2：采用查找表方法的CRC算法C代码。
crc crcTable[256];
void crcInit(void)
{
crc remainder;
/*
* Compute the remainder of each possible dividend.
*/
for (int dividend = 0; dividend < 256; ++dividend)
{
/*
* Start with the dividend followed by zeros.
*/
remainder = dividend << (WIDTH - 8);
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
/*
* Store the result into the table.
*/
crcTable[dividend] = remainder;
}
} /* crcInit() */
crc crcFast(unsigned char const message[], int nBytes)
{
unsigned char data;
crc remainder = 0;
/*
* Divide the message by the polynomial, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
data = message[byte] ^ (remainder >> (WIDTH - 8));
remainder = crcTable[data] ^ (remainder << 8);
}
/*
* The final remainder is the CRC.
*/
return (remainder);
} /* crcFast() */
整个计算减少为一个循环，每字节(不是每位)有两个异或、两个移位操作和两个装载指令。基本上，这里是用查找表的存储空间来换取速度。该方法比逐位计算的方法要快9.9倍，这一提高对某些应用已经足够。如果需要更高的性能，可以尝试编写汇编代码或增加查找表容量以挤出更多性能来。但是，如果需要20、50甚至500倍的性能提高，就要考虑采用硬件加速来实现该算法了。
表1：各种规模的数据模块下CRC算法测试比较结果。
2.采用定制指令方法
CRC算法由连续的异或和移位操作构成，用很少的逻辑即可在硬件中简单实现。由于这一硬件模块仅需几个周期来计算CRC，采用定制指令来实现CRC计算要比采用外围电路更好。此外，无须涉及系统中任何其它外围电路或存储器。仅需要一个微处理器来支持定制指令即可，一般是指可配置微处理器。
当在硬件中实现时，算法应该每次执行16或32位计算，这取决于所采用的CRC标准。如果采用CRC-CCITT标准(16位多项式)，最好每次执行16位计算。如果使用8位微处理器，效率可能不太高，因为装载操作数值及返回CRC值需要额外的周期。图2示出了用硬件实现16位CRC算法的内核。
信号msg(15..0)每次被移入异或/移位硬件一位。列表3示出了在64KB数据模块上计算CRC的一些C代码例子。该实例是针对Nios嵌入式处理器。
列表3：采用定制指令的CRC计算C代码。
unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
unsigned short* pointer;
unsigned short word;
/*
* initialize crc reg to 0xFFFF
*/
word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
/*
* calculate CRC on block of data
* nm_crc() is the CRC custom instruction
*
*/
for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
word = nm_crc(*pointer, 0) return (word);
}
int main(void)
{
#define data_block_begin (na_onchip_memory)
#define data_block_end (na_onchip_memory + 0xffff)
unsigned short crc_result;
unsigned int data_block_length = (unsigned short *)data_block_end - (unsigned short
*)data_block_begin + 1;
crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}
采用定制指令时，用于计算CRC值的代码是一个函数调用，或宏。当针对Nios处理器实现定制指令时，系统构建工具会生成一个宏。在本例中为nm_crc()，可用它来调用定制指令。
在启动CRC计算之前，定制指令内的CRC寄存器需要先初始化。装载初始值是CRC标准的一部分，而且每种CRC标准都不一样。接着，循环将为数据模块中的每16位数据调用一次CRC定制指令。这种定制指令实现方式要比逐位实现的方法快27倍。
3.CRC外围电路方法
如果将CRC算法作为硬件外围电路来实现，并利用DMA将数据从存储器转移到外围电路，这样还可以进一步提高速度。这种方法将省去处理器为每次计算而装载数据所需要的额外周期。DMA可在此外围电路完成前一次CRC计算的时钟周期内提供新的数据。图3示出了利用DMA、CRC外围电路来实现加速的系统模块示意图。
在64KB数据模块上，利用带DMA的定制外围电路可获得比逐位计算的纯软件算法快500倍的性能。要知道，随着数据模块规模的增加，使用DMA所获得的性能也随之提高。这是因为设置DMA仅需很少的开销，设置之后DMA运行得特别快，因为每个周期它都可以传递数据。因此，若只有少数字节的数据，用DMA并不划算。
这里所讨论的所有采用CRC-CCITT标准(16位多项式)的算法都是在Altera Stratix FPGA的Nios处理器上实现的。表1示出了各种数据长度的测试比较结果，以及大致的硬件使用情况(FPGA中的存储器或逻辑单元)。
可以看出，算法所用的硬件越多，算法速度越快。这是用硬件资源来换取速度。

2. 如何用FPGA加速卷积神经网络

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。
本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。
前言
1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。
时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。
“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。
今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。
从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。
其中最疯狂的是就是Google，已经收购了 11 家人工智能创业公司，其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例，仅在今年就已经收购了 3 家创业公司，Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。
当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradient descent（梯度下降算法）、Backpropagation（反向传播算法）、Convolutional Neural Network（卷积神经网络）、受限玻耳兹曼机（Restricted Boltzmann Machine）等。
如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基网络关于玻耳兹曼机的介绍。维基网络是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。
在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。
为什么要学习深度学习
首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。
他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。
而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。
其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。
这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。
但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。
如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。
神经网络快速入门
如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”，容易混淆是这样两个完全不同的概念。
一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。
对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。
今天就我们来看一看，从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。男主角施瓦辛格有一句台词：
“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。
1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。
生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。
90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。
在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在着名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。
与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。
很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。
这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。
利用神经网络构建分类器，这个神经网络的结构是怎样的？
其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。
节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。
节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。
如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。
最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。
除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。
简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇着名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。
程序员需要的工具箱
对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。
硬件
从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。
这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。DSP相比而言管理能力较弱，但是强化了特定的运算能力。
这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。但由于计算单元数量多，更适合整块数据进行流处理的算法。
FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。
这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。
另外，从成本上还可以做一个对比。p2.8xLarge 实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是￥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。
云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！
软件
深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。
Scikit-learn是最为流行的一个Python机器学习库。它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现；基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。
Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。
Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。
Jupyter notebook 是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。
Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用，程序的效率非常出色。Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。
深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。
用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络（Long-Short Term Memory, LSTM）。
关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解，用我自己的语言解释Tensor 就是“N维数组”而已。
使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念：它使用图 (Graph) 来表示计算任务；在被称之为会话 (Session) 的上下文 (context) 中执行图；使用 Tensor 表示数据；通过变量 (Variable) 维护状态；使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据。
一句话总结就是，TensorFlow 就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。
TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA 的版本是7.5。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。
此外，对于使用Python 语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。常规的Tensorsorflow的安装很简单，一条命令足矣：
$ pip3 install —upgrade
如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：
$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
TensorFlow有很多优点。首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。
第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。
参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的 parallelisation。尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。
第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R 等。
在这里我想给大家展示一个应用Tensorflow 的例子。这个例子的代码托管在这个网址上。白俄罗斯的现代印象派艺术家Leonid Afremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。
于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow 去学习一下Leonid Afremov 的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。利用Tensorflow 以及上面提到的那个项目的代码，在一个AWS 的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。
这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星 VGG。这个模型非常好，特点就是“go depper”。
TensorFlow 做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高着名的作品”星月夜“的风格就加工成了这样新的视频风格。
可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。
结束语
未来究竟是什么样，我们没有办法预言。有位作家Ray Kurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？
中国人工智能的发展
人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。
所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。
中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。
时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。
中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。
另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。
对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。
硅谷创新企业
硅谷虽然去过许多回，但一直无缘在那里长期工作。在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。仅以硅谷区域的公司为例：
Captricity，提供了手写数据的信息提取；
VIVLab，针对语音识别开发了虚拟助手服务；
TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；
还有提供无人驾驶解决方案的NetraDyne。
这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。

3. fpga sha3 加速比显卡厉害吗

通信密集型任务中，FPGA相比GPU、CPU的优势更大。
①吞吐量：FPGA可以直接接上40Gbps或者100Gbps的网线，以线速处理任意大小的数据包；而CPU则需要网卡把数据包接收过来；GPU也可以高性能处理数据包，但GPU没有网口，同样需要网卡，这样吞吐量受到网卡和（或）者CPU的限制。
②延迟:网卡把数据传给CPU，CPU处理后传给网卡，再加上系统中的时钟中断和任务调度增加了延迟的不稳定性。
综上所述，在数据中心里 FPGA 的主要优势是稳定又极低的延迟，适用于流式的计算密集型任务和通信密集型任务。
FPGA 和 GPU 最大的区别在于体系结构，FPGA 更适合做需要低延迟的流式处理，GPU 更适合做大批量同构数据的处理。
成也萧何，败也萧何。缺少指令同时是 FPGA 的优势和软肋。每做一点不同的事情，就要占用一定的 FPGA 逻辑资源。如果要做的事情复杂、重复性不强，就会占用大量的逻辑资源，其中的大部分处于闲置状态。这时就不如用冯·诺依曼结构的处理器。
FPGA 和 CPU 协同工作，局部性和重复性强的归 FPGA，复杂的归 CPU。

4. 为什么CPU主频比FPGA快那么多，但是却说FPGA可以加速

我想你走进了一个误区。显然你分不清FPGA与通用CPU的本质区别。说实话FPGA可以做成CPU，例如一些32位RSIC软核，但是也仅限于此. 1:FPGA不能单纯的看做一个芯片，更准确的应该做一个实现台，是粘合接口逻辑，数据流处理，做简单处理运算的平台。没有人傻着会拿一个高端FPGA做一款匹敌英特尔的处理器，高端的芯片动辄上万块，你认为它是用来实现英特尔i7的么?何况通用处理器并不只是数字单元的堆叠。用FPGA去实现一个奔腾?得不偿失。当然我们可以用FPGA去实现一个简单的ARM内核。 2:FPGA主要用在数据流处理，视频处理，数据采集等方面，所以在数据交换传输。数字机顶盒，数据采集卡等领域用的最多，目前高端FPGA集成了更多的DSP模块，高速串行收发器，嵌入式硬核，嵌入式RAM,或者FLASH，这些措施增强了它强大的系统集成功能。也就是说，FPGA功能越来越多，它可以替代系统更多的部分，把它们融入到FPGA中去。加大了系统的集成度，加上FPGA的灵活性，使他在当今板级设计领域变得越来越重要。 3:问这个问题，其实并没有实际意义，但是可以看出来你只是个新新人类而已。在FPGA中形容性能的词是资源，也就是说去衡量一个FPGA的高与低，主要是看内部资源容量(等效门)，看逻辑总量，看时钟管理单元个数，看PLL，看分布式RAM容量，看硬核个数，看DSP数目，看高速串行个数，看硬核接口块......等等，而不是单单看最高工作频率。而通用CPU最主要的参数就是浮点运算速度和主频了。一个侧重于数据流处理，一个侧重于指令运算。 4:总之:FPGA和通用CPU没什么可比性，也没有必要谁去实现谁，因为各自侧重不一样。目前，FPGA不会去替代通用CPU，通用CPU更不会去替代FPGA。可以告诉你，现在集成到FPGA里最强的CPU也就是ARM9处理器硬核了，你会拿它去拼什么CPU?不要纠结了，洗洗睡吧!

5. 如何提高ddr3的存取效率 fpga

1.优化数据存储结构，就是把有可能同时用到的数据到一起；
2.看设计是否适合加个Cache

6. FPGA用到的各个存储器问题

首先flash和EPCS其实有一个就可以了，memory—on chip ，ROM在FPGA内部，FLASH，SRAM，SDRAM，EPCS则是外扩的存储器。对于一般的系统，会把程序（包括逻辑块和NIOS的C代码）通过工具（内嵌在nios IDE中）烧写到flash或EPCS中（当然你的数据文件也是可以存在这里面的，地址要在程序空间之后），上电后，FPGA从内部的一个ROM中引导程序（这个ROM是不需要用户操作的），然后将flash或EPCS中的程序加载到on_chip_ram或外部SRM，SDRAM什么的，这取决于你SOPC定制的时候，在CPU的异常复位地址指向on_chip_ram还是SRM，SDRAM等。
所以对于一个简单的系统应该是这样的启动流程：
SOPC定制（程序烧写到什么地方，复位地址在哪）-->编写逻辑模块和nios程序-->调试，烧写程序-->启动系统-->boot_loader从ROM启动将程序搬入on_chip_ram或外部SRM，SDRAM-->程序跳转到on_chip_ram或外部SRM，SDRAM的0地址开始执行用户的程序。
over
希望你懂了~~
还不清楚可以参考一些书籍、论坛什么的，现在的FPGA技术已经很成熟了，书籍蛮多~~

7. FPGA在计算机和存储行业领域应用有哪些eimkt

FPGA在计算机和存储行业领域的应用有：

1、FPGA在数据采集领域的应用

由于自然界的信号大部分是模拟信号，因此一般的信号处理系统中都要包括数据的采集功能。通常的实现方法是利用A/D转换器将模拟信号转换为数字信号后，送给处理器，比如利用单片机（MCU）或者数字信号处理器（DSP）进行运算和处理。

对于低速的A/D和D/A转换器，可以采用标准的SPI接口来与MCU或者DSP通信。但是，高速的A/D和D/A转换芯片，比如视频Decoder或者Encoder，不能与通用的MCU或者DSP直接接口。在这种场合下，FPGA可以完成数据采集的粘合逻辑功能。

2、FPGA在逻辑接口领域的应用

在实际的产品设计中，很多情况下需要与PC机进行数据通信。比如，将采集到的数据送给PC机处理，或者将处理后的结果传给PC机进行显示等。PC机与外部系统通信的接口比较丰富，如ISA、PCI、PCI Express、PS/2、USB等。

传统的设计中往往需要专用的接口芯片，比如PCI接口芯片。如果需要的接口比较多，就需要较多的外围芯片，体积、功耗都比较大。采用FPGA的方案后，接口逻辑都可以在FPGA内部来实现了，大大简化了外围电路的设计。

在现代电子产品设计中，存储器得到了广泛的应用，例如SDRAM、SRAM、Flash等。这些存储器都有各自的特点和用途，合理地选择储存器类型可以实现产品的最佳性价比。由于FPGA的功能可以完全自己设计，因此可以实现各种存储接口的控制器。

3、FPGA在电平接口领域的应用

除了TTL、COMS接口电平之外，LVDS、HSTL、GTL/GTL+、SSTL等新的电平标准逐渐被很多电子产品采用。比如，液晶屏驱动接口一般都是LVDS接口，数字I/O一般是LVTTL电平，DDR SDRAM电平一般是HSTL的。

在这样的混合电平环境里面，如果用传统的电平转换器件实现接口会导致电路复杂性提高。利用FPGA支持多电平共存的特性，可以大大简化设计方案，降低设计风险。

(7)存储加速fpga扩展阅读：

FPGA的优点如下：

(1) FPGA由逻辑单元、RAM、乘法器等硬件资源组成，通过将这些硬件资源合理组织，可实现乘法器、寄存器、地址发生器等硬件电路。

(2) FPGA可通过使用框图或者Verilog HDL来设计，从简单的门电路到FIR或者FFT电路。

(3) FPGA可无限地重新编程，加载一个新的设计方案只需几百毫秒，利用重配置可以减少硬件的开销。

(4) FPGA的工作频率由FPGA芯片以及设计决定，可以通过修改设计或者更换更快的芯片来达到某些苛刻的要求（当然，工作频率也不是无限制的可以提高，而是受当前的IC工艺等因素制约）。

FPGA的缺点如下：

(1) FPGA的所有功能均依靠硬件实现，无法实现分支条件跳转等操作。

(2) FPGA只能实现定点运算。

8. fpga sdram存储速度

看你的位宽了，一般是16bit，就是 200M byte/s.
以近期的市场来看， DDR3在速度价格方面最好，轻松达到1G byte/s, 我手头的FPGA板子，内存带宽是7G byte/s

9. 为什么fpga计算比cpu快

CPU和GPU都属于冯·诺依曼结构，指令译码执行，共享内存。FPGA之所以比CPU、GPU更快，本质上是因为其无指令，无共享内存的体系结构所决定的。
冯氏结构中，由于执行单元可能执行任意指令，就需要有指令存储器、译码器、各种指令的运算器、分支跳转处理逻辑。而FPGA的每个逻辑单元的功能在重编程时就已经确定，不需要指令。

冯氏结构中使用内存有两种作用：①保存状态。②执行单元间的通信。
1）保存状态：FPGA中的寄存器和片上内存（BRAM）是属于各自的控制逻辑的，无需不必要的仲裁和缓存。
2）通信需求：FPGA每个逻辑单元与周围逻辑单元的连接在重编程时就已经确定了，并不需要通过共享内存来通信。
计算密集型任务中：
在数据中心，FPGA相比GPU的核心优势在于延迟。FPGA为什么比GPU的延迟低很多？本质上是体系结构的区别。FPGA同时拥有流水线并行和数据并行，而GPU几乎只有数据并行（流水线深度受限）。
处理一个数据包有10个步骤，FPGA可以搭建一个10级流水线，流水线的不同级在处理不同的数据包，每个数据包流经10级之后处理完成。每个处理完成的数据包可以马上输出。而GPU的数据并行方法是做10个计算单元，每个计算单元也在处理不同的数据包，但是所有的计算单元必须按照统一的步调，做相同的事情（SIMD）。这就要求10个数据包必须同进同出。当任务是逐个而非成批到达的时候，流水线并行比数据并行可实现更低的延迟。因此对流水式计算的任务，FPGA比GPU天生有延迟方面的优势。
ASIC在吞吐量、延迟、功耗单个方面都是最优秀的。但是其研发成本高，周期长。FPGA的灵活性可以保护资产。数据中心是租给不同租户使用的。有的机器上有神经网络加速卡，有的有bing搜索加速卡，有的有网络虚拟加速卡，任务的调度和运维会很麻烦。使用FPGA可以保持数据中心的同构性。
通信密集型任务中，FPGA相比GPU、CPU的优势更大。
①吞吐量：FPGA可以直接接上40Gbps或者100Gbps的网线，以线速处理任意大小的数据包；而CPU则需要网卡把数据包接收过来；GPU也可以高性能处理数据包，但GPU没有网口，同样需要网卡，这样吞吐量受到网卡和（或）者CPU的限制。
②延迟:网卡把数据传给CPU，CPU处理后传给网卡，再加上系统中的时钟中断和任务调度增加了延迟的不稳定性。
综上所述，在数据中心里 FPGA 的主要优势是稳定又极低的延迟，适用于流式的计算密集型任务和通信密集型任务。
FPGA 和 GPU 最大的区别在于体系结构，FPGA 更适合做需要低延迟的流式处理，GPU 更适合做大批量同构数据的处理。
成也萧何，败也萧何。缺少指令同时是 FPGA 的优势和软肋。每做一点不同的事情，就要占用一定的 FPGA 逻辑资源。如果要做的事情复杂、重复性不强，就会占用大量的逻辑资源，其中的大部分处于闲置状态。这时就不如用冯·诺依曼结构的处理器。
FPGA 和 CPU 协同工作，局部性和重复性强的归 FPGA，复杂的归 CPU

10. FPGA 配置存储器是什么,原理求详解。。。

1.理解为配置储存器，一般指我们fpga的配置程序储存的地方。多用串行flash也就是EPCS，有时例如我们也可以用nor flash。
2.理解为配置储存器，对储存器进行配置。FPGA的储存器配置我们多用ip核来进行配置，当然，IP核可以通过图形界面或者HDL来对参数进行修改以及设置。比如说一个fifo，ram或者rom等储存器。
正确配置好参数后，我们就可以使用这些memory了

存储加速fpga

与存储加速fpga相关的内容