| 采用CUDA机构的Fermi GPU |
可达到最新的4核CPU同样的性能,仅花费其十分之一的成本,二十分一的耗电量 |
| 448 CUDA 核心数 |
高达515亿次的双精度峰值可为一台工作站提供万亿次浮点运行性能,每个GPU的单精度峰值性能都超过亿万次 |
| ECC 显存 |
达到了工作站对计算精确度和可靠性的要求。对内存中的数据提供保护,提高了数据的完整性和应用程序的可靠性。ECC同样能保护注册文件,L1/L2缓存,共享内存和DRAM |
| 桌面集群性能 |
多GPU解决大型问题的速度比工作站上的小型服务器集群快 |
| 可达6GB的GDDR5显存 |
通过在直接连接到GPU的本地内存中保存更大的数据集,以最大限度的提高性能并减少数据传输 |
| NVIDIA 并行数据缓存 |
加速算法,如物理求解器,光线追踪,以及事先不知道数据地址的稀疏矩阵乘法。这包括,每个流多处理器模块一个可配置的L1告诉缓存和一个统一的
所有的处理器内核的L2缓存
|
| NVIDIA 千兆线程引擎 |
更快的上下文切换,10倍于之前结构以提高吞吐率,同时内核执行,优化的线程块调度 |
| 异步传输 |
当计算核心在处理其他数据的时候,Turbocharges通过PCIe总线进行数据传输来提高系统性能。即使是又大量数据传输要求的应用,如地震资料处理,都可以预先将数据传输到本地内存以最大限度的提高计算效率 |
| 拥有广泛语言和API支持的CUDA编程环境 |
选择的C,C++,OpenCL,DirectCompute,或Fortran来编写并行应用程序并利用“Fermi” GPU的创新架构
NVIDIA Parallel Nsight tool 可供Microsoft Visual Studio开发人员使用 |
| 高速PCI-Express 2.0 数据传输 |
最大限度的提高主机系统和Tesla处理器之间的带宽
开放的PCIe x16插槽,使得Tesla系统能工作在几乎任何PCIe兼容的主机系统
|