如何架设基于云的超级计算集群?
我通常在思考一个话题并且设法确定这个话题对于高性能计算读者来说是否感兴趣。例如,今天还有一个傻标题“发布台式电脑大小的超级计算机”。哇!我想也许有人正在做什么有趣的事情。打开这篇文章,我发现这是一个配置三个Nvidia Tesla c1060卡的电脑。
这不是新闻。这是把板卡插在一些PCI插槽中。我喜欢NVidia正在做的事情。但是,把板卡插到电脑中运行就大喊“超级计算机”对于像我这样的高性能计算爱好者来说有点太过分了。
我要再一次告诉这些人,这种做法也许是错误的。图形处理器计算是极好的东西。
NVidia正在做这些漂亮的事情。他们在很小的地方实现了大量的每秒浮点运算次数是值得祝贺的。但是,我发现PC厂商言过其实的宣传有些过分。让我们先后退一步,因为你也许感到疑惑我为什么对这个问题感到愤怒。
首先,你们也许不知道我使用的“hype”(大肆宣传)这个词是“hyperbole”(夸张法)的简写字。
这个意思是过度的或者夸张的。这是骂他们的委婉说法。第二,在这篇文章中,你可以用云计算、网格、绿色和集群替代超级计算机这个词。
从哪里开始呢。让我们看一看电暖气。电暖气是一种把电转换为热的设备。如果我买一台电暖气,打开包装箱并且打开电源,它就热了。
明白吗?接着往下说,如果我购买一台插入三个图形处理器卡的台式电脑,打开包装箱并且打开电源,它也会热起来并且在那里等待着。暖气发热,计算机在等待。如果我购买100台服务器,每台服务器配置8个处理器内核,并且全部打开这些服务器的电源,我就有8000个内核在等待着。
这个计算机还需要其它的东西。
为了帮助分析我的观点,我设计了一个小测验,看看你是一个高性能计算专家还是一个营销者。下面是第一个问题。
如果我购买1000台服务器,我会有一台(选择所有的答案)
A。
空间电热器
B。超级计算机
C。网格
D。云计算
如果你选择答案A,你是一个专家。如果你选择B、C和D,你也许在做一个很好的营销人员。但是,你的思路太狭窄。
高性能计算专家会认识到,单纯的硬件在没有安装正确的软件和进行合适的设置之前什么也不是。聪明的营销者会认识到根据行业进行最新的宣传,“Cloud Ready”标签应该放在“Grid Ready”的标签上。
这使我们来到下一个相关的问题。
浮点运算性能。下面是第二个问题。
你的计算机速度有多快?
A。真快
B。真、真快
C。真、真、真快
D。需要更多的信息
如果你选择答案D,那么,你是一个专家。
如果你对这篇文章的其它部分不感兴趣,你就回去工作吧。如果选择C,你就是一个非凡的营销人员。如果你选择A或者B,那么,我们需要谈论升级你的计算机,因为你需要“真、真、真快”的系统。
需要补充的是,当我阅读每秒一个浮点运算数量的时候,如果我没有看到基准测试的名称或者“高峰”的词,我会立即停止阅读,因为这个宣传机器正在大肆宣传。
我想起一家大公司的营销人员告诉我不要使用我运行NAS parallel LU benchmark基准测试的结果,因为每秒浮点运算数量不是其他人得到的数量。然后,他继续解释说每一个人都将得到每秒XX浮点运算。我应该报告那个数字。我推测他在谈论HPL数字。
但是,为了确定这个事,我问了这个事情。他说,有些事情我不懂。我报告了LU数字,因为我一直认为可靠性是好事,此外,我知道报告一个NAS测试的HPL数字的原因。
顺便再说几点。第一,一堆硬件就是那个东西。我曾经多次说过,许多机架的硬件并不是一台超级计算机。
高性能计算集群是用商品元件制造的。但是,这并不意味着商品PC厂商都能销售和支持超级计算机。当然,把这些词汇添加到网页或者说明书中是很容易的,但是,好的高性能计算厂商是很少的。第二,除了“你买不起的一种计算机”之外,超级计算机这个词汇没有严格的定义。
云计算、网格、集群、绿色计算也是如此。最后,任何过度的销售和过度的宣传都是反生产率的,特别是在你不知道你的客户需要什么的时候或者不知道什么东西能够提供一致的每秒浮点运算次数的时候。正如我对询问有关高性能计算市场的厂商说的那样,你知道你一直听说的那些火箭科学家的情况。
他们使用超级计算机同其他聪明的人使用的一样好。他们对结果、基准测试和新产品有很好的反应。你过度地销售或者言过其实地宣传产品将失去很多分。他们的是聪明人。向他们提供正确的数据,理解他们的需求,他们将做出正确的选择。