
; 如果HBM容量不够用,KV缓存就往外移一层,进入主存(main memory)。主存通常挂载在CPU上——比如在H100系统中,往往连接的是英特尔或AMD的x86 CPU;在英伟达最新的Blackwell系统中,主存则挂载在Grace CPU上。这部分内存的容量通常是GPU上HBM的4到20倍——容量更大,但速度更慢、距离更远。 &n
; 有趣的是,在硅谷,大家对AI的热情高涨,很容易陷入自己的信息圈,因为周围的人都深刻理解这项技术的深度,也知道各种令人兴奋的进展。但当我和不在这个行业的朋友聊,情况就不一样了。有的朋友确实说:"这东西让我能在自己的行业做出难以置信的事情",他们真的在创新。但也有更多的朋友,他们看到的是LLM在ChatGPT上的表现和股市的波动,却并没有真正看清楚未来二十年将会发
当前文章:http://www.vkzvhox.cn/pg42/loay1tx.doc
发布时间:00:40:55