BIN周刊 - No.2505 自驾游

冰箱贴

大概是从最近两年起，太太养成了每到一个地方旅游，都会尽力带回一些冰箱贴回来的习惯……

技术

聊一聊 DeepSeek

春节自驾游期间，DeepSeek着实火了一把。说说我对DeepSeek的一些看法：

幻方应该从很早就关注，大概16年吧，那时量化交易很火，自己又是C++性能优化的老手，冲着钱多投过一次简历（结论：这家公司绝对是看学校的，非清北基本不要尝试了）
大概后来到了19年的时候，已经开始规模建设超算萤火虫了，HR主动找过我一回，因为那时我正好开始从事Kubernetes和分布书存储Ceph，结论参考上面这一条。
幻方的技术博客也能看到，大概是从19年开始，终于23年，现在应该人和精力都投到DeepSeek了吧
幻方最早做超算说是为量化服务，个人觉得是不太靠谱的。实际没法论证，量化交易里面对延迟要求很高，策略成功但是交易速度慢，可能策略就不行了。当然这是我基于和其他金融公司的交流得出的结论，无论大模型的推理，还是数据反复从CPU到GPU的交换在高频交易时引入延迟都可能是致命的。当然不排除幻方确实是同时在找低频量化的策略。
但是确实牛市的时候，量化交易的公司都是赚钱的，赚了钱咋说都行，就像Tesla的散户廖凯原也能去高校上课一样。
公开的数据幻方的萤火虫1号应该是千卡级别的，理论上最佳方案是买Nvidia的DGX，但是DGX的价格太贵了，所以幻方用服务器+PCIE A100的卡，结合IB网络，这样的方案性价比更高。萤火虫2号应该按照万卡的规模区规划，应该基本完成了。但是2号建设恰逢H100发布，所以2号的规划应该像切换到H100，但是后来H100被禁运了。
直到OpenAI成功之前，幻方应该还在找算力的应用场景，其中也考虑过AI For Science，以及自动驾驶的方向，因为这两个方向都是需要大规模的计算资源的。
H20 确实幻方应该是国内最早拿到卡的厂家之一，可能不比字节跳动晚，关于网上说的PTX优化绕过Cuda的说法，个人要技术的角度解释一下。PTX和Cuda类似于汇编和C++，Cuda是高级语言，PTX是中间语言，Cuda编译器会把Cuda代码编译成PTX，然后再编译成机器码。基本上CUDA(C++) -> PTX -> 显卡机器码。理论上越底层的语言和硬件绑定越紧密，性能越高，但是开发效率越低。所以说绕过Cuda并不是绕过Nvidia，而是更紧密了。至于为啥要走PTX，理论上Nvidia的编译器都已经优化地非常好了，这里不排除Nvidia通过CUDA和编译器或者是Driver这一层对语言转译的时候做了规格限制来满足出口管制的需求。当然这也是我基于之前芯片工作经历的猜想。
DeepSeek 创新究竟有多高？肯定算不了从0到1这种级别的创新，但是对整个AI及大模型产业的影响非常大，利好AI应用、也利好这个算力芯片行业、也利好大杭州。所以这种背景下DeepSeek的先进性和创新性一定会被放大，至少一段时间内是这样的。
中国下一次AI的引爆点在哪？DeepSeek的成功可以看作是大模型推理和应用的全面赶超。但是大模型的Training目前还是摆脱不了英伟达的高端显卡和网络（IB网络）。所以下一波的AI引爆点应该是在训练上，国产大算力芯片厂商、国产片的高端网络设备商都有机会去做这个热点。