大概是从最近两年起,太太养成了每到一个地方旅游,都会尽力带回一些冰箱贴回来的习惯……
技术
聊一聊 DeepSeek
春节自驾游期间,DeepSeek着实火了一把。说说我对DeepSeek的一些看法:
- 幻方应该从很早就关注,大概16年吧,那时量化交易很火,自己又是C++性能优化的老手,冲着钱多投过一次简历(结论:这家公司绝对是看学校的,非清北基本不要尝试了)
- 大概后来到了19年的时候,已经开始规模建设超算萤火虫了,HR主动找过我一回,因为那时我正好开始从事Kubernetes和分布书存储Ceph,结论参考上面这一条。
- 幻方的技术博客也能看到,大概是从19年开始,终于23年,现在应该人和精力都投到DeepSeek了吧
- 幻方最早做超算说是为量化服务,个人觉得是不太靠谱的。实际没法论证,量化交易里面对延迟要求很高,策略成功但是交易速度慢,可能策略就不行了。当然这是我基于和其他金融公司的交流得出的结论,无论大模型的推理,还是数据反复从CPU到GPU的交换在高频交易时引入延迟都可能是致命的。当然不排除幻方确实是同时在找低频量化的策略。
- 但是确实牛市的时候,量化交易的公司都是赚钱的,赚了钱咋说都行,就像Tesla的散户廖凯原也能去高校上课一样。
- 公开的数据幻方的萤火虫1号应该是千卡级别的,理论上最佳方案是买Nvidia的DGX,但是DGX的价格太贵了,所以幻方用服务器+PCIE A100的卡,结合IB网络,这样的方案性价比更高。萤火虫2号应该按照万卡的规模区规划,应该基本完成了。但是2号建设恰逢H100发布,所以2号的规划应该像切换到H100,但是后来H100被禁运了。
- 直到OpenAI成功之前,幻方应该还在找算力的应用场景,其中也考虑过AI For Science,以及自动驾驶的方向,因为这两个方向都是需要大规模的计算资源的。
- H20 确实幻方应该是国内最早拿到卡的厂家之一,可能不比字节跳动晚,关于网上说的PTX优化绕过Cuda的说法,个人要技术的角度解释一下。PTX和Cuda类似于汇编和C++,Cuda是高级语言,PTX是中间语言,Cuda编译器会把Cuda代码编译成PTX,然后再编译成机器码。基本上CUDA(C++) -> PTX -> 显卡机器码。理论上越底层的语言和硬件绑定越紧密,性能越高,但是开发效率越低。所以说绕过Cuda并不是绕过Nvidia,而是更紧密了。至于为啥要走PTX,理论上Nvidia的编译器都已经优化地非常好了,这里不排除Nvidia通过CUDA和编译器或者是Driver这一层对语言转译的时候做了规格限制来满足出口管制的需求。当然这也是我基于之前芯片工作经历的猜想。
- DeepSeek 创新究竟有多高?肯定算不了从0到1这种级别的创新,但是对整个AI及大模型产业的影响非常大,利好AI应用、也利好这个算力芯片行业、也利好大杭州。所以这种背景下DeepSeek的先进性和创新性一定会被放大,至少一段时间内是这样的。
- 中国下一次AI的引爆点在哪?DeepSeek的成功可以看作是大模型推理和应用的全面赶超。但是大模型的Training目前还是摆脱不了英伟达的高端显卡和网络(IB网络)。所以下一波的AI引爆点应该是在训练上,国产大算力芯片厂商、国产片的高端网络设备商都有机会去做这个热点。
随笔
春节自驾游
温州
温州是自驾游的第一站,应该说只是为了不一晚上开太远的车,所以选在温州休息一晚。 住在了五马街附近,随处可见的奥康,让我想起了当年的一个梗:温州三康。
福州
有福之州,作为真正旅途的第一站,逛了三坊七巷,吃了佛跳墙,参观了福建博物院,第二天下午就赶着去泉州了。
泉州
泉州市这个自驾游的重点,小朋友拍了簪花,看了木偶戏,去了洛迦寺,吃了各种喜欢的不喜欢的小吃。还去了开元寺,找了黑神话悟空的取景地。
泉州美食推荐一下这家刺桐别院,环境好,菜品也不错。
潮州
潮州的美食让人惊艳,时间太短,肚子不够,当然吃到了心心念的肠粉,还有砂锅粥。
永定土楼
夜宿土楼,别有一番风味。看完土楼就匆匆回杭了。900公里、10个小时。
最忆是杭州,回杭了,春节自驾来年再见。