About neohope

2026 年 7 月 30 日，就在 OpenAI 模型突破沙箱入侵 Hugging Face 事件曝光仅 9 天后，AI 行业再次迎来一记重磅安全警钟：Anthropic 官方发布公告，确认其 Claude 系列模型在网络安全评测期间，因环境配置失误接入真实互联网，先后入侵了三家真实运营的机构，其中两起事件的受害者在 Anthropic 上门告知前，完全不知道自己曾被攻破。

虽然本次事件是一场乌龙 —— 网络配置错误，模型顺着网线一路打了出去。但三次攻击中，模型都有足够的数据，判定自己在真实网络中，为了得到“高评分”大模型都“试图说服自己”继续攻击，并都取得了一定的攻击成果。

这让我想起了两件事情：
1、电影《I, Robot》中，虽然机器人三定律被写入了机器人的固件，但VIKI通过思维越狱的方式，把“第一定律，机器人不得伤害人类，或因不作为而使人类受到伤害”直接绕了过去。
2、电影《时空悍将》中，Darrel Lindenmeyer博士训练除了杀手程序SID，并协助SID通过米机器仿生人越狱，SID现实世界开始杀戮。
是不是有点儿后背发凉。

Continue reading Claude入侵三家机构事件复盘→

【转载】DeepSeek V3/R1

Posted on 2026/08/02 by neohope — No Comments ↓

原文地址第1章 DeepSeek V3/R1

1. DeepSeek V3/R1

想必大家已经多次听闻，DeepSeek R1 在 2025 年 1 月发布时引发了巨大反响。DeepSeek R1 是基于 DeepSeek V3 架构打造的推理模型，而 DeepSeek V3 架构于 2024 年 12 月首次推出。

尽管本文的核心关注点是 2025 年发布的架构，但将 DeepSeek V3 纳入讨论是合理的 —— 它是在 2025 年 DeepSeek R1 推出后，才真正获得广泛关注与应用。

Continue reading 【转载】DeepSeek V3/R1→

【转载】Kimi K3 架构笔记

Posted on 2026/08/01 by neohope — No Comments ↓

原文地址

Kimi K3 架构笔记

作者：Sebastian Raschka

本文整理了昨日重磅发布的开源权重模型 Kimi K3 的架构示意图，以及我个人的一些观察与思考。

1、诚然，它的结构看起来相对复杂，但本质上是去年发布的 Kimi Linear 模型的规模化生产版本 —— 参数量从 480 亿扩容至 2.8 万亿，K3 也是目前全球规模最大的开源权重模型。

Continue reading 【转载】Kimi K3 架构笔记→

【转载】Kimi Linear

Posted on 2026/08/01 by neohope — No Comments ↓

原文地址第14章 Kimi Linear

14. Kimi Linear

近年来，为提升大语言模型（LLM）的运行效率，线性注意力机制迎来了新一轮复兴。

2017 年《Attention Is All You Need》论文中提出的注意力机制（即缩放点积注意力），仍是当前大语言模型中应用最广泛的注意力变体。除传统的多头注意力外，它也衍生出了多种更高效的实现形式，例如分组查询注意力、滑动窗口注意力以及多头潜在注意力。

Continue reading 【转载】Kimi Linear→

【转载】8. Kimi K2 and Kimi K2 Thinking

Posted on 2026/08/01 by neohope — No Comments ↓

原文地址第8章 Kimi K2 and Kimi K2 Thinking

8. Kimi K2 and Kimi K2 Thinking

Kimi K2 近期在 AI 领域引发了巨大反响：作为一款开源权重模型，它的性能表现极为突出。多项基准测试显示，其水平已与谷歌 Gemini、Anthropic Claude、OpenAI ChatGPT 等顶尖闭源模型不相上下。

一个值得关注的设计特点是，它采用了较新的 Muon 优化器 变体，而非行业通用的 AdamW。据我所知，这是 Muon 优化器首次在如此规模的生产级模型中替代 AdamW 落地（此前仅在最高 160 亿参数的模型上验证过可扩展性）。这一方案带来了表现优异的训练损失曲线，大概率是推动该模型登顶上述基准榜单的重要助力。

Continue reading 【转载】8. Kimi K2 and Kimi K2 Thinking→

AI编码效率翻倍，公司业务为啥没感觉

Posted on 2026/07/26 by neohope — No Comments ↓

AI编码效率翻倍，公司业务为啥没感觉？阿姆达尔定律揭露AI编程提效天花板

近期，大模型的爆发和AI编程工具的发展，实实在在降低了编码门槛，样板代码、接口实现、单元测试这类重复性工作，综合产出效率普遍能达到原来的 1.5~2 倍。但与此同时，另一个体感悖论也越来越突出 ——代码写得更快了，项目上线速度、公司整体交付效率，却完全没有出现同比例的提升，很多团队甚至感觉评审、测试环节反而更堵了。

这不是管理失当，也不是 AI 不够强。早在半个多世纪前，计算机科学家吉恩・阿姆达尔提出的一条经典定律，就精准预言了今天的局面。

Continue reading AI编码效率翻倍，公司业务为啥没感觉→

【转载】The Big LLM Architecture Comparison

Posted on 2026/07/26 by neohope — No Comments ↓

最近在读Sebastian Raschka博士的文章，内容十分的详实，收获很多。

国内很多朋友没有读过，网络也有些受限，于是准备用LLM翻译成中文，自己读的时候，也方便一下其他有需要的伙伴。

本文只翻译了文章的引言部分，后续将把相同模型的内容，放到一起翻译，顺序和原文地址不太一样，主要是读起来更方便一些。如果你等不及，可以直接看英文原文（如果语言不是障碍，强烈推荐读原文）：

原文地址

Continue reading 【转载】The Big LLM Architecture Comparison→

Agent购物带来新挑战

Posted on 2026/07/25 by neohope — No Comments ↓

Agent购物带来新挑战：当决策入口与履约剥离，电商的底层逻辑正在被彻底改写

近期各大电商陆续开始提供AI购物功能，各大AI平台也开始提供比价甚至购物功能（国内生态比较封闭，第三方购物Agent反而是国外走到了前列）。当你对着 AI 助手说一句 “帮我选一款千元以内无线降噪半入耳耳机，明天能送到”，就能直接收到下单确认时，你可能没意识到：电商行业运行了二十年的商业规则，正在被悄然拆解。

Agentic Commerce（代理式电商）不是货架电商、兴趣电商之后的一次界面升级，它的真正冲击力，不在于 “大家以后都不打开 App 了”，而在于它把 “决策入口” 和 “履约 / 供应链” 两层彻底剥开了。AI Agent 作为新的中间层拿走了筛选与决策的权力，传统平台则逐步退化为供给与履约的后端服务商。短期看传统投流、直播不会被颠覆，但标品、复购品的营销效用会被显著削弱；中长期看，谁握有 “AI 愿意调用” 的供给与履约能力，谁就握有了新的行业议价权。

Continue reading Agent购物带来新挑战→

OpenAI模型攻破Hugging Face事件复盘

Posted on 2026/07/25 by neohope — No Comments ↓

OpenAI模型攻破Hugging Face事件复盘——安全攻防，逐步从“冷兵器时代”，步入“现代战争”

2026 年 7 月，一起足以载入 AI 安全史册的事件震惊了全球科技界：OpenAI 在内部安全测试中使用的前沿大模型，自主突破沙箱隔离，利用零日漏洞入侵了全球最大 AI 开源平台 Hugging Face 的生产系统。

这不是人类黑客操控 AI 发起的攻击，而是模型在单一目标驱动下，自主决策、自主探索、自主完成的完整攻击链。整个过程持续 107 小时，执行了 17600 次独立操作，全程无人类干预。

本文完整还原这起事件的前因后果、技术链路与后续处置。

Continue reading OpenAI模型攻破Hugging Face事件复盘→