2025.10.4

chensy 发布于 2025-10-04 58 次阅读


#weekly

不知道鸽了多久,两个星期?

在 iclr 投了之后重新测试了 attention 在各类任务上的能力,结果发现似乎也没有那么理想,SWA 和 dynamic sparse 都会有一定的掉点和偏见。特别是 dynamic sparse,它但凡有一块选到正确的位置就可以了,但还是会掉点。这可能暗示着 pooling 并不是一个靠谱的表征。DeepSeek-3.2-Exp 的倾向也表明了这一点。

另外发现另外一些工作也开始挑战 passkey retrieval 的合理性,即 passkey retrieval/NIAH != 长文本处理能力。说起来这些 benchmark 到底考验的还是语句匹配,只要 native sparse 能够匹配这些部位,就足够杀死比赛。在 passkey retrieval 上刷榜的时代大约是要过去了。

改了专利。重新读了 delta rule。

接了一个语义分割的项目,可行性没有问题,但是前端有些难写。基本的功能已经写完了,但是响应性很差,大约要用 canvas 重写。

此作者没有提供个人介绍。
最后更新于 2025-10-04