2025.10.4

chensy 发布于 2025-10-04 58 次阅读

#weekly

不知道鸽了多久，两个星期？

在 iclr 投了之后重新测试了 attention 在各类任务上的能力，结果发现似乎也没有那么理想，SWA 和 dynamic sparse 都会有一定的掉点和偏见。特别是 dynamic sparse，它但凡有一块选到正确的位置就可以了，但还是会掉点。这可能暗示着 pooling 并不是一个靠谱的表征。DeepSeek-3.2-Exp 的倾向也表明了这一点。

另外发现另外一些工作也开始挑战 passkey retrieval 的合理性，即 passkey retrieval/NIAH != 长文本处理能力。说起来这些 benchmark 到底考验的还是语句匹配，只要 native sparse 能够匹配这些部位，就足够杀死比赛。在 passkey retrieval 上刷榜的时代大约是要过去了。

改了专利。重新读了 delta rule。

接了一个语义分割的项目，可行性没有问题，但是前端有些难写。基本的功能已经写完了，但是响应性很差，大约要用 canvas 重写。

上一篇文章

2025.09.22

下一篇文章

2025.10.18

查看评论 - 无~

Comments NOTHING

暂无评论

取消回复

To trace the bright moonlight

嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	Tieba	(=・ω・=)

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

保留个人信息