2025.10.18

chensy 发布于 2025-10-18 43 次阅读


鸽了很久的周记,应该有大半个月了吧。这一篇也不是。几天终于完成了宿舍的搬迁,几个月的折腾也算是有结果了。还要把钥匙换回去,把自行车搞回来,改信用卡的寄送地址,补交住宿费,重新考虑交通问题。搬家真的很麻烦啊。不过新宿舍的条件很好,也不抱怨什么了。

虽然鸽了很久,但还是记一下这段时间干了什么。树木识别的项目给了前端第一个完整的版本,后来还是用 canvas 重写了,基本可以做到实时绘制,但如果是大面积重绘的话还是需要重写数据结构,目前不想写了。另外还有一个小的 demo 目前没有具体的实现思路,明天再说吧。

另外开始尝试从 mad-lab 开始验证序列内混合注意力的可能性,不出意料地也是遇到了很多问题。发现 RoPE 在仅应用于前几个维度上的时候表现要更好,以及在 deltanet 上观察到了 over parameterization,即更大的 state 反而不能获得正常的训练结果。目前也只是找到了一个合适的测试基线,即 rnn 会被充满,但是 transformer+conv 仍然能够进行良好外推的场景。接下来就要开始尝试 hybrid 了。

此作者没有提供个人介绍。
最后更新于 2025-10-18