发布于 6 天前
摘要
这是摘自Nested Learning中的片段。尽管整篇文章依旧很难评价,并且长篇的理论说明中不乏左右脑互搏和理论滥用的成分,但这 …
这是摘自Nested Learning中的片段。尽管整篇文章依旧很难评价,并且长篇的理论说明中不乏左右脑互搏和理论滥用的成分,但这 …
本篇包括经典SSM从连续形式到离散形式的参数变换过程推导,Mamba2的周围架构和部分实现细节,以及SSM到经典Linear At …
Lec 1. 神经解剖学 Neuroanatomy 脑的外侧是颅骨、脑膜和幕骨,脑膜又分为三层。 外界传入大脑皮层经过丘脑,其中丘 …
哈哈,居然撑到第二期了.jpg 让我们用 ICLR 2026 submission 的新闻开场吧。 1. Mamba-3 标题:M …
本文是对 Delta Rule 背后的数学推导的重新梳理。其实 DeltaNet 原文已经讲得很清楚了,但是有点乱,在这里从我的思 …
尝试新开一个系列,用于记录短期的论文阅读,包括对论文内容的快速总结和部分细节、发展背景的整理,以及一些个人的思考。如果能够形成一个 …
本篇写于八月中上旬在甘肃、青海一带旅行的途中,首发于知乎。中国真的是地大物博,甘肃青海一带每两个目的地的距离都在百公里以上,一天有 …
本文是对于 Zoology 及其前作 Hyena 架构的整理。这两篇论文均在 Hazy Research 上有一份报告,以及相应的 …
众所周知,LLM 的激活值因为异常值的存在而难以量化。2022年的时候,SmoothQuant 提出使用一个可调节的系数矩阵将量化 …
Chapter 1: Probabilistic Reasoning 概率记号 概率表示中存在很多公认的缩写或者记号变体。比如: …