加州大学洛杉矶分校【中英⚡LLM与强化学习|Spring 2025, Reinforcement Learning of Large Language Mod】

理解LLM的本质

理解LLM把它看做一个智能体或许不是一个合适的看法,相反,可以理解为一个信息的插值数据库,这是一种相对于复杂的人类作法,力大飞砖的作法。这种作法或许才是正道。

加入的大量预训练数据集,填充了这个世界模型的各个小区域,这些小区域的插值可以得到不少的信息。

LLM可以看做一个用自然语言作为查询语言的一个大的数据库,具有融合和插值的功能。

强化学习为什么好

传统的深度学习实际上是一种被动学习的过程,类似填鸭式的教育,这种学习方式,在近十年的时间内被证明是有效的,但是现有的数据量和算力使得这种方式的效率到达了一个平台期,无法通过数据规模和模型规模的放大更进一步;

而强化学习是一种主动学习,在action和试错之间学习到规律,这或许是一个突破现有瓶颈 的方法。