加州大学洛杉矶分校【中英⚡LLM与强化学习|Spring 2025, Reinforcement Learning of Large Language Mod】

理解LLM的本质

理解LLM把它看做一个智能体或许不是一个合适的看法，相反，可以理解为一个信息的插值数据库，这是一种相对于复杂的人类作法，力大飞砖的作法。这种作法或许才是正道。

加入的大量预训练数据集，填充了这个世界模型的各个小区域，这些小区域的插值可以得到不少的信息。

LLM可以看做一个用自然语言作为查询语言的一个大的数据库，具有融合和插值的功能。

强化学习为什么好

传统的深度学习实际上是一种被动学习的过程，类似填鸭式的教育，这种学习方式，在近十年的时间内被证明是有效的，但是现有的数据量和算力使得这种方式的效率到达了一个平台期，无法通过数据规模和模型规模的放大更进一步；

而强化学习是一种主动学习，在action和试错之间学习到规律，这或许是一个突破现有瓶颈的方法。