博客

PPO（Proximal Policy Optimization）近端策略优化

LLM

LLM | LLM入门

LLM

Reinforcement Learning from Human Feedback（RLHF）

LLM

BBPE（Byte-Level Byte Pair Encoding）字节级字节对编码

LLM

XLNet：一种基于Transformer架构的自回归语言模型

LLM

大语言模型的函数调用（function call）

LLM

GraphRAG（Graph - based Retrieval - Augmented Generation）

LLM

llama.cpp：以C++为主要编程语言的高性能开源库

LLM

DeepSeek-R1-Zero 和 DeepSeek-R1

论文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

BART(Bidirectional and Auto-Regressive Transformers)

LLM

BLOOM（BigScience Large Open-science Open-access Multilingual Language Model）

LLM

指令学习（Instruction Learning）

LLM

GRPO（Group Relative Policy Optimization）

LLM

TRLX：一个大型语言模型训练的工具

LLM

LLM Role Play（大语言模型角色扮演）

LLM

CPT（Continual Pre-Training）

LLM

MVBench多模态大模型视频理解能力基准

LLM

OpenCompass：一个开源的大模型评测体系

LLM

«
1
2
3
4
5
6
»