博客
  • 首页
  • 推荐
  • 标签
  • 轻览
  • 日历
排序方式:按更新时间排序 | 按标题排序 | 按浏览次数排序
PPO(Proximal Policy Optimization)近端策略优化
LLM  
LLM | LLM入门
LLM  
Reinforcement Learning from Human Feedback(RLHF)
LLM  
BBPE(Byte-Level Byte Pair Encoding)字节级字节对编码
LLM  
XLNet:一种基于Transformer架构的自回归语言模型
LLM  
大语言模型的函数调用(function call)
LLM  
GraphRAG(Graph - based Retrieval - Augmented Generation)
LLM  
llama.cpp:以C++为主要编程语言的高性能开源库
LLM   开源库  
MiniCPM
LLM  
DeepSeek-R1-Zero 和 DeepSeek-R1
LLM   DeepSeek  
论文:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
LLM   DeepSeek  
BART(Bidirectional and Auto-Regressive Transformers)
LLM  
BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)
LLM  
指令学习(Instruction Learning)
LLM  
GRPO(Group Relative Policy Optimization)
LLM  
TRLX:一个大型语言模型训练的工具
LLM  
LLM Role Play(大语言模型角色扮演)
LLM  
CPT(Continual Pre-Training)
LLM  
MVBench多模态大模型视频理解能力基准
LLM  
OpenCompass:一个开源的大模型评测体系
LLM  
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • »

如侵犯您的权益,请联系本站删除!

Copyright © 2023-2024