Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2401.10020

LLMs SELF-IMPROVEMENT

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Paper • 2312.06585 • Published Dec 11, 2023 • 29
Enable Language Models to Implicitly Learn Self-Improvement From Data

Paper • 2310.00898 • Published Oct 2, 2023 • 23
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

Paper • 2312.10003 • Published Dec 15, 2023 • 40
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Paper • 2401.01335 • Published Jan 2, 2024 • 65

Candidate papers to read in the H4 journal club

The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs

Paper • 2210.14986 • Published Oct 26, 2022 • 5
Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Paper • 2311.10702 • Published Nov 17, 2023 • 20
Large Language Models as Optimizers

Paper • 2309.03409 • Published Sep 7, 2023 • 76
From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting

Paper • 2309.04269 • Published Sep 8, 2023 • 33

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 54
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Paper • 2306.01693 • Published Jun 2, 2023 • 3
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 147
Secrets of RLHF in Large Language Models Part II: Reward Modeling

Paper • 2401.06080 • Published Jan 11, 2024 • 28

Research Papers

A collection of papers focused on LLM

Orca 2: Teaching Small Language Models How to Reason

Paper • 2311.11045 • Published Nov 18, 2023 • 73
ToolTalk: Evaluating Tool-Usage in a Conversational Setting

Paper • 2311.10775 • Published Nov 15, 2023 • 10
Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

Paper • 2311.11077 • Published Nov 18, 2023 • 28
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

Paper • 2311.11501 • Published Nov 20, 2023 • 36

S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Paper • 2311.03285 • Published Nov 6, 2023 • 32
Efficient Memory Management for Large Language Model Serving with PagedAttention

Paper • 2309.06180 • Published Sep 12, 2023 • 25
zhihan1996/DNABERT-2-117M

Updated Mar 18, 2024 • 1.43M • 63
AIRI-Institute/gena-lm-bert-base

Updated Jul 4, 2023 • 136 • 28

Moral Foundations of Large Language Models

Paper • 2310.15337 • Published Oct 23, 2023 • 1
Specific versus General Principles for Constitutional AI

Paper • 2310.13798 • Published Oct 20, 2023 • 3
Contrastive Prefence Learning: Learning from Human Feedback without RL

Paper • 2310.13639 • Published Oct 20, 2023 • 25
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Paper • 2309.00267 • Published Sep 1, 2023 • 48

teknium/OpenHermes-2-Mistral-7B

Text Generation • Updated Nov 2, 2023 • 6.53k • 255
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 147
allenai/Molmo-7B-D-0924

Image-Text-to-Text • Updated Oct 10, 2024 • 99.8k • 514
mistralai/Pixtral-12B-2409

Image-Text-to-Text • Updated Dec 26, 2024 • • 622

Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment

Paper • 2310.00212 • Published Sep 30, 2023 • 2
Stabilizing RLHF through Advantage Model and Selective Rehearsal

Paper • 2309.10202 • Published Sep 18, 2023 • 11
Aligning Language Models with Offline Reinforcement Learning from Human Feedback

Paper • 2308.12050 • Published Aug 23, 2023 • 1
Secrets of RLHF in Large Language Models Part I: PPO

Paper • 2307.04964 • Published Jul 11, 2023 • 29

Secrets of RLHF in Large Language Models Part I: PPO

Paper • 2307.04964 • Published Jul 11, 2023 • 29
Safe RLHF: Safe Reinforcement Learning from Human Feedback

Paper • 2310.12773 • Published Oct 19, 2023 • 28
Stabilizing RLHF through Advantage Model and Selective Rehearsal

Paper • 2309.10202 • Published Sep 18, 2023 • 11
Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment

Paper • 2310.00212 • Published Sep 30, 2023 • 2

important research

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 147
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback

Paper • 2402.01391 • Published Feb 2, 2024 • 42

Previous
1
...
4
5
6
7
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs