3 19 19

Metal Whale

metalwhale

https://blog.metalwhale.dev/

AI & ML interests

None yet

Recent Activity

upvoted an article 3 days ago

Open-R1: a fully open reproduction of DeepSeek-R1

liked a model 9 days ago

deepseek-ai/DeepSeek-R1

liked a model 21 days ago

vikhyatk/moondream2

View all activity

Organizations

None yet

metalwhale's activity

upvoted an article 3 days ago

Article

Open-R1: a fully open reproduction of DeepSeek-R1

3 days ago

• 477

upvoted a paper about 2 months ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 89

upvoted a collection 2 months ago

Molmo

Collection

Artifacts for open multimodal language models. • 5 items • Updated 24 days ago • 293

upvoted an article 3 months ago

Article

Releasing the largest multilingual open pretraining dataset

•

Nov 13, 2024

• 98

upvoted a paper 3 months ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 169

upvoted a collection 4 months ago

Qwen2.5

Collection

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B. • 45 items • Updated Nov 28, 2024 • 488

upvoted 2 papers 8 months ago

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Paper • 2406.07522 • Published Jun 11, 2024 • 38

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 256

upvoted 7 papers about 1 year ago

VMamba: Visual State Space Model

Paper • 2401.10166 • Published Jan 18, 2024 • 39

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Paper • 2401.09417 • Published Jan 17, 2024 • 60

upvoted 3 papers over 1 year ago

Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 245

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

Paper • 2307.02499 • Published Jul 4, 2023 • 15

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Paper • 2306.07954 • Published Jun 13, 2023 • 112