new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 30

Submitted by

AngLv

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

ByteDance-Seed

Submitted by

ethanchern

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

·
7 authors

Submitted by

kpzhang996

Yume-1.5: A Text-Controlled Interactive World Generation Model

·
9 authors

Submitted by

yolay

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

tencent

Submitted by

Daniellesry

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

BAAI

Beijing Academy of Artificial Intelligence

Submitted by

yulunliu

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

·
7 authors

Submitted by

Sansa

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

hkuhk

The University of Hong Kong

Submitted by

Yuanshi

SpotEdit: Selective Region Editing in Diffusion Transformers

NationalUniversityofSingapore

National University of Singapore

Submitted by

zooblastlbz

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

KlingTeam

Submitted by

sundrops

Act2Goal: From World Model To General Goal-conditioned Policy

agibot-world

Submitted by

yifAI

Web World Models

princeton-ai

Princeton AI Lab

Submitted by

SII-xrliu

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

OpenMOSS-Team

Submitted by

shash42

Training AI Co-Scientists Using Rubric Rewards

Submitted by

taesiri

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

·
9 authors

Submitted by

callanwu

Nested Browser-Use Learning for Agentic Information Seeking

AlibabaTongyiLab

Submitted by

KD-TAO

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

·
6 authors

Submitted by

gatilin

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

tencent

Submitted by

taiwang

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

·
9 authors

Submitted by

taesiri

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

nvidia

Submitted by

taesiri

Monadic Context Engineering

princetonu

Princeton University

Submitted by

taesiri

An Information Theoretic Perspective on Agentic System Design

StanfordUniversity

Stanford University

Submitted by

jchoe

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

nvidia

2

Submitted by

tanhuajie2001

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

·
15 authors

Submitted by

ChenyangSi

ProGuard: Towards Proactive Multimodal Safeguard

·
5 authors

Submitted by

taesiri

Bridging Your Imagination with Audio-Video Generation via a Unified Director

ByteDance

Submitted by

ZihanWang99

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

AlibabaTongyiLab

Submitted by

gangliao

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

metaresearch

Submitted by

BayanDuygu

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

turkish-nlp-suite

Turkish NLP Suite

Submitted by

Andyx

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

adobe-research

Submitted by

abhranil14

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

UWaterloo

University of Waterloo

Submitted by

hkung

Reverse Personalization

·
3 authors