new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jan 30

Submitted by

Wendy-Fly

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

AgentAlphaAGI

Submitted by

xiaochonglinghu

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

alibaba-inc

Submitted by

taesiri

Scaling Embeddings Outperforms Scaling Experts in Language Models

meituan-longcat

Submitted by

hzxie

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

mmlab-ntu

Submitted by

xxxllz

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

·
10 authors

Submitted by

LHL3341

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

SJTU

Shanghai Jiao Tong University

Submitted by

FetchFortune

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

ByteDance-Seed

Submitted by

UML

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

Submitted by

taesiri

Qwen3-ASR Technical Report

Qwen

Qwen

Submitted by

SII-xrliu

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

OpenMOSS-Team

Submitted by

bunny127

Exploring Reasoning Reward Model for Agents

·
10 authors

Submitted by

cuijiaxing

LoL: Longer than Longer, Scaling Video Generation to Hour

·
9 authors

Submitted by

LordNoah

Language-based Trial and Error Falls Behind in the Era of Experience

NanyangTechnologicalUniversity

Nanyang Technological University

Submitted by

jonkahana

Discovering Hidden Gems in Model Repositories

·
3 authors

Submitted by

EnyiJiang

Latent Adversarial Regularization for Offline Preference Optimization

StanfordUniversity

Stanford University

Submitted by

hba123

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

·
4 authors

Submitted by

julien-c

Shaping capabilities with token-level data filtering

Anthropic

Submitted by

zhuoranyang

Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

fdtn-ai

Cisco Foundation AI

Submitted by

kunato

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

typhoon-ai

Submitted by

yiboowang

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

NanyangTechnologicalUniversity

Nanyang Technological University

Submitted by

topyun

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

·
4 authors

3

Submitted by

DiMaria0817

EEG Foundation Models: Progresses, Benchmarking, and Open Problems

Huazhong University of Science and Technology

Submitted by

taesiri

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

google

Submitted by

zz1358m

Beyond Imitation: Reinforcement Learning for Active Latent Planning

·
2 authors

3

Submitted by

Lyy0725

One-step Latent-free Image Generation with Pixel Mean Flows

·
9 authors

Submitted by

chen-yingfa

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

openbmb

Submitted by

stefan-it

FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale

fineinstructions

FineInstructions

Submitted by

WuyangZzzz

KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

·
4 authors

Submitted by

taesiri

Self-Improving Pretraining: using post-trained models to pretrain better models

metaresearch

Submitted by

mnikdan97

ECO: Quantized Training without Full-Precision Master Weights

google

3

Submitted by

bruiiii

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

·
8 authors

Submitted by

JianhuiChen

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

PKU

Peking University

Submitted by

Sugewud

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

·
7 authors

Submitted by

innovation64

BMAM: Brain-inspired Multi-Agent Memory Framework

·
5 authors

Submitted by

wanghaofan

JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

·
8 authors

Submitted by

robinzixuan

FROST: Filtering Reasoning Outliers with Attention for Efficient Reasoning

northwestern-university

Northwestern University

Submitted by

micahr234

Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels

·
2 authors

Submitted by

DarshanDeshpande

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

PatronusAI

Submitted by

Franck-Dernoncourt

Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance

·
8 authors

Submitted by

Franck-Dernoncourt

PRISM: Learning Design Knowledge from Data for Stylistic Design Improvement

·
5 authors

2

Submitted by

ZYao720

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

LMU

Ludwig Maximilian University of Munich

Submitted by

Beegbrain

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

·
4 authors

2

Submitted by

taesiri

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

·
10 authors

Submitted by

Beegbrain

STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

·
3 authors

2

Submitted by

Baran47

Flow-based Extremal Mathematical Structure Discovery

ScaDS-AI

Center for Scalable Data Analytics and Artificial Intelligence Dresden/Leipzig