paper_collect
收集的感兴趣的AI
Paper • 2502.14499 • Published • 167Note benchmark AI 研究Agent的benchmark
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
Paper • 2502.14739 • Published • 92Note Benchmark LLM 研究生多学科测试,当前deepseek 60%成功
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?
Paper • 2502.14502 • Published • 80Note 微调,LoRA 通过在微调数据中混合一定比例的一直知识,可以提升微调效果
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Paper • 2502.14282 • Published • 17Note GUI-Agent,PC-Agent 1、感知增强APM,通过pywinauto/OCR来提升感知效果--->(类ARIA、A11y 和图像打框) 2、提出一个分层plann框架 指令、子任务、行动
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models
Paper • 2502.14802 • Published • 11Note RAG,Memory,KG 通过离线构建知识图谱,在线搜索的时候过滤搜索知识图谱的三元组(先重排、过滤) 在图谱搜索的时候引入PPR算法(给每个节点添加个性化内容)
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
Paper • 2502.15007 • Published • 151Note LLM,Context,模型机制研究 LLM 及 context 提示词中的冠词、停用词和标点符号对模型具有重大影响,且通常承载最高信息量,去除这些元素会对性能产生很大影响。去除停用词和标点会损失 8%的性能。——这难道不是语义表达不清楚所导致的吗?感觉是这样。文章主要提供了一套用于研究 LLM 内部机制的工具,仅以停用词和冠词的去除来展示该工具。
SurveyX: Academic Survey Automation via Large Language Models
Paper • 2502.14776 • Published • 88Note AI工具,文章编写工作流 可以通过一个问题生成一个领域的论文综述,在github中可以通过提issue获取综述
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
Paper • 2502.15027 • Published • 6Note benchmark,feedback 模型无法100%通过人类反馈信息完成纠错,当前先进模型40%到50%的纠错成功率
Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis
Paper • 2502.14767 • Published • 4Note 文章辨析工作流,辩论 通过将不同方向的论文转换为一个Agent角色,进行角色间的辩论来分析多个方向论文的差异和新颖性
Thus Spake Long-Context Large Language Model
Paper • 2502.17129 • Published • 63Note long-contenxt,分析 长上下文对于中间内容的注意力丢失、长输出挑战
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties
Paper • 2502.16922 • Published • 7Note Temporal Reasoning,Benchmark 对于实体在处于不同时间和背景下进行关系推理,目前GTP-4 40%成功率
InductionBench: LLMs Fail in the Simplest Complexity Class
Paper • 2502.15823 • Published • 6Note 推理,归纳推理,Benchmark 现在大模型推理聚焦在演绎推理(数学、逻辑),归纳推理是科学研究的一种重要方式,文中提出一个数据集进行测试. 测试大约40%成功率
Grounded Persuasive Language Generation for Automated Marketing
Paper • 2502.16810 • Published • 10Note 文章生成,房地产 生成房地产的评论
Towards an AI co-scientist
Paper • 2502.18864 • Published • 19Note 文章生成,科学研究 通过多智能体从不同角度分析辩论,将结果进行反思评估,最终生成内容
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
Paper • 2502.19400 • Published • 34Note AI应用,数学定理,视频 通过视觉模型将数学定理使用视频方式进行展示