363050.com

足球投注 分类
欧宝体育-官方体育娱乐平台足球·篮球·电竞投注首选平台逼近Claude 35、成本降低86%开源代码定位新神器LocAgent来了发布日期:2025-06-03 18:46:01 浏览次数:

  欧宝体育,欧宝体育app,欧宝娱乐,欧宝体育官网,足球投注平台,电竞下注,注册送彩金,欧宝足球下注,欧宝篮球盘口,欧宝电竞投注,体育投注平台

欧宝体育-官方体育娱乐平台足球·篮球·电竞投注首选平台逼近Claude 35、成本降低86%开源代码定位新神器LocAgent来了

  又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

  相信每个程序员都有过这样的经历:看到一个 bug 报告,满脸问号地想「这到底要改哪里?」。传统方法要么靠关键词匹配(太粗糙),要么直接把整个代码库丢给 LLMs(太低效),要么让 Agent 盲目遍历目录(太笨拙)。

  问题的核心在于:自然语言描述的问题和真正需要修复的代码位置之间,往往隔着好几层调用关系。比如用户反馈「XSS 漏洞」,但实际需要修改的可能是某个深层的验证工具函数。

  换言之,代码定位指的是在大型代码库中精确找到需要修改的代码位置,在软件开发与维护中,准确地定位代码问题是提高开发效率的关键(图 1 展示了四种常见的代码修复场景)。

  图 1:给定一个代码库(左)和问题描述(中,包含四种场景的示例),代码定位需要识别出需要修改的相关代码位置(右),包括具体的文件、类和函数。LocAgent 旨在让 LLM Agent 自动完成这一过程。

  自然语言中的问题描述(如错误报告)往往与真正的故障根因存在显著的语义差异与结构距离(如图 2 所示)。这不仅要求模型能够深入理解自然语言编写的错误报告,还需具备在庞大代码库中跨越层级结构和复杂依赖关系进行推理和追踪的能力。

  图 2: 图中红色节点表示问题描述中明确提及的函数,黄色节点表示实际需要修改(修补)的函数。任务难度定义为代码图中从提及函数到目标修补函数之间的最短路径长度(最少跳数),图示例中任务难度为 2 跳。

  该研究团队的解决方案相当巧妙:首先他们把整个代码库解析成一张图,包含文件、类、函数之间的包含、调用、继承、导入关系。然后该团队为 LLM Agent 提供简洁统一的图原语接口,以支持离效探索代码库。该方法通过将代码库解析为异构图表示,让大语言模型能够像使用地图一样高效地在代码中「移动」,实现多跳推理,逐步接近目标代码。

  如图 3 所示,LocAgent 首先将代码库解析为一个异构图表示,图中包含多种类型的代码实体及其依赖关系。在此基础上,系统构建了分层稀疏索引,用于支持高效的内容检索与结构化探索。借助这些索引,LocAgent 能够结合图结构与工具接口,执行由 Agent 驱动的逐步搜索过程,精准完成代码定位任务。

  代码图表示构建:为统一表示代码库中的结构与语义信息,LocAgent 基于抽象语法树(AST) 对代码库进行解析,构建一个异构有向图 作为结构化索引,详细表示了代码目录、文件、类、函数之间的包含、调用、导入和继承关系,使得隐式依赖显性化,便于 LLM 高效推理。

  这种图结构的优势在于:即使两个代码片段分处不同模块,只要存在调用或继承关系,在图上它们就会变得「邻近」。比如,以往基于目录导航的方法会认为远隔两个子目录的模块毫不相干,但如果模块 A 函数调用了模块 B,在 LocAgent 的图中 A 和 B 会通过调用边直接连接,使它们在该图结构上靠近。对于代码定位任务,这种「邻近」至关重要,因为许多问题不是局限在单个文件夹内部,而是通过调用链跨越多个模块。

  构建好代码图后,LocAgent 提供了统一的工具接口,让 LLM Agent 能够方便地查询图结构和代码内容。主要包括以下三个 API:

  SearchEntity:该工具基于层次化实体索引,使用关键词搜索代码库中相关实体。当在上层索引中未能找到匹配项时,系统会自动使用下一层索引进行搜索,从精确匹配到模糊搜索,以查找最接近的匹配项。对于检索到的每个实体,SearchEntity 会返回该代码片段的摘要(如图 4,有折叠级别、预览级别和完整代码三级,可根据需要展开)。

  RetrieveEntity:当 Agent 确定了某个代码实体很可能就是目标时,可以用此工具提取该实体的完整信息。当输入实体 ID,RetrieveEntity 输出该实体的文件路径、起止行号、完整代码内容等详细属性。TraverseGraph:该工具在代码图上执行类型感知的广度优先搜索。Agent 可以指定起始的实体 ID,以及希望遍历的方向、步数(hops)、实体类型和关系类型等参数。工具会在图中从起点出发按照要求走指定步数,返回遍历到的子图结构。通过设置不同的类型过滤,Agent 可以灵活地探索比如「沿调用关系向下追踪两步」或「查看从某类出发的继承层次」等等。值得一提的是,TraverseGraph 将返回的子图格式化成一种树状结构文本(见图 5),以便 LLM 更容易理解关系拓扑。

  LocAgent 在提示设计上采用了「逐步思考」(Chain-of-Thought, CoT) 的策略,引导 LLM Agent 将代码定位任务分解为一系列步骤,模拟人类调试思路一步步逼近目标。整个问题求解过程可以概括为以下阶段:

  问题理解与关键词提取:Agent 首先对输入的 issue 描述进行分析,划分出不同方面的信息,然后提取出与问题相关的关键词。这些关键词相当于为后续搜索指明了初步方向。链接关键词到代码实体:针对每个提取的关键词,Agent 调用 SearchEntity 工具在代码索引中查找匹配的代码实体。多跳推理,生成故障链路:接下来,Agent 会尝试串联线索,从报错表征推导故障原因。它先确定问题触发的初始入口点(例如触发错误的 API 或函数),然后以这些点为起点,在代码图上进行迭代探索:调用 TraverseGraph 沿调用关系或依赖关系向相关方向搜索;用 RetrieveEntity 查看某些关键节点的实现细节;必要时再次 SearchEntity 引入新的关键词。通过多轮交替使用这些工具,Agent 逐步构建起一条从问题症状到潜在根因的逻辑路径。锁定目标代码:在形成对问题的全面理解后,Agent 根据「故障链路」中暴露的可疑环节,定位出所有可能需要修改的目标代码实体(可能是若干个函数或类)。随后,Agent 对这些候选实体按相关性进行排序输出,并给出它们的文件路径以及简要的原因说明。

  整个 LocAgent 的使用对用户来说非常简洁:只需输入自然语言的问题描述, LLM Agent 就会如上所述自主地完成一系列搜索、遍历、读取操作,最后给出代码定位结果。

  LocAgent 在真实数据集上的表现和分析结果令人瞩目。研究中使用了既有的基准数据集(SWE-Bench Lite)以及团队新构建的 Loc-Bench,对比了多种基线方法的代码定位效果。

  SWE-Bench Lite 是从 GitHub issue 中构建的仓库级代码修复数据集,也常用于代码定位评估,包含 300 个问题及其对应的修复代码,其中大部分为 bug 报告。基于该基准,LocAgent 实现了目前最优的代码定位准确率,显著优于现有方法。

  相比传统的向量检索方法有显著提升:BM25 在文件级 Acc@5 上仅为 61.7%,而先进的代码嵌入模型如 CodeRankEmbed 也仅达到 84.7%;而 LocAgent 准确率高达 92.7%,在函数级定位中也同样显著优于这些方法。多步推理的 Agent 类方法整体上胜过基于固定流程的方法。基于固定流程的方法(如 Agentless)往往只能依据字面匹配找到有限的候选,而引入了 Agent 逐步探索后,能够考虑更广的范围,定位效果更好。在文件、模块、函数三个粒度上,LocAgent 全面超越了基于 GPT-4o 或 Claude-3.5 的现有 Agent 系统。使用 Claude-3.5 时,LocAgent 在 SWE-Bench Lite 文件级 Acc@5 达到 94%,在函数级定位上同样优于其他方法。LocAgent 搭配 Qwen2.5-32B (微调) 模型的性能几乎与 Claude-3.5 持平:在 SWE-Bench Lite 文件级 Top-5 准确率上,前者为 92.7%,后者约 94.2%,差距很小。而如果使用 Qwen2.5-7B (微调) 小模型,虽然准确率略有下降(约 88.3%,但仍超过绝大多数 baseline),其表现已能够逼近 GPT-4o 的效果。

  由于 SWE-Bench Lite 数据集过于偏重 Bug 类型,团队打造了新的Loc-Bench基准,用于全面评估方法在多样化软件维护任务中的定位能力。Loc-Bench 共包含 560 个真实 GitHub issue,覆盖Bug 修复、功能新增、安全漏洞与性能优化四大类,任务类型更加均衡,贴近实际工程场景。

  这个研究最让人兴奋的地方在于:开源模型经过微调后,也能达到商用大模型的效果。他们提供了两个版本,1. Qwen2.5-7B 微调版:性能媲美 GPT-4o,单次处理成本仅 $0.05;2.Qwen2.5-32B 微调版:逼近 Claude-3.5 水平,成本节省 86%。这对于需要大规模部署的企业来说,这简直是降本增效的神器。

  研究团队验证了一个关键点:更准确的代码定位直接提升问题解决率。在 GitHub 问题自动修复任务中,使用 LocAgent 的 Pass@10 成功率比基线%。这意味着这项技术不仅仅是个「定位工具」,而是能实实在在提升整个软件维护流程效率的利器。

  该团队进一步从不同角度展开分析,探讨其在复杂任务中的稳定性、成本效率、关键组件作用以及对下游应用的实际价值。

  为了深入了解 LocAgent 的能力,该团队还按照任务的难度对性能进行了分析。该团队将「难度」用代码图上函数距离(hop 数)来衡量:即 Issue 描述中提及的函数与实际需要修改的函数之间的最短路径。直观地说,hop=0 表示 Issue 直接提到了需要改的函数名;hop=1 表示目标函数是 Issue 中提到的函数之间有直接关系,hop 数越大则定位难度越高。

  实验发现:随着 hop 数增加,所有方法的定位准确率都在下降。毕竟关联越不直观,模型需要推理的链路就越长。不过,不同方法的鲁棒性差异明显:Agent 类方法在高难度下的性能下降幅度明显小于检索类方法。特别是 LocAgent 借助图结构索引,在 hop 数增加时仍能保持相对较高的准确率,表现出较好的鲁棒性。

  相比之下,传统检索方法在需要两跳以上时几乎失效,在函数级定位上即使目标函数名字就出现在查询里,有时都找不到(因为它们往往把查询当做整体,无法拆解处理细节)。

  借助结构化图索引与工具调用,LocAgent 仅需 6~9 轮交互即可完成一次代码定位任务,推理过程高效。此外,该团队利用开源模型取得了媲美商用大模型的结果,同时大幅降低推理成本,具备实际落地部署的可行性。

  具体来看,使用 Claude-3.5 等商用 API 模型时,每个 Issue 的平均处理成本约为$0.66;而使用本地部署的 Qwen2.5-32B 模型,成本降至约$0.09,降低了86%。若进一步采用 7B 的小模型,处理成本可低至$0.05,仍能保持优于大多数方法的性能。从函数级准确率与成本的比值来看,微调后的Qwen-2.5-7B 是性价比最高的方案,其效率优于所有商用模型;Qwen-2.5-32B 次之,也显著优于 Claude-3.5。这表明,结合 LocAgent 框架,开源模型不仅具备性能竞争力,更具部署经济性。

  为评估代码定位在实际软件维护任务中的影响,该团队进一步分析了 LocAgent 在自动解决 GitHub 问题中的效果。结果表明,随着定位准确率的提升,问题解决成功率显著提高,说明更精准的定位结果能够显著增强自动化代码修改的质量与稳定性。该发现验证了 LocAgent 不仅在定位本身表现优秀,也能有效推动下游任务的整体性能,具备实际工程价值。

  LocAgent 的成功揭示了一个重要趋势:从「暴力计算」到「智能决策」的范式转变。传统方法要么把整个代码库直接丢给 LLM 进行暴力匹配,要么让 Agent 按照预设规则盲目遍历目录,这些都属于「计算密集型」的解决方案。而 LocAgent 通过图索引等结构化中间表示,将复杂问题进行结构化分解,然后让 LLM 承担更高层次的推理和决策任务。

  这种「agentic retrieval」范式的核心在于决策智能化。通过图、树等结构化中间表示,信息变得更易于推理,Agent 能够根据具体问题动态调整搜索策略,而非死板地遵循预设路径。这代表了从「人工设计各种 RAG pipeline」向「让 AI 自主决策如何检索」的转变。

  这种结合结构化索引与 LLM 智能体协同设计的范式,很可能成为未来 AI 工程应用的标准模式。不再是让 LLM 做更多计算,而是让 LLM 做更智能的决策 - 程序员的 debugging 体验又要迎来一次重大升级了!

  “升博最新版APP”不会带团队就只能自己帮别人写作业《求是》发表习重要文章

  05月24日,网红涌向联合国“开会”虚假精英人设注定翻车,新万博maxbextx手机版登陆,新宝网怎样注册,bet8九州体育官网,龙8国际注册App

  05月24日,浙江宁波外贸活力四射 2023年外贸进出口1.28万亿元,大发体育,日博体育网官方注册,试玩,大发体育网投平台

  05月24日,两部门发文细化经营性物业贷款管理——满足房企合理融资需求,线bet注册,综合体育平台成立时间,完美体育手机app最新版

  05月24日韩媒:韩国国会周围情势紧绷,携枪士兵从直升机上空降188体育入口手机版官网乐动力体育网址万博官网买球太阳城线日浙江发生森林火灾 国家消防救援局浙江机动队伍赶赴处置188开户2020欧洲杯四强预测22bet体育体育比分

  05月24日中国国羽时隔十二年再捧双杯AG亚游集团下载凤凰网站是黑平台吗爱游戏苹果版pp体育官方网……

  05月24日,1至10月全国铁路发送旅客37.1亿人次 再创历史同期新高,葡京登录网上,五张牌炸金花规则大小顺序,天博平台怎么样,AG亚游平台

  05月24日,站上7.1万美元 谁在助推比特币的“疯狂”,优德体育官方网址,NBA买球推荐软件下载,英亚体育下载官方,旺球体育官网

  05月24日会见老挝建国阵线中央委员会主席辛拉冯ob欧宝娱乐地址币游娱乐注册账号必威首页登录app十大靠谱信誉娱乐平台

  05月24日,水花消失术如何练成?跳水“梦之队”的“武功秘籍”来了,mg官网app,手机赌场官网,万博登录官网,电竞怎么赌外围

  05月24日,英国政要与马斯克就骚乱问题掀“口水战”,千赢网页版登录,澳门威尼斯人电玩网站,澳门新葡游戏网,新银河唯一官方网站

  05月24日,受大雾影响 浙江客运航线条,mgm美高梅,皇冠买球平台,新京葡萄官网,万博manbetx官网登陆手机版

  05月24日两艘大型国际邮轮同靠吴淞口国际邮轮港kok竞彩官网ballbet贝博网站欧亿下载开云体育官网登录

  05月24日央视快评|满意不满意要看人民群众博狗在线试玩奥门皇冠游戏欧博全站APP银河彩票平台下载

  05月24日台青心系迁台记忆馆建设:“这里有我们的根”金沙在哪开户亚星官方网gpk捕鱼大亨辅助四虎在澳门皇冠

  陈楚河陈哲远在仙剑四里演父子,黑土无言智慧康养难题如何破?官员、学者、业界在上海共同“把脉”金沙全部网址APP365bet娱乐APP官网炸金花app靠谱澳门手机银河

  到了30岁还是,似乎会变成魔法师,各大笔记本避雷合集习主席拉美之行,这些看点值得关注皇冠体育在线可信金沙彩票app莆田新莆京官方网站凤凰彩票电子网投

  人民网评高君雨事件,印度股市将试行T加0结算制度中国战机“硬控”外国来宾 “试驾”战机拍不停小牛牛app云顶娱乐官网地址欧博在线注册万博注册页面在哪找

  北京人在纽约,南北方小年日期为什么不一样上海浦东引领中小企业梯度集群发展捕鱼达人千炮版官方正版下载安装沙巴体育外围app新加坡金沙端澳门百老汇游戏网

  美国一在建机库坍塌致3死9伤,货车追尾司机被困 消防队员快速救援吉林网络零售额突破千亿元大关 人参等四大产品畅销网络威廉官网入口18luck集团mg最大赌场网站顶级网投网站

  死神 千年血战篇 -相克谭-,京东采销直播喊线囊谦自然观察节落幕 记录到396种物种新宝6达七九九47亚新体育在哪玩宝博在线试玩棋牌在线平台

  国乒法国冠军赛0冠收场,穿过月亮的旅行 绝不撤档“新三样”出口首破万亿,释放出怎样的信号?米乐M6最新网址18新利体育开云体育与英超AG平台集团官网