如何使用阿里云ARMS诊断Java服务端报错问题

摘要: 这是arms团队推出的“网站常见问题1分钟定位系列篇”第二文。
我的网站为什么一错再错网页报错,尤其是5xx错误是互联网应用最常见的问题之一。5xx错误通常发生于服务端。服务端是业务逻辑最复杂,也是整条网络请求链路中最容易出错、出了错最难排查的地方。
运维工程师与研发工程师排查此类问题,通常要通过登录机器查看日志来定位问题。对于一般的java应用错误日志,通常是这幅模样:
一般来说,对于逻辑不算太复杂、历史不算“太悠久”的应用来说,登录机器看日志的方式能够很大程度上地解决网站报错的问题。但遇到下列情况时,使用传统的方式可能就有些困难:
在一个分布式java应用集群中,我想知道这类错误每分钟发生了多少次,什么时候开始发生的;
系统太老,遗留异常我不想管了,我只想知道,今天和昨天相比,发布前和发布后相比,多了哪些异常;
我想知道这个错误对应的是哪个web请求,web请求的参数是什么;
客服给了我一个用户下单失败的订单号,我想知道这个用户下单为啥失败,到底哪里错了;
使用阿里云arms的0埋点技术,1分钟定位“错”问题利用阿里云arms(应用实时监控 - 链接)的异常自动捕捉、收集、统计、溯源能力,您只需要在您的应用启动脚本中增加几行探针加载逻辑 - 链接,不需要对您的应用代码做任何改动,即可以让应用中所有“错”调用无处可逃。
1、对应用中的所有错误进行全方位监控,只需要安装arms java探针(如果您的应用托管于edas,您甚至可以跳过这一步 - 链接)
开通arms,并创建应用;
下载java探针包并解压;
在java应用启动脚本中增加 -javaagent:/{user.workspace}/armsagent/arms-bootstrap-1.7.0-snapshot.jar -darms.licensekey=xxx -darms.appid=xxx (appid和licensekey根据页面分配的信息填写,详情可看 - 链接)
打开arms页面,数据开始上报,验证java探针安装成功。
2、所有“错”一览无余
成功安装探针后,在应用概览中我们立即就能看到系统中发生的所有“异常”,异常类型的分布以及发生次数。
点击“应用详情”,可以看到更详细的异常分布图,您可以看到集群或者单台机器的错误详情,从下图中,我们可以看到从11点开始系统的错误发生了激增的现象!
3、错误溯源:找到导致错误的原因
光看到错误的分布还远远不够,我们需要知道这个错误发生的原因。虽然日志中java的异常堆栈中包含了调用的代码片段,但并不包含这次调用的完整上下游和请求参数。
arms的探针技术,通过字节码增强技术,可以以很小的性能开销完整捕获异常上下游的完整调用快照,让异常的原因更加清晰。
我们可以从调用链快照中清晰地看到一次异常中的完整链路,我们甚至可以看到这次调用的详细的请求参数和异常日志,以获得更加详细的问题上下文信息。
至此,我们完成了一次全白屏化的线上错误诊断过程,通过arms探针诊断工具,再也不需要登录机器诊断线上错误问题了。
4、防患于未然 -- 设置告警
当然,您可以在arms的告警设置中对某一个接口或全部接口设置告警,让页面接口出现错误时第一时刻通知到您的运维团队。
原文链接
本文为云栖社区原创内容,未经允许不得转载。

碳化和硫化合成的的海绵状复合材料将提高电化学储能性能
天玑1100和unisoc t610区别
Linux内核外部中断解析(上)
智能家电亟待“适老化” 让老年人的晚年生活实现真正的智能化
浅谈LM1117 5V转4V电压的做法
如何使用阿里云ARMS诊断Java服务端报错问题
人工智能如何更好地实现人性化和建立自身可信度
一文讲述Quadro RTX 5000带来的性能提升
土壤养分快速检测仪优势
天嵌科技OV3640摄像头模块介绍
华为:拥抱数字化机遇,共建智能世界
明年年中内存的价格会重回涨势
“基因硬盘”千年存储:英国DNA新存储技术
中芯国际S2/FAB 8通过ISO 27001信息安全管理体
集成运放组成的多谐振荡器电路
为什么现在不应该购买比特币
智能音箱行业渐趋冷静 带屏或将成为新潮流
安森美半导体与Stegia共推超小型智能电机方案
为什么触摸一体机越来越多?
从A股2019年年报看国产MCU 上市公司的市场表现