Grafana如何展示服务指标_监控可视化方案
技术百科
P粉602998670
发布时间:2026-01-27
浏览: 次 Prometheus+Grafana是最稳通用的服务监控方案,Prometheus专为服务指标设计,需应用自暴露/metrics,写PromQL要加流量过滤防误告警,推荐复用Node Exporter模板并用Grafana变量实现多服务/环境联动。
直接用 Prometheus + Grafana 是最稳、最通用的服务指标监控可视化方案,其他组合(如 InfluxDB)适合特定场景但生态适配成本更高。
选对数据源:Prometheus 是服务指标的默认事实标准
Prometheus 天然适配服务类指标(HTTP 请求量、错误率、延迟 P95、gRPC 状态码等),因为它的拉取模型、多维标签(job、instance、endpoint、status_code)和 PromQL 函数(rate()、histogram_quantile()、sum by())专为这类时序服务指标设计。
- 别用 InfluxDB 直接对接应用埋点——InfluxQL 缺乏原生的 rate 计算和多维下钻能力,写个“过去 5 分钟 4xx 错误占比”要嵌套子查询,易错且难维护
- Node Exporter 只管主机层;服务指标必须由应用自己暴露
/metrics(如 Spring Boot Actuator + Micrometer、Go 的promhttp) - 确认你的服务已启用 Prometheus 格式指标端点,访问
http://your-service:8080/actuator/prometheus或类似路径,能看到形如的原始指标
http_requests_total{method="GET",status="200"} 12345
写准 PromQL:避免错误率告警误触发的两个关键
服务监控最常踩的坑是错误率计算不加流量过滤,导致低流量时段一两个失败就触发告警。核心原则:只对有真实业务流量的系列做 rate 计算。
- ✅ 正确写法(带基数过滤):
rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m])—— 但仅当整体请求量足够大时才可靠 - ✅ 更健壮写法(双重保护):
(rate(http_requests_total{status=~"5.."}[5m]) > 0.1) and (rate(http_requests_total[5m]) > 10)—— 要求错误率 >10% 且 总请求速率 >10 QPS,两者同时满足才告警 - ❌ 危险写法:
sum(rate(http_requests_total{status=~"5.."}[5m])) by (job) / sum(rate(http_requests_total[5m])) by (job)—— 如果某个 job 某分钟只发了 1 个请求且失败了,结果就是 100%,但毫无业务意义
导入还是手搭?从 Node Exporter 全景模板起步,再叠加服务专用面板
别从零建 Dashboard。Grafana 官方模板 ID 1860(Node Exporter Full)已验证稳定,覆盖 CPU、内存、磁盘、网络基础项,可直接复用其变量(如 $instance、$job)和服务指标面板共用。
- 导入后,在「Variables」里检查
job变量 query 是否包含你的服务 job 名,例如:label_values(job)→ 若没显示,说明 Prometheus 还没抓到你的服务,回去检查prometheus.yml中的scrape_configs - 新增服务面板时,Metrics browser 输入框里先输
http_requests_total,回车看是否列出带job="my-api"的时间序列;没有就说明采集链断在 exporter 或网络层 - 高频操作:点击面板右上角
⋯ → Edit → Metrics → Add query,不要反复新建面板——一个 Dashboard 放 6–12 个相关面板即可,太多反而干扰判断
变量联动:让一个 Dashboard 同时查多个服务、多个环境
靠手动改 PromQL 里的 job="prod-api" 切换服务?太慢还易错。用 Grafana 变量实现一键切换。
- 新增变量 → Name 填
service→ Query 类型选Label values→ Label 填job→ Metric 填http_requests_total(确保该指标在所有目标服务中都存在) - 在所有 PromQL 中把硬编码替换为
{job=~"$service"},支持多选(按住 Ctrl);若只想单选,Variable 设置里勾选Multi-value和Include All option - 进阶:用
Query result类型变量做级联筛选,比如先选env="prod",再自动列出该环境下所有job—— 查询写成:label_values(http_requests_total{env="$env"}, job)
真正难的不是画图,而是让每个指标背后都有明确的 SLO 意义:这个 P95 延迟超多少算影响用户体验?那个错误率持续多久才值得人半夜爬起来?可视化只是把问题摊开,决策依据得提前和业务方对齐。
# 这类
# 更高
# 太多
# 都有
# 多维
# 多个
# 进阶
# 专为
# 还没
# 复用
# http
# go
# golang
# 编码
# igs
# node
# 状态码
# spring
# include
# prometheus
# grafana
# spring boot
相关栏目:
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
AI推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
SEO优化<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
技术百科<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
谷歌推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
百度推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
网络营销<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
案例网站<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
精选文章<?muma echo $count; ?>
】
相关推荐
- 如何用列表一次性对 DataFrame 的指定列应
- 本地php环境出现502错误_nginx或apac
- Win11怎么退出微软账户_切换Win11为本地账
- 如何使用Golang读取日志文件_Golang b
- php怎么下载安装后设置错误日志_phpini l
- Linux如何安装Tomcat应用服务器_Linu
- Windows10如何删除Windows.old_
- C++如何使用Qt创建第一个GUI窗口?(入门教程
- c++怎么处理多线程死锁_c++ lock_gua
- Python爬虫项目实战教程_Scrapy抓取与存
- Win11怎么更改系统语言为中文_Windows1
- Win11如何添加/删除输入法 Win11切换中英
- VSC怎样在VSC中调试PHPAPI_接口调试技巧
- Win11资源管理器卡顿怎么办 Win11文件资源
- 如何使用Golang理解结构体指针方法接收者_Go
- C#如何使用XPathNavigator高效查询X
- ACF 教程:正确更新嵌套在多层 Group 字段
- MAC如何修改默认应用程序_MAC文件后缀关联设置
- 小程序里php怎么变mp4_小程序调用php生成m
- Win11如何设置系统声音_Win11系统声音调整
- Win11怎么更改电脑名称_Windows 11修
- 如何在JavaScript中动态拼接PHP的bas
- Go语言中slice追加操作的底层共享机制解析
- Win11怎么关闭自动调节亮度_Windows11
- Win11怎么关闭搜索历史 Win11清除搜索框最
- Linux怎么禁止Root用户远程登录_Linux
- Windows10如何更改任务栏高度_Win10解
- 如何使用Golang构建基础消息队列模拟_Gola
- Go 中 defer 在 goroutine 内部
- Linux如何申请SSL免费证书_Linux下Ce
- Win11如何连接Xbox手柄 Win11蓝牙连接
- Win11怎么设置默认终端应用_Windows11
- PyTorch DDP 多进程训练在 Kaggle
- Mac怎么安装软件_Mac安装dmg与pkg文件的
- Win11怎么设置虚拟内存最佳大小_Windows
- Windows10系统服务优化指南_Win10禁用
- Win11怎么查看激活状态_查询Windows 1
- PythonPandas数据分析项目教程_时间序列
- 为什么Go需要go mod文件_Go go mod
- 如何在 IIS 上为 ASP.NET 6 应用排除
- Win11怎样彻底卸载自带应用_Win11彻底卸载
- 如何高效获取循环末次生成的 NumPy 数组最后一
- PHP怎么接收前端传的时间戳_处理时间戳参数转换技
- Windows系统时间服务错误_W32Time服务
- Win11怎么开启游戏模式_Windows11优化
- Mac怎么给文件夹加密_Mac创建加密磁盘映像教程
- 如何用::实现工具类方法调用_php静态工具类设计
- 如何使用Golang实现Web表单数据绑定_自动映
- 如何理解Go指针和内存分配关系_Go Pointe
- Python对象比较与排序_魔术方法解析【教程】


QQ客服