【Ganglia】求教无法正常接收监控数据的问题

环境:
  有 h2、h3、h4 三台机器。其中,h2 安装 gmetad;h3、h4 安装 gmond。
问题:
  h2 的 gmetad 只能接收到 h4 的 part_max_used 性能数据,其它数据都没有接收到。(h3 能正常接收到所有数据)
 
详情如下:
配置:
  • 机器 h2 上配置 gmetad.conf

data_source "dxcluster" 1 h3
 
  • 机器 h3 上配置 gmond.conf

cluster {
name = "dxcluster"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}
udp_send_channel {
mcast_join = h3
port = 8649
ttl = 1
}
udp_recv_channel {
port = 8649
}

  • 机器 h4 上配置 gmond.conf (和 h3 一样)

cluster {
name = "dxcluster"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}
udp_send_channel {
mcast_join = h3
port = 8649
ttl = 1
}
udp_recv_channel {
port = 8649
}

结果:
  只能接收到 h4 的 part_max_used
[caozx@h2 ~]$ ls /var/lib/ganglia/rrds/dxcluster/h4/
part_max_used.rrd
      能接收到 h3 的所有性能数据
[caozx@h2 ~]$ ls /var/lib/ganglia/rrds/dxcluster/h3
boottime.rrd cpu_idle.rrd cpu_steal.rrd disk_free.rrd load_one.rrd mem_shared.rrd pkts_out.rrd swap_total.rrd
bytes_in.rrd cpu_nice.rrd cpu_system.rrd disk_total.rrd mem_buffers.rrd mem_total.rrd proc_run.rrd
bytes_out.rrd cpu_num.rrd cpu_user.rrd load_fifteen.rrd mem_cached.rrd part_max_used.rrd proc_total.rrd
cpu_aidle.rrd cpu_speed.rrd cpu_wio.rrd load_five.rrd mem_free.rrd pkts_in.rrd swap_free.rrd

如果环境换成 h2、h3、h4 三台机器。其中,h2 安装 gmetad;h2、h3、h4 安装 gmond。data_source 和 mcast_join 配置到 h2
则会发生,h2 接收数据正常,h3、h4 只能接收到 part_max_used

fish - Hadooper

赞同来自: 曹志翔

在h2上执行telnet h3 8649,结果是什么样子的?

fish - Hadooper

赞同来自: 曹志翔

看看h2中ganglia相关的log中有没什么线索,比如如果用的apache作为web server,看看 /var/log/httpd/ 下面的日志。   或者,debug模式启动gmetad,在输出log中看能不能找到原因。   (我现在尝试检查的场景是:h2为gmetad,h3、h4为gmond,而且,你所有的机器都配置了:
udp_send_channel {
 mcast_join = h3
 port = 8649
 ttl = 1
}
h2上的gmeta配置中配置了:
data_source "dxcluster" h3
) 你之前说这种情况下h3的指标也都看不见对么?

fish - Hadooper

赞同来自: 曹志翔

我做了如下事情: 1. 在gmond配置中,将bind_hostname设置为yes。
udp_send_channel {
  bind_hostname = yes
2. 在gmeta机器中,将/etc/sysconfig/network根据实际情况,修改了其中的HOSTNAME。

曹志翔

赞同来自:

能正常接收 XML
[caozx@h2 ~]$ telnet h3 8649
Trying 10.170.124.42...
Connected to h3.
Escape character is '^]'.
<?xml version="1.0" encoding="ISO-8859-1" standalone="yes"?>
<!DOCTYPE GANGLIA_XML [
   <!ELEMENT GANGLIA_XML (GRID|CLUSTER|HOST)*>
      <!ATTLIST GANGLIA_XML VERSION CDATA #REQUIRED>
      <!ATTLIST GANGLIA_XML SOURCE CDATA #REQUIRED>
……//此处省略数行
</METRIC>
</HOST>
</CLUSTER>
</GANGLIA_XML>
Connection closed by foreign host.

fish - Hadooper

赞同来自:

memory之类的指标都有么?比如像下面这样的:
<GANGLIA_XML VERSION="3.7.2" SOURCE="gmond">
<CLUSTER NAME="dxcluster" LOCALTIME="1447904016" OWNER="unspecified" LATLONG="unspecified" URL="unspecified">
<HOST NAME="DX2-3" IP="10.116.58.203" TAGS="" REPORTED="1447904008" TN="7" TMAX="20" DMAX="86400" LOCATION="unspecified" GMOND_STARTED="1447158270">
<METRIC NAME="mem_total" VAL="1920740" TYPE="float" UNITS="KB" TN="7" TMAX="1200" DMAX="0" SLOPE="zero">
<EXTRA_DATA>
<EXTRA_ELEMENT NAME="GROUP" VAL="memory"/>
<EXTRA_ELEMENT NAME="DESC" VAL="Total amount of memory displayed in KBs"/>
<EXTRA_ELEMENT NAME="TITLE" VAL="Memory Total"/>
</EXTRA_DATA>
</METRIC>
 

曹志翔

赞同来自:

接收到的性能数据如下,h3 的 metric 就有很多,但 h4 的 metric 只有 1 条
<GANGLIA_XML VERSION="3.7.2" SOURCE="gmond">
<CLUSTER NAME="dxcluster" LOCALTIME="1447903546" OWNER="unspecified" LATLONG="unspecified" URL="unspecified">
<HOST NAME="h3" IP="xxx.xxx.xxx.xxx" TAGS="" REPORTED="1447903544" TN="2" TMAX="20" DMAX="86400" LOCATION="unspecified" GMOND_STARTED="1447836929">
<METRIC NAME="cpu_steal" VAL="0.0" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="load_one" VAL="0.00" TYPE="float" UNITS=" " TN="11" TMAX="70" DMAX="0" SLOPE="both"></METRIC>
<METRIC NAME="mem_total" VAL="1920740" TYPE="float" UNITS="KB" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="os_release" VAL="2.6.32-431.23.3.el6.x86_64" TYPE="string" UNITS="" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="proc_run" VAL="0" TYPE="uint32" UNITS=" " TN="251" TMAX="950" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="load_five" VAL="0.00" TYPE="float" UNITS=" " TN="11" TMAX="325" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="gexec" VAL="OFF" TYPE="string" UNITS="" TN="271" TMAX="300" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="disk_free" VAL="18.399" TYPE="double" UNITS="GB" TN="91" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="mem_cached" VAL="528456" TYPE="float" UNITS="KB" TN="111" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="pkts_in" VAL="179.23" TYPE="float" UNITS="packets/sec" TN="211" TMAX="300" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="bytes_in" VAL="8337.34" TYPE="float" UNITS="bytes/sec" TN="211" TMAX="300" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="bytes_out" VAL="14305.38" TYPE="float" UNITS="bytes/sec" TN="211" TMAX="300" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="swap_total" VAL="0" TYPE="float" UNITS="KB" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">
<EXTRA_DATA>……</METRIC>
<METRIC NAME="mem_free" VAL="1016484" TYPE="float" UNITS="KB" TN="111" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="load_fifteen" VAL="0.00" TYPE="float" UNITS=" " TN="11" TMAX="950" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="os_name" VAL="Linux" TYPE="string" UNITS="" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="boottime" VAL="1439783949" TYPE="uint32" UNITS="s" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="cpu_idle" VAL="99.8" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_user" VAL="0.2" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_nice" VAL="0.0" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_aidle" VAL="99.8" TYPE="float" UNITS="%" TN="31" TMAX="3800" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="mem_buffers" VAL="191440" TYPE="float" UNITS="KB" TN="111" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_system" VAL="0.1" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="part_max_used" VAL="13.0" TYPE="float" UNITS="%" TN="91" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="disk_total" VAL="21.137" TYPE="double" UNITS="GB" TN="8" TMAX="1200" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="mem_shared" VAL="0" TYPE="float" UNITS="KB" TN="111" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_wio" VAL="0.0" TYPE="float" UNITS="%" TN="31" TMAX="90" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="machine_type" VAL="x86_64" TYPE="string" UNITS="" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="proc_total" VAL="101" TYPE="uint32" UNITS=" " TN="251" TMAX="950" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="cpu_num" VAL="1" TYPE="uint16" UNITS="CPUs" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="cpu_speed" VAL="2593" TYPE="uint32" UNITS="MHz" TN="31" TMAX="1200" DMAX="0" SLOPE="zero">……</METRIC>
<METRIC NAME="pkts_out" VAL="12.69" TYPE="float" UNITS="packets/sec" TN="211" TMAX="300" DMAX="0" SLOPE="both">……</METRIC>
<METRIC NAME="swap_free" VAL="0" TYPE="float" UNITS="KB" TN="111" TMAX="180" DMAX="0" SLOPE="both"></METRIC>
</HOST>
<HOST NAME="h4" IP="xxx.xxx.xxx.xxx" TAGS="" REPORTED="1447903544" TN="2" TMAX="20" DMAX="86400" LOCATION="unspecified" GMOND_STARTED="1447836966">
<METRIC NAME="part_max_used" VAL="13.1" TYPE="float" UNITS="%" TN="102" TMAX="180" DMAX="0" SLOPE="both">……</METRIC>
</HOST>
</CLUSTER>
</GANGLIA_XML>

曹志翔

赞同来自:

telnet h4 8649,没有得到任何性能数据
<GANGLIA_XML VERSION="3.7.2" SOURCE="gmond">
<CLUSTER NAME="dxcluster" LOCALTIME="1447908988" OWNER="unspecified" LATLONG="unspecified" URL="unspecified">
</CLUSTER>
</GANGLIA_XML>

曹志翔

赞同来自:

这种情况下 h3 的指标正常(都能看见),h4 的指标看不见

曹志翔

赞同来自:

总结一下问题: 只有 data_source 指定的机器能正常收到性能数据,其它机器均只能收到1条性能数据(part_max_used)   实验一: h2 运行 gmetad,h3、h4 运行 gmond
data_source "dxcluster" h3
udp_send_channel {
 mcast_join = h3
 port = 8649
 ttl = 1
}
h3 能看见性能数据,h4 只能看到 part_max_used   实验二: h2 运行 gmetad,h2、h3、h4 运行 gmond
data_source "dxcluster" h2
udp_send_channel {
 mcast_join = h2
 port = 8649
 ttl = 1
}
h2 能看见性能数据,h3、h4 只能看到 part_max_used  

要回复问题请先登录注册