Lenny + munin: cpu plugin probléma [megoldva]

Fórumok

Lenny alatt a cpu monitorozás időnként kihagy.
A vonatkozó rdd fájlt kidumpolva:


 <!-- 2008-11-01 19:55:00 CET / 1225565700 --> <row><v> 3.9937190356e+02 </v></row>
 <!-- 2008-11-01 20:00:00 CET / 1225566000 --> <row><v> 3.9991380292e+02 </v></row>
 <!-- 2008-11-01 20:05:00 CET / 1225566300 --> <row><v> NaN </v></row>
 <!-- 2008-11-01 20:10:00 CET / 1225566600 --> <row><v> NaN </v></row>
 <!-- 2008-11-01 20:15:00 CET / 1225566900 --> <row><v> NaN </v></row>
 <!-- 2008-11-01 20:20:00 CET / 1225567200 --> <row><v> 3.9970766187e+02  </v></row>
 <!-- 2008-11-01 20:25:00 CET / 1225567500 --> <row><v> 3.9978561237e+02 </v></row>

A munin és munin-node közti kapcsolat rendben van, minden más grafikon rendesen elkészül.
A munin-node.log is ezt jelzi:


 2008/11/01-19:55:01 CONNECT TCP Peer: "127.0.0.1:55212" Local: "127.0.0.1:4949"
 2008/11/01-20:00:01 CONNECT TCP Peer: "127.0.0.1:38314" Local: "127.0.0.1:4949"
 2008/11/01-20:05:01 CONNECT TCP Peer: "127.0.0.1:39646" Local: "127.0.0.1:4949"
 2008/11/01-20:10:01 CONNECT TCP Peer: "127.0.0.1:49825" Local: "127.0.0.1:4949"
 2008/11/01-20:15:01 CONNECT TCP Peer: "127.0.0.1:36106" Local: "127.0.0.1:4949"
 2008/11/01-20:20:01 CONNECT TCP Peer: "127.0.0.1:41377" Local: "127.0.0.1:4949"
 2008/11/01-20:25:01 CONNECT TCP Peer: "127.0.0.1:54877" Local: "127.0.0.1:4949"

Sőt, a munin-update.log alapján nem is "döglődik" a cpu plugin:


 Nov 01 19:55:01 [16589] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 19:55:02 [16589] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:00:02 [16735] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:00:03 [16735] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:05:01 [16881] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:05:02 [16881] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:10:02 [17027] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:10:03 [17027] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:15:02 [17173] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:15:03 [17173] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:20:01 [17332] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:20:02 [17332] - Fetched service: localhost.localdomain -> cpu (0.04 sec)
 Nov 01 20:25:01 [17478] - Configured service: localhost.localdomain -> cpu (0.05 sec)
 Nov 01 20:25:02 [17478] - Fetched service: localhost.localdomain -> cpu (0.04 sec)

Mi lehet a gond, mit kellene még megnéznem?

Hozzászólások

Tanulságképp legyen itt a megoldás is...

A cpu információk közül is csak a cpu.idle adatok hiányoztak, a cpu.user, cpu.system stb. értékek minden időpontban rendesen meg voltak.

A gondot az okozta, hogy egy bivaly erős gépről van szó, ami gyakorlatilag 100-ban idle.
Mivel a cpu.idle DERIVE típusú, ezért úgy számolja a munin, hogy 5 percenként kiolvassa a /proc/stat-bol, hogy mennyi időt volt idle a proci, és ezt leosztja 600 másodperccel.

Ha a proci "nagyon idle" és a lekérdezések közt nem pontosan 600 másodperc telik el, hanem egy kicsit több, akkor előfordulhat, hogy az így számított érték nagyobb lesz, mint 100%, ami viszont nagyobb, mint a cpu.idle.max értéke, ezért a munin téves adatnak tartja, és eldobja!

Megoldás:
a munin.config-ban a node megadásakor az alábbi sort is hozzáírjuk:


cpu.idle.max 101

Több processzormagos gépeknél persze a 101 helyére 202, 404, 808, stb. kerül.