rrdcached stops after ~20 minutes; OMD partially running

This forum was archived to /woltlab and is now in read-only mode.
  • Hi,

    wie im Titel schon beschrieben, wechselt der rrdcached service immer nach ungefähr 20 Minuten in den "stopped" Modus, wodurch ich eine Notification bekomme, dass mein System nur noch "partially running" ist und sich in kritischem Zustand befindet.


    omd status gibt dann folgendes aus:

    Code
    1. [root@xxxxx etc]# omd status
    2. Doing 'status' on site cm:
    3. mkeventd:       running
    4. rrdcached:      stopped
    5. npcd:           running
    6. nagios:         running
    7. apache:         running
    8. crontab:        running
    9. -----------------------
    10. Overall state:  partially running


    Wenn ich per "omd restart" das ganze neu starte, kommt folgendes:


    Danach läuft alles wieder so ca. 20 Minuten und es geht von vorne los. Leider werde ich aus der Meldung, die beim stoppen des services kommt auch nicht schlau, daher wäre ich sehr dankbar wenn mir jemand weiter helfen kann.


    OS: CentOS 7

    Version: Raw 1.2.8p15 (Installation über package)


    (Die Suche im Forum ergab einen ähnlichen Thread (siehe hier) dessen Lösung leider auch nicht geholfen hat.)


    Vielen Dank!

  • Hi,

    herzlichen Dank schonmal für die Antwort!


    Hier die Einträge des Logs:


    Ist daraus ersichtlich was zum Absturz des Service führt?


    Vielen Dank!

  • Der rrd_update kann stürzt beim localhost_i71pc33 ab (Zeilen 1,2, 30-38). Könnte mit den malformed entries zusammenhängen. Vielleicht sind die rrd Dateien bzw. der übergeordnete Ordner für den CMK/OMD user nicht beschreibbar, dadurch würde die -1 als exit status entstehen.

  • Hi,

    danke für eure Antworten! Freut mich, dass hier einem Neuling in Not so gut geholfen wird :)


    Alle Dateien unter

    /opt/omd/sites/cm/var/rrdcached

    haben den OMD user als owner mit Lese- und Schreibrechten. An der Front sollte also alles okay sein.


    Die XML-Dateien in /opt/omd/sites/cm/var/pnp4nagios/perfdata/localhost_i71pc33/ habe ich gecheckt und folgendes im TXT-Tag gefunden:

    Code
    1.   <RRD>
    2.     <RC>1</RC>
    3.     <TXT>Unable to connect to rrdcached: Verbindungsaufbau abgelehnt</TXT>
    4.   </RRD>

    Eine kurze Google-Suche hat folgenden Lösungsvorschlag hervorgebracht, der leider auch nicht funktioniert hat:

    "Adding following in /etc/hosts.allow did solve the issue:"

    Code
    1. rrdcached: localhost


    Dadurch hänge ich leider immer noch in der Luft. Weiterhin das gleiche Problem. Über weitere Tipps bin ich sehr dankbar!

  • Hier noch das aktuelle rrdcached.log

    Bringt es vielleicht etwas, die journals zu löschen?

  • Schau' 'mal u.a. hier. Dort gibt es u.a. Hinweise auf Optionen beim Aufruf von rrdcached. Vielleicht ist dort etwas zu ändern.

    Mit welchem Benutzer läuft der rrdcached-Prozess?


    Edit: Mich wundert, daß rrdcached eine Zeitlang läuft. Allerdings vermute ich, daß in dieser Zeit keine RRD-/XML-Dateien aktualisiert werden.


    Quote

    Bringt es vielleicht etwas, die journals zu löschen

    Ich glaube nicht, denn man sieht, daß der Fehler erst lange nach dem Replay der Journale auftritt.

  • So, nach viel Hin und Her ist das Problem jetzt gelöst:


    Kurz gesagt, die Festplatte des Check_MK Systems war defekt. Das System lief zwar noch, aber aufgrund der defekten Blocks kam es zu diesen mysteriösen Fehlern. Nach einem Austausch der Festplatte und einer Neuinstallation des Systems geht alles wieder einwandfrei.


    Vielen Dank an alle für die Hilfe! Ich hoffe das ist nützlich falls jemand einmal das gleiche Problem haben sollte.