Posts by KlaMu

This forum was archived to /woltlab and is now in read-only mode.

    Hallo


    Ich habe heute Nagvis von Version 1.8.3 auf 1.9.3 upgegraded.


    und habe folgendes problem:

    Bei jeder map die ich aufrufe (auch bei den DEMO-maps) :




    das passiert nur bei IE (11, andere weiß ich nciht) und nur wenn ich die map in einem Frameset über einen link aufrufe

    also: <a href="/nagvis/frontend/nagvis-js/index.php?mod=Map&act=view&show=Network" target="main"><img border="0" src="/nagios/images/status3.gif">Network status</a><br>


    -> FF,Chrome funktioniert

    -> wenn die maps in einem ganzen Fenster (oder target=_blank) gestarted werden funktioniert alles


    mit version 1.8.3 gabs diesen Fehler nicht.


    zur info:

    -> OS Centos 6 , Nagios 4.1.1, Thruk, NSClient++, Nagvis 1.9.3, Distributed monitoring, ........


    Vielen Dank im voraus


    Klaus

    Danke für die schnelle Antwort


    Stimmt:
    unter Nagios 4.1.1 mit Livestatus 1.2.6p10 :


    wenn ich eine livelink-query über einen service mache (der keine Comments hat) von einem Host (mit Comments) bekomme ich


    bei: "host_comments" den gleichen inhalt wie bei "comments" und
    bei: "host_comments_with_extra_info" den gleichen inhalt wie bei "comments_with_extra_info"


    unter Nagios3.3.1 mit Livestatus 1.1.12p6
    ist alles richtig:
    host_comments und host_comments_with_extra_info zeigen die comments für den Host and
    comments und comments_with_extra_info sind leer (weil für den Service keine Comments vorhanden sind)


    das ist also ein bug in livestatus ... werd mich mal da auf die Suche machen,


    danke

    Hallo


    bin gerade dabei meine "zentrale" Nagios-instanz auf Thruk-frontend umzustellen (mit Nagios 4.1) und habe festgestellt
    dass das Icon für Comments (Sprech-blase) von Hosts auf alle Services "repliziert" wird.


    also:
    wenn ich einen Service mit einem Comment habe - dann funktionierts (Commet-icon nur beim Service)
    wenn ich einen Host mit einem Comment habe - dann wird auf allen Services dieses Hosts ein Icon angezeigt - obwohl gar kein Comment für den Service vorhanden ist.


    comments sind für uns ziemlich wichtig, da wir automatisch Tickets erzeugen und die Ticket-nummer im Comment verwalten


    mit dem Nagios-cgi funtionierts wie gehabt



    gibt es da eine Einstellung in Thruk um Host-comment-icons nur beim Host anzuzeigen?


    Gruß


    Klaus

    habs gefunden:


    NDO !


    da meine Mysql-db sehr langsam wurde, wegen den vielen daten die ich für historien-auswertung halte . habe ich vor einiger Zeit einen batch-job (cron) gemacht der nagios_service-checks regelmäsig deletet.


    da der delete auch sehr lange dauert, locked das die Tabelle (ISAM) ziemlich lange.. war mir so gar nicht bewust.


    immer wenn die mysql-DB "locked" war, habe ich daten über OCP -> nsca verloren !


    solution:
    ich kopier jetzt meine "langzeitanalyse-daten" in eine andere tabelle, und truncate die nagios_servicechecks .... seit dem ist alles OKAY


    .. ich weiß zwar nicht was der NDO-broker mit dem OCP-deamon (über fifo) zu tun hat (da ja die service-check sauber laufen, nur die anschließende übertragung zum Zentralen Nagios-server hängt) ... aber ... für mich ist das jetzt gelöst!!


    .... nur für den Fall das jemand anderes so ein Problem hat



    danke für die Hilfe


    Klaus

    Hallo


    Ich habe eine einfache Frage, und denke dass das eigentlich jeder bräuchte, habe aber beim googlen nichts gefunden:


    also -
    meine hosts sind gruppiert in hostgroups (Europa > Muenchen ) ..usw
    meine service-checks sind gruppiert in servicegroups (SAV-status , WSUS-status, Backup-status) ... usw


    status.cgi gibt mir aber entweder host-groups oder servicegroups


    ich möchte aber einen link (status.cgi) der alle hosts in Hostgroup: Berlin und nur die servicegroup WSUS-status anzeigt !
    (-> also alle WSUS-status von allen hosts in Muenchen)


    ich könnte jetzt service-groups für jede Host-group anlegen (z.b. MUC_WSUS-status... aber das is nicht gerade elegant und bei .


    geht das besser ??



    danke


    klaus

    ohne debug:


    in Nagios.log:
    [1330003447] livestatus: error: Undefined request header 'Negate:'



    mit debug:



    [1330003647] livestatus: Starting 10 client threads
    [1330003659] livestatus: Query: GET hostsbygroup
    [1330003659] livestatus: Query: Filter: groups >= linux-servers
    [1330003659] livestatus: Query: Stats: has_been_checked = 0
    [1330003659] livestatus: Query: Stats: state = 0
    [1330003659] livestatus: Query: Stats: has_been_checked != 0
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003659] livestatus: Query: StatsAnd: 3
    [1330003659] livestatus: Query: Stats: state = 0
    [1330003659] livestatus: Query: Stats: has_been_checked != 0
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003659] livestatus: Query: StatsAnd: 3
    [1330003659] livestatus: Query: Stats: state = 1
    [1330003659] livestatus: Query: Stats: acknowledged = 0
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003659] livestatus: Query: StatsAnd: 3
    [1330003659] livestatus: Query: Stats: state = 1
    [1330003659] livestatus: Query: Stats: acknowledged = 1
    [1330003659] livestatus: Query: StatsAnd: 2
    [1330003659] livestatus: Query: Stats: state = 1
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003659] livestatus: Query: StatsAnd: 2
    [1330003659] livestatus: Query: Stats: state = 2
    [1330003659] livestatus: Query: Stats: acknowledged = 0
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003659] livestatus: Query: StatsAnd: 3
    [1330003659] livestatus: Query: Stats: state = 2
    [1330003659] livestatus: Query: Stats: acknowledged = 1
    [1330003659] livestatus: Query: StatsAnd: 2
    [1330003659] livestatus: Query: Stats: state = 2
    [1330003659] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003659] livestatus: Query: StatsAnd: 2
    [1330003659] livestatus: Query: StatsGroupBy: hostgroup_name hostgroup_alias
    [1330003659] livestatus: Query: OutputFormat:json
    [1330003659] livestatus: Query: KeepAlive: on
    [1330003659] livestatus: Query: ResponseHeader: fixed16
    [1330003659] livestatus: Time to process request: 97 us. Size of answer: 54 bytes
    [1330003660] livestatus: Query: GET servicesbyhostgroup
    [1330003660] livestatus: Query: Filter: host_groups >= linux-servers
    [1330003660] livestatus: Query: Filter: host_name ~~ .+
    [1330003660] livestatus: Query: Filter: service_description ~~ HTTP
    [1330003660] livestatus: Query: Negate:
    [1330003660] livestatus: error: Undefined request header 'Negate:'
    [1330003665] livestatus: Query: GET hostsbygroup
    [1330003665] livestatus: Query: Filter: groups >= linux-servers
    [1330003665] livestatus: Query: Stats: has_been_checked = 0
    [1330003665] livestatus: Query: Stats: state = 0
    [1330003665] livestatus: Query: Stats: has_been_checked != 0
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003665] livestatus: Query: StatsAnd: 3
    [1330003665] livestatus: Query: Stats: state = 0
    [1330003665] livestatus: Query: Stats: has_been_checked != 0
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003665] livestatus: Query: StatsAnd: 3
    [1330003665] livestatus: Query: Stats: state = 1
    [1330003665] livestatus: Query: Stats: acknowledged = 0
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003665] livestatus: Query: StatsAnd: 3
    [1330003665] livestatus: Query: Stats: state = 1
    [1330003665] livestatus: Query: Stats: acknowledged = 1
    [1330003665] livestatus: Query: StatsAnd: 2
    [1330003665] livestatus: Query: Stats: state = 1
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003665] livestatus: Query: StatsAnd: 2
    [1330003665] livestatus: Query: Stats: state = 2
    [1330003665] livestatus: Query: Stats: acknowledged = 0
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth = 0
    [1330003665] livestatus: Query: StatsAnd: 3
    [1330003665] livestatus: Query: Stats: state = 2
    [1330003665] livestatus: Query: Stats: acknowledged = 1
    [1330003665] livestatus: Query: StatsAnd: 2
    [1330003665] livestatus: Query: Stats: state = 2
    [1330003665] livestatus: Query: Stats: scheduled_downtime_depth > 0
    [1330003665] livestatus: Query: StatsAnd: 2
    [1330003666] livestatus: Query: StatsGroupBy: hostgroup_name hostgroup_alias
    [1330003666] livestatus: Query: OutputFormat:json
    [1330003666] livestatus: Query: KeepAlive: on
    [1330003666] livestatus: Query: ResponseHeader: fixed16
    [1330003666] livestatus: Time to process request: 87 us. Size of answer: 54 bytes
    [1330003666] livestatus: Query: GET servicesbyhostgroup
    [1330003666] livestatus: Query: Filter: host_groups >= linux-servers
    [1330003666] livestatus: Query: Filter: host_name ~~ .+
    [1330003666] livestatus: Query: Filter: service_description ~~ HTTP
    [1330003666] livestatus: Query: Negate:
    [1330003666] livestatus: error: Undefined request header 'Negate:'



    habe das jetzt auf einem test-server deshalb HTTP stat WSUS patches


    danke
    Klaus

    hmm
    sobald ich exclude_members=.+~~WSUS check Patches einfüge geht der status aller (auch die nicht-geänderten) auf


    Summary State ERROR
    Summary Output: Problem (Backend: my_live): connection Problem (Backend: my_live): Problem while writing to socket /usr/local/nagios/rw/live in backend my_live: Connection terminated.



    hier meine definition:



    define hostgroup {
    object_id=7f0dfa
    hostgroup_name=Agile
    x=438
    y=103
    iconset=std_big
    label_show=0
    label_text=Agile
    label_x=+35
    label_y=+8
    label_background=#F0F0F0
    exclude_members=.+~~WSUS check Patches
    }



    klaus

    Hi


    Ich versuche in einer Nagvis-map mit exclude_members alle checks in einer windows-hostgroup den service-check WSUS cehck Patches "auszublenden"


    das funktioniert by backend ndomy


    aber die gleiche syntax by mk_livestatus bringt connection-problem bei "allen" icons



    ich habe:
    exclude_members=.~~WSUS check Patches


    Nagvis 1.6.1


    funktioniert das mit mk_livestatus noch nicht ? oder muss ich Nagvis upgraden ?


    Klaus

    also


    NSCA ist 2.7.2 (debug hab ich ausgeschaltet da es mein messages file so überfüllt hat). Ich werds mal wieder einschalten


    Ich sehe gerade dass es NSCA 2.9.1 gibt mit einigen fixes für "time-stamp -issues" (könnte mein problem sein)


    hmm - im nsca.cfg steht : max_packet_age=30
    (mein Zentraler nagios-server steht in USA und die distributed sind u.a. in Europa und Asien,)
    da kann ein packet schon mal 30 sec unterwegs sein


    Ich denke jetzt (wie du schon sagts) - dass das eher ein NSCA-problem ist und kein OCP_daemon-problem


    danke

    Quote

    ist das nagios 3.3.1?

    Ich habe 4 distributed nagios-servers und 1 zentralen nagios-server - alle sind nagios 3.3.1

    Quote

    wie?


    # tar xzf nagios-3.3.1.tar.gz
    # cd nagios


    # vi ./xdata/xpddefault.c
    - remove lines (after bail early if we’ve got nothing .. (Lines 384-390 and ~ 426-431).

    # ./configure --with-command-group=nagcmd
    # make all
    # make install

    ..................


    Quote

    wenn man der anleitung glauben schenken darf, named pipe.

    also ist service_perfdata_file_mode=p richtig



    außerdem: die replikation läuft 90% richtig - also - ein service-check läuft alle 30 minuten und repliziert richtig zum zentralen Server, nur manchmel (1 oder 2 mal am tag) funktionert das nicht, beim nächsten check wird wieder richtig repliziert ??

    HI


    ja - alle sind 3.3.1 und die xpddefault.c hab ich schon beim upgrade angepasst.


    meine settings für perfdata sind so:



    perfdata_timeout=5
    process_performance_data=1


    host_perfdata_file=/usr/local/nagios/var/host-perfdata.fifo
    host_perfdata_file_template=$HOSTNAME$\t$HOSTSTATEID$\t$HOSTOUTPUT$|$HOSTPERFDATA$
    host_perfdata_file_mode=p
    host_perfdata_file_processing_interval=0


    service_perfdata_file=/usr/local/nagios/var/service-perfdata.fifo
    service_perfdata_file_template=$HOSTNAME$\t$SERVICEDESC$\t$SERVICESTATEID$\t$SERVICEOUTPUT$|$SERVICEPERFDATA$
    service_perfdata_file_mode=p
    service_perfdata_file_processing_interval=0



    hmmm - wird das fifo-file als pipe oder als file addressiert ??

    Hallo


    Ich habe eine "distributed" - Nagios Umgebung, wo 4 "distributed Servers" auf einen Zentralen Server "replizieren" (ueber WAN)
    auf den distributed Serven läuft der OCP-daemon und schickt per nsca alle service-check-results zum Zentralen Server
    Host-checks werden aktive auf dem Zentralen und distirb. Server gemacht.


    funktionert soweit alles prima, latency ist ok, performance auf den Nagios-server okay.


    aber - ca. 5 % der service-check-results kommen auf dem zentralen Server nicht an :-(


    ich hab das festgestellt, weil ich auch ndo im einsatz habe und auf der mysql-db die last-check-results (date) von einigen hosts mit dem zentralen Host vergleiche - und mir ein mail schicken lass wenn der unterschied > 30 sec ist


    NDO ist nicht das problem da ich sobald ich ein mail bekomme auf dem "web-frontend" kontrolliere


    das ist mein OCP-daemon start:


    su - nagios -c "/usr/local/nagios/bin/OCP_daemon -f /usr/local/nagios/var/host-perfdata.fifo,/usr/local/nagios/var/service-perfdata.fifo -n /usr/local/nagios/bin/send_nsca -H xxx.xxx.xxx.xxx -c /usr/local/nagios/etc/send_nsca.cfg -r 1 &"
    }


    gibt es irgend wo ein "log" oder ein "debug" wie ich dem problem auf die spur komme ? (ich habe ja das netzwerk im verdacht - muss das aber irgend wie beweisen)




    danke


    Klaus

    OKAY - danke für die antworten,


    Ich habe jetzt einfach nagivs-make-admin in 3 neue scripts copiert und angepasst (das ist so einfach, dass ichs hier gar nicht posten will)
    - nagvis-make-new-user
    - nagvis-make-new-role
    - nagvis-assing-user2roles


    da ich Ldap-authentication auf meinem Web-server verwende , brauch ich das password in der users-DB nicht (wird ja über Ldap geprueft)


    das nagvis-assing-user2roles erspart mir auch das frontend für die userverwaltung


    funktioniert alles prima



    Klaus

    die Permissions habe ich bereits (da meine maps von scripts erzeugt werden).


    werde mich mal an ein Script wagen, dass SQLite mit usern und rollen updated, brauche ich sowieso, da sich dei Benutzer bei mir häufig ändern.


    noch ne frage:
    gibt es einen link der nur "Manage Users" anzeigt? Ich würde gerne meinen "key-usern" die möglichkeit geben "User" zu "Rollen" zuzuweisen ohne den Nagvis-header (User menu ...) zu benutzen (der ist bei mir immer ausgeblendet ?


    Klaus

    okay


    ich denke ich hatte eine falsche Vorstellung von RRD's. Werde mir mal eine Test-installation machen und "check-results" sammeln.


    Ich habe keine Zweifel dass dies parallel zu meinem NDOgrapher (http://exchange.nagios.org/dir…ng/ndo2db-grapher/details) läuft.


    so wie ich die "PNP4Nagios" oder "nagiosgraph" verstehe erlaubt das tool nur performance-daten von einzelnen services auszuwerten, nicht aber alle disks einer hostgroup oder service-group ?


    Ich kann natürlich "pseudo-hosts" in der RRD-DB erzeugen die alle "results" kumuliert ... ist aber nicht so elegant .


    irgend eine idee ?

    Um ehrlich zu sein, schaue ich mir "diese" performance und trending-tools die ganze zeit an, habe die Frage aber ein bisschen "breiter" gestellt, da das project nicht "ausschließlich" mit Nagios zu tun hat. Könnte mir vorstellen dieses Tool auch für andere apps zu verwenden.


    - im Einsatz habe ich ndographer: funktioniert für "kurz-zeit"analyse-graphing einzelner service-checks ganz gut (output ist ein bisschen hölzern), für langzeit-betrachtungen wird die DB aber zu groß. Deshalb denke ich einen separaten Server für "langzeit" einzusetzten.


    ich dachte eigentlich dass RRD-DB's nicht unbedingt die richtige Herangehensweise ist, da ich ja nichts überschreiben will (evlt. mal exportieren)
    aber, da die meisten tools auf RRD's basieren, kann ich natürlich die so einstellen dass daten nicht überschrieben werden..


    auf den ersten Blick (ohne jedes einzelen wirklich installiert zu haben) fand ich folgende Addons interessant:


    PerfParse, PNP4Nagiso, OPCP, Graphios


    irgend eine Idee was von denen (oder andere) empfehlenswert ist ?


    Klaus

    Hallo


    Nagios läuft bei uns ziemlich erfolgreich, und wie das so ist, wollen meine chefs natuerlich mehr :-)


    die Aufgabe ist, eine Langzeitbetrachtung (Jahre) zu ermöglichen, der performance-data in host/service-gruppen "aggregiert" und als - Trend-graph darstellt .


    oder einfacher ausgedrückt: z.B. : Wie verhält sich der (langzeit) Plattenplatz-verbrauch aller Server die fürs ERP-system zuständig sind ?


    Ich suche eigentlich ein "externes" tool dafür, das mit den performance-daten von Nagios "gefüttert" werden kann.


    hat irgend jemand das schon gemacht, oder einen Tipp was ich mir anschaun kann ?


    danke


    Klaus

    Hallo


    Ich bin gerade dabei mein Nagios/Nagvis auf einen neuen Server umzuziehen, und dabei gleich upzugraden (Nagvis 1.6)
    alles funktioniert soweit ganz gut


    allderdings habe ich in meinen "alten" Nagvis-map-config eine riesige Liste von "allowed_user" und "allowed_for_config" definitionen
    riesig bedeuted mehr als 100 user-eintraege / map , und ca. 50 maps


    ich benutze LDAP-authentication und den Nagvis - default Mixed-mode


    Ich verstehe dass die user jetzt in einer sqlite-DB (auth.db) gespeichert werden und Rollen zugewiesen sind . Das ist gut und wüder für mich auch gut funktionieren, Anstatt ein einer map.cfg - definiere ich die user nun zu Rollen.


    die maps erzeuge ich über scripts, also kann ich auch sqlite über das script updaten.


    nun meine Frage:


    kann ich über ein script user in sqlite anlegen und gleich einer Rolle zuweisen ?
    -> Ich habe mir nagvis-make-admin angeschaut, das weißt user zu gruppen, das kann ich also auch für andere Gruppen verwenden,

    ?-> wie bekomme ich aber meine users (password?) in die DB , ohne alle aufzufordern sich erst mal anzumelden ??
    ?-> und wie kann ich per script Rollen anlegen ? (genügt da ein "insert into roles (roleID, name) values (5,TESTNAME);" ??



    danke


    klaus

    Hallo nochmal


    nachdem ich durch meine ganzen cfg-files nochmal gegangen bin - habe ich den "Übeltäter" gefunden


    alle meine "windows" -checks sind in einer "service-group" "WINDOWS-Servicees" zusammengefasst


    sobalt diese service-group mehr als 5000 services beinhaltet - funktioniern sie nicht mehr (alle enden critical: RC 127 out of bounds ....)


    da ich diese gruppe eigentlich gar nicht brauche - hab ich sie einfach gelöscht - und - alles funktioniert wieder


    in diesem Thread http://tracker.nagios.org/view.php?id=111 wird mein problem beschrieben, Aber nicht gerade glöst :-(


    Wie auch immer weder ich jetzt meine service-gruppen "monitoren"


    würde mich interessieren ob ich der einzige bin der mehr als 5000 services in einer service-group hat (hatte) ?


    Klaus