#UH-sky

/

      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/25bcbe...
      • himlar/master 25bcbeb Raymond Kristiansen: Added haproxy stats to test02-api-01
      • beddari
        tips: skriv checks for alle cert expires, eller suffer 7 hr downtime hehe
      • mikaeld
        du sier det av erfaring? :-)
      • beddari
        i går ja hehe
      • hadde glemt et cert som var litt viktig
      • mikaeld
        he he
      • vi alle har vel vært borti det der
      • beddari
        api og horizon borte fra kl 12:00 nøyaktig ;)
      • ja men det er jo passe flaut
      • jeg kan jo si at det var "ikke min skyld" men uansett
      • så nå fikser raykrist ;)
      • og i "panikken" som oppstod så ble første CSR jeg laget feil
      • og tapte 2 hr på det
      • uten at jeg vet helt hvorfor den ble feil heller
      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/376de7...
      • himlar/master 376de72 Raymond Kristiansen: Added cert expire check for api, dashboard, access and console
      • mikaeld
        bra
      • beddari
      • mikaeld
        :)
      • raykrist
        CheckHttpCert OK: SSL expires on 2019-11-13 12:00:00 UTC - 964 days left.
      • mikaeld
        trondham: får du tatt den prosjekt-saken fra ifi?
      • trondham
        vil fikse koji først
      • mikaeld
        jada, mente ikke akkurat _nuh_
      • calico peker fortsatt på 11/11 2016, alle øvrige er da flyttet (for test)
      • raykrist: virker likevel som jeg ikke skjønte hvilket himlarcli jeg skal bruke for å sette passord
      • raykrist
        mikaeld: openstack cli for passord-bytte idag, planen er å ha det i user.py
      • mikaeld
        aha, misforstod og trodde det var i user.py alelrede
      • sorry
      • det skal holde å gjøre dette i bgo, ikke sant?
      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/a58da4...
      • himlar/master a58da4b Raymond Kristiansen: Changed port for console cert expire check
      • raykrist
        mikaeld: ja, alt som har med brukere, grupper eller prosjekt er felles
      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/d3476a...
      • himlar/master d3476ae Raymond Kristiansen: Added missing api grafana dashboard
      • raykrist
        hmm, network api i osl sluttet å fungere
      • jeg restartet det nå
      • mikaeld
        oh, hvorfor det tro
      • raykrist
        usikker, kan være det samme TorLaedre snakket om skjedde i test01
      • TorLaedre
        høres slik ut
      • raykrist
        ser på api metrics nå og kan ikke se noen store endringer
      • men jeg har ikke metric fra neutron kun haproxy
      • det ligger nå et eget dashboard i grafana med tall for api i tillegg til det vi har for compute
      • mikaeld
        litt dumt om dette skjer rett som det er uten at vi aner hvorfor
      • raykrist
        der skjedde det igjen...
      • mikaeld
        hvordan ser jeg de dashboardene?
      • raykrist
        monitor:8080 og under dashboard
      • du må logge inn i grafana først
      • mikaeld
        ah, trodde det var under status.uh-iaas.no (som innlogget)
      • raykrist
        nei, vi har en egen intern grafana på monitor
      • den styres av puppet, mens status er maneull
      • manuell
      • mikaeld
        ja, visste om den men av en elelr annen grunn fikk jeg for meg at denne var på den andre
      • sannsynligvis fordi den alltid er oppe
      • raykrist
        hmm, restartet osl-network-01, men den klarte ikke å starte api når den kom opp igjen
      • trondham
        ang. den RT-saken, kan vi ikke bare gi ifi-drift et generelt testprosjekt med testkvote?
      • ingen meninger? da blir det slik
      • mikaeld
        den som tier samtykker?
      • trondham
        ja
      • vi kan alltids justere ting i etterkant
      • raykrist
        så lenge det er test er det helt ok :)
      • trondham
        ja, type = test
      • raykrist
        da er er ting nede igjen
      • i osl
      • vi må se om vi finner problemet fremfor å fikse det for de neste 10 min
      • det tar nå tid å flytte til osl i horizon og du får ikke starte nye instanser (siden du ikke får nett fra neutron)
      • mikaeld
        tilbake fra lunsj, hvis du har noe jeg kan se på i den sammenhengen så kan jeg det en stund (møte kl. 13)
      • hvordan går det?
      • trondham
        hva er greia?
      • raykrist
        network.api.osl.uh-iaas.no timer ut
      • jeg har restartet og rebootet tjenesten uten at det hjalp
      • TorLaedre restartet også tjenesten nå sist og nå ser det ut til å fungere enn så lenge
      • jeg restartet også rabbitmq på osl-mq-01
      • jeg skal i møte nå, men TorLaedre skulle følge litt med videre utover dagen
      • mikaeld
        Tor sin tilstedeværelse pleier jo alltid å avhjelpe ethvert problem
      • raykrist
        det var det jeg håpet på :)
      • snakket for tidlig
      • restartet den igjen nå
      • TorLaedre
        mikaeld: trondham: Kan en av dere kraftsykle osl-leaf-01? Den er dau igjen. Og etter det, kan dere ta kontakt med Dell support.
      • mikaeld
        hvis ikke trond har vært der kan jeg stikke bort nå
      • fieilmelding vet jeg mindre om hvordan man gjør
      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/01f8dd...
      • himlar/master 01f8dd9 Raymond Kristiansen: Updated api grafana dashboard
      • trondham
        så ikke mld før nå
      • mikaeld
        mente ikke å presse deg til å gå, var mest at jeg ville sjekke om du hadde gått allerede før jeg selv gikk
      • TorLaedre/raykrist: hvordan har det gått med osl-network?
      • raykrist
        osl-network-01 kjører nå, men vet ikke hvor lenge
      • jeg har vakt på uib frem til 22:00 på søndag så jeg kan følge med på våre ting også i helgen
      • mikaeld
        når ble den fikset sist?
      • raykrist
        siste stop var 14:12
      • vi vikset det 30 sek senere (i forhold til varsling fra sensu)
      • martbo joined the channel
      • mikaeld
        liker ikke det der
      • raykrist
        ikke jeg heller
      • har diskutert med Tor og han følger opp etter helgen dersom det forsetter
      • vi ser bl.a. feil på linkene til osl-controller-01 hvor mq-01 kjører, men jeg vet ikke om det er relatert
      • mikaeld
        jeg kan sikkert være med og debugge til uka jeg også hvis problemet fortsetter
      • raykrist
        det er bra
      • mikaeld
        Skriver Trello-kort, mener å huske at det var noe jeg skulle gjøre først elelr sist
      • det gamle kortet fra forrige gang er vel slettet nå?
      • raykrist
        det er vel ikke slettet, så du kan kanskje finne det igjen i done
      • først patch alt vårt (minus compute), og så teste compute, og så reinstallere en compute
      • mikaeld
        nei, er ikke de - derfor jeg spør
      • med unntak av compute så betyr ikke rekkefølgen noe lenger?
      • og ikke noe db- elelr ceph-prosesser som må startes manuelt e.l. lenger heller?
      • raykrist
        ta det i samme rekkefølge som oppgradering (se ansible/bin/upgrade), og ikke ta ned mer enn en cephmon og storage på samme tid
      • mikaeld
        jepp
      • raykrist
        ellers er det ikke noe jeg husker, men vi tar en revisjon når jeg er tilbake og vi finner vel også ut ting når vi gjør det i test
      • mikaeld
        jepp, er ikke nervøs slik sett
      • [github]
        [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/75bcca...
      • himlar/master 75bcca0 Raymond Kristiansen: Updated api grafana dashboard
      • [himlar] raykrist pushed 1 new commit to master: https://github.com/norcams/himlar/commit/41d3a2...
      • himlar/master 41d3a2b Raymond Kristiansen: Updated api grafana dashboard