BEDRIFTSTEKNOLOGI

Nytt verktøy avslører «stille systemsvikt»

Hver femte IT-svikt oppdages først når brukerne klager. Det har fått NEC til å tenke nytt.

Eksempel på visualisering i Invariant Analyzer. Modellen av systemet fordeler seg på web, databaser (DB) og applikasjoner (AP). De to røde nodene er røttene til problemet. De blå nodene og de oransje relasjonene viser ringvirkningene av problemet. De grønne nodene og de grønne relasjonene er ikke berørt av problemet.
Eksempel på visualisering i Invariant Analyzer. Modellen av systemet fordeler seg på web, databaser (DB) og applikasjoner (AP). De to røde nodene er røttene til problemet. De blå nodene og de oransje relasjonene viser ringvirkningene av problemet. De grønne nodene og de grønne relasjonene er ikke berørt av problemet.
9. mars 2010 - 15:42

Ifølge NEC er tradisjonelle metoder for systemovervåking i store miljøer i ferd med å møte veggen. Terskelbaserte verktøy henger ikke med etter hvert som kompleksiteten øker. I store og kompliserte miljøer er det kurant med systemsvikt som ikke oppdages før brukerne klager: Feilmeldingene som skulle varslet systemadministrator om at noe er i gjøre, uteblir. Ifølge NEC skjer det i 20 prosent av tilfellene. De kaller dette «silent failure», «stille systemsvikt»: Skjulte flaskehalser gir uholdbart lange responstider, og innen man finner ut av hva det skyldes, går alt i stå.

Et typisk eksempel kan være at en tjeneste overbelaster en av kjernene i en firekjernet serverprosessor. Utnyttelsesgraden fyker opp i 100 prosent, og alt går i stå. Men verktøyet som skal overvåke prosessoren varsler bare 25 prosent utnyttelse, siden ingen av de andre kjernene har noe å gjøre.

Ifølge NEC er eksisterende verktøy er for enfoldige. De krever manuell gjennomgang av mye data, og det er utfordrende å utforske feilene fordi fagfolk innen applikasjoner, databaser, servere og nettverk må pløye gjennom hvert sitt spesialområde.

NECs løsning er et nytt verktøy, som de har døpt «Invariant Analyzer». Forhåndsomtalen tyder på at de mener verktøyet ikke skal supplere eksisterende verktøy – som jo oppdager 80 prosent av systemsviktene før brukerne begynner å klage – men ha som oppgave å avdekke alle slags feil, i tillegg til å avsløre og stille diagnosen på «stille systemsvikt», og bidra til å forutsi og unngå framtidige svikt.

Verktøyet henter ytelsesdata fra kjente overvåkere, både fra NEC og andre, og det skal være unødvendig med instrumentering ut over det man allerede har. I tillegg til automatisk varsling også av de stille feilene, har det moduler for visualisering og en erfaringsdatabase.

Overvåkingsverktøy bygger generelt på et system med terskelverdier for belastning ved ulike noder. Alarmen går når belastningen overstiger terskelverdien. Dette virker altså i 80 prosent av tilfellene, men ikke der flaskehalsen er mer komplisert.

Utgangspunktet for NECs Invariant Analyzer er ikke terskelverdier ved enkeltnoder, men en modell av hvordan systemet fungerer normalt, basert på oppsamlede ytelsesdata. Avvik fra det normale analyseres fortløpende og danner utgangspunktet for både varsling, kartlegging av mulige årsaker og anbefalte tiltak. I prinsippet er dette det samme som kontroll- og styringssystemer i prosessindustrien, der man løpende sammenlikner faktiske måldata med en ideell modell.

Oppfinnelsen til NEC ligger vesentlig i hvordan modellen bygges opp. Modellen kartlegger forbindelser mellom ytelsesdata samlet opp ved ulike punkter i nettverket. En observasjon av normal drift over tid kan fastslå at det er bestemte faste ytelsesrelasjoner mellom ulike punkter. Disse faste eller vedvarende relasjonene betraktes som systemets «invarianter», derav navnet på verktøyet, Invariant Analyzer.

Eksempel på visualisering i Invariant Analyzer. Modellen av systemet fordeler seg på web, databaser (DB) og applikasjoner (AP). De to røde nodene er røttene til problemet. De blå nodene og de oransje relasjonene viser ringvirkningene av problemet. De grønne nodene og de grønne relasjonene er ikke berørt av problemet.
Eksempel på visualisering i Invariant Analyzer. Modellen av systemet fordeler seg på web, databaser (DB) og applikasjoner (AP). De to røde nodene er røttene til problemet. De blå nodene og de oransje relasjonene viser ringvirkningene av problemet. De grønne nodene og de grønne relasjonene er ikke berørt av problemet.

NEC mener denne metoden ikke bare gir bedre resultater: Den er også enklere å forholde seg til. Mens dagens metoder krever at man stadig reviderer terskelverdier i samsvar med endrede forretningsforhold, gjør invariant analyse det overflødig å sette terskelverdier overhode. Mens dataanalyse etter terskelmetoden er utfordrende og krever ekspertkompetanse på flere felt, gir modellen med invariant analyse en ny mulighet til enkel, rask og nøyaktig analyse uten spesial kunnskap, slik at driften blir mer effektiv. I tilfelle systemsvikt, genererer analysen en visuell oversikt over hvilke av de invariante relasjonene som er brutt, slik at det skal være langt enklere å lokalisere roten til problemene.

Ifølge NEC gir erfaringer hittil grunnlag til å påstå at man kan redusere tiden det tar å løse et problem skapt av en «stille svikt» med opp til 90 prosent, samtidig som man helt kan unngå den perioden hvor ytelsen i nettverket degraderes i det stille, uten at varsellampene blinker hos IT-admin.

Invariant Analyzer kan brukes på nettverk under Windows, Unix og Linux. For å kjøre verktøyet kreves en server med tokjernet Intel Xenon-prosessor eller tilsvarende, som kjøres under Windows Server 2008, eventuelt 2003 SP2 eller R2 SP2. Driftskonsollen kan kjøres på serveren, eller på en tokjernet arbeidsstasjon under Windows XP Professional SP3 eller Vista Business SP2.

Startpris for en installasjon er fra 130 000 dollar.

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.
Tekjobb
Se flere jobber
En tjeneste fra