T-Mobile forklarer hvorfor nettverket gikk hardt ned, hevder at bare en femtedel av samtalene gikk tapt

Vi møtte ikke vår egen bar for fremragende kvalitet, skriver T-Mobile’s CTO

google stadia pris
Foto av Dante D'Orazio / The Verge

Hvis du har lurt på hva som kan utslette en av USAs tre store mobiloperatørs evne til å levere samtaler og tekstmeldinger - og holde det slik det meste av en hel dag - har T-Mobile nå et delvis svar på at gjeldersin omfattende landsdekkende strømbrudd mandag.



Selskapet sendte en unnskyldning sent på tirsdag som du kan lese i sin helhet nedenfor, og på torsdag ga CTO Neville Ray en ytterligere forklaring du finner nederst i dette innlegget.



Kortversjonen, hvis vi leser dette riktig: en fiberoptisk krets mislyktes, og sikkerhetskopieringskretsen mislyktes også, noe som forårsaket en kjedereaksjon som anstrengte nettverket til det punktet at mange anrop og tekster ikke kunne klare det.

Den lengre versjonen:



16. juni 2020 18:23 PST

Oppdatering av T-Mobile tale- og tekstytelse

Hver dag ser vi den viktige rollen teknologien spiller for å holde oss tilkoblet, og vi vet at T-Mobile-kunder stoler på nettverket vårt for å sikre at de har forbindelser med familie, kjære og tjenesteleverandører. Dette er et ansvar teamet mitt tar veldig seriøst og er vår høyeste prioritet. I går møtte vi ikke vår egen bar for fremragende kvalitet.



Mange av våre kunder opplevde et tale- og tekstproblem i går, spesielt med VoLTE (Voice over LTE) -anrop. Teamet mitt tok umiddelbar handling - hundrevis av ingeniørene våre jobbet utrettelig sammen med leverandører og partnere hele dagen for å løse problemet fra det øyeblikket vi var klar over det. Dataforbindelser fortsatte å fungere, i likhet med vår ikke-VoLTE-oppfordring til mange kunder og tjenester som FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype og andre tillot våre kunder å holde kontakten. I tillegg var mange kunder i stand til å bruke kretskoblede taleforbindelser, og kunder i Sprint-nettverket var upåvirket. VoLTE og tekst i alle regioner ble fullstendig gjenopprettet klokken 22.00. PDT i går kveld. Jeg er glad for å si at nettverket er fullt operativt ... og vi jobber dag ut og dag inn for å holde det slik.

Ingeniørene våre jobbet gjennom natten for å forstå årsaken til problemene i går, løse det og forhindre at det skjer igjen. Utløserhendelsen er kjent for å være en leid fiberkretsfeil fra en tredjepartsleverandør i Sørøst. Dette er noe som skjer i alle mobilnettverk, så vi har samarbeidet med leverandørene våre for å bygge redundans og spenst for å sikre at denne typen kretsfeil ikke påvirker kundene. Denne redundansen sviktet oss og resulterte i en overbelastningssituasjon som deretter ble forsterket av andre faktorer. Denne overbelastningen resulterte i en IP-trafikkstorm som spredte seg fra Sørøst for å skape betydelige kapasitetsproblemer på tvers av IMS (IP multimedia Subsystem) -nettverket som støtter VoLTE-samtaler.

Vi har jobbet med våre IMS (IP Multimedia Subsystem) og IP-leverandører for å legge til permanente tilleggsbeskyttelser for å forhindre at dette skjer igjen, og vi fortsetter å jobbe med å finne årsaken til den første overbelastningsfeilen.

Så jeg vil personlig be om unnskyldning for ulempene vi opprettet i går, og takke for tålmodigheten mens vi jobbet gjennom situasjonen mot løsning.

Neville Ray

T-Mobile president for teknologi

Det er ikke klart hvilken tredjepartsleverandørs fiberkrets som mislyktes. Det kom en rapport på mandag om at nivå 3, et av verdensstore Internett-ryggradsleverandører, opplevde et strømbrudd, men en talspersonfortalteTechCrunch annerledes.

På torsdag bagatelliserte Ray strømbruddet under en presentasjon på Wells Fargo Virtual 5G Forum, og hevdet at bare 20 prosent av T-Mobile-samtalene ble droppet fordi kundene i stedet kunne fullføre andre samtaler ved hjelp av mobildata.

Det hele ble utløst av et vanlig hagesveisbrudd, sa han og la til at det avslørte et problem i en rutingproblemkonfigurasjon som førte til en av disse IP-flommene over hele nettverket, som igjen skapte alle slags kapasitets- og beskyttelsestiltak i kjernearkitekturen.

Det vi gjorde for å komme oss gjennom det var å legge til mye kapasitet på farten, etter at vi fant ut hvor problemene virkelig eksisterte, sa Ray.

Vi må gjøre det bedre, sa Ray, uten å gi noen spesielle forslag til hvordan T-Mobile kan forhindre et slikt problem i fremtiden. Han karakteriserte strømbruddet som en tilfeldighet: Det var en serie hendelser som, på mange måter, fra fiberbrudd, til rutenettverket, til kjernesårbarheten, alle disse tingene skjedde samtidig, og det er bruddet vi så.

Si aldri aldri, avbrudd er alltid en del av å være et teknologiselskap, men vi beklager, og vi er på et bedre sted.

I slekt

Den nye klassen av administrerende direktører i Verizon, AT&T og T-Mobile

T-Mobile og Sprint-sammenslåingen resulterer allerede i hundrevis av permitteringer