Компания по доставке контента Fastly из-за сбоя в конфигурации одного из своих клиентов нарушила работу сотен крупных сайтов в интернете. Проблема была устранена быстрее, чем за час. Сбой заставил многих задуматься о хрупкости высоких технологий.
Интернет сломался во вторник, 8 июня. На полчаса оказались недоступными такие популярные сайты как Amazon, Reddit, Spotify, Ebay, Twitch, Github, PayPal, Stack Overflow, CNN, государственный портал Великобритании gov.uk и сотни других. А в Twitter исчезли эмодзи. Причиной поломки оказалась компания Fastly, которая оказывает услуги провайдера по доставке контента (CDN). Она хранит у себя популярные страницы и сайты на серверах, стратегически расположенных вблизи крупных мегаполисов. Компания обрабатывает запросы пользователей и загружает нужную страницу с ближайшего к пользователю сервера. Из-за это уменьшается время между запросом и его полным выполнением.
8 мая компания обновила свое ПО. Но в обновлении содержалась ошибка. Пользователь мог случайно отключить большую часть сети по доставке контента. Это и произошло месяцем позже. Как рассказывалось в блоге компании, один неназванный клиент случайно выключил 85% мощностей по доставке контента. Миллионы пользователей, набрав адрес нужного им сайта, получали ошибку 503 — т.е. извещение о том, что веб-сервер не может выполнить отправленный ему запрос.
«Отключение было масштабным и жестким, и мы приносим искренние извинения нашим клиентам и всем тем, кто, в свою очередь, полагается на их услуги», — написал технический директор Fastly Ник Рокуэлл в блоге компании.
«Мы установили конфигурацию сервисов, которая вызвала нарушение работы наших POP (точек присутствия) по всему миру, и отключили эту конфигурацию. Наша глобальная сеть восстанавливается», — добавил он.
Через 40 минут инженеры Fastly обнаружили проблемного клиента и заблокировали конфигурацию его сайта, которая вызывала проблемы. Еще через 10 минут 95% пострадавших узлов сети вернулись к полноценной работе.
Компания начала тотальную проверку своей сети на наличие ошибок и пообещала позже опубликовать доклад о том, как именно она преодолевала сбой, и почему ошибку не нашли во время предварительного тестирования.
CDN-провайдеры не только кэшируют самый популярный контент в сети, но и предоставляют и другие услуги, такие как балансировка нагрузки и блокировка DDoS-атак. Самыми крупными CDN-провайдерами в мире, кроме Fastly, являются Cloudflare, CloudFront от Amazon Web Services и Akamai. Fastly специализируется на предоставлении услуг компаниям, занятых потоковым видео. У них есть контракты с Twitch, Hulu, HBO Max, Vimeo, Spotify, The New York Times и многими другими издателями.
CDN провайдеры не в первый раз обрушивают интернет. В июле проблемы возникли у Cloudflare и около получаса были недоступны такие сервисы как Shopify, Discord, серверы League of Legends.
В ноябре сложности возникли у Amazon Web Services и тогда переставали работать сайты Flickr, Adobe Spark и Roku.
Масштабное, но краткосрочное отключение десятков сервисов и временная утрата сотен крупных сайтов в очередной раз заставили многих задуматься, насколько хрупкой системой является интернет.
Котировки акций Fastly выросли в среду на 11% — инвесторы оценили скорость, с которой была обнаружена и ликвидирована ошибка в работе систем по доставке контента. Капитализация Fastly, которая вышла на биржу в мае 2019 года, превышает 6,5 миллиардов долларов. За 2020 год компания подорожала в семь раз, однако в 2021 тренд развернулся, и ее капитализация уменьшилась с начала года на 40%.
По итогам прошлого года выручка в компании выросла на 45% год к году и превысила 290 миллионов долларов. По заявлениям Fastly, сейчас у нее более 2000 корпоративных клиентов.
Предыдущий заметный сбой в работе Fastly произошел в январе этого года. В прошлом году Fastly потеряла крупного клиента — китайскую компанию ByteDance, которой принадлежит TikTok.
CDN — это один из видов так называемого «вычисления на краю» (edge computing), то есть концепции по которой все вычисления и данные нужно содержать рядом с потребителем, а не складировать на центральном сервере. Удешевление вычислительных мощностей и ускорение каналов передачи данных делают такой подход все более и более распространенным. По прогнозам Grand View, рынок «вычислений на краю» будет расти на 40% в год и через пять лет достигнет 45 миллиардов долларов. На первый взгляд, снижение скорости загрузки страницы на 0,5 секунды — типичный пример избыточной оптимизации. Но даже такое небольшое уменьшение времени ожидания повышает лояльность посетителей сайта и улучшает их опыт.
Самую большую отдачу от edge computing получат промышленные предприятия. Например, на заводах Audi в Германии системы компьютерного зрения, которые следят за качеством сварных швов на кузове, были вынесены из центрального дата-центра поближе к цехам. Это ускорило процедуры контроля за качеством, что дало экономию в десятки миллионов евро в год.
В горнорудном секторе edge computing сыграет важную роль при опережающем обслуживании техники и инженерных систем. Например, коррозия — длительный процесс, который может привести к аварии. При помощи данных с камер наблюдения и алгоритмов машинного обучения, запущенных рядом с местом сбора данных, можно будет давать точные прогнозы о состоянии ключевых узлов и деталей и откроет возможности для ремонта техники, не дожидаясь крупных поломок.
А самый большой трансформационный потенциал edge computing — в сфере здравоохранения. Перенос существенных вычислительных мощностей прямо в лаборатории КТ позволит ускорить обработку изображений и применять для этого самые современные технологии машинного обучения, что повысит скорость постановки диагноза и его точность.