ИСТОРИЯ
Дата | Статус | Выявленные проблемы | Влияние | Статус по проблемам | Запланированные работы | |
---|---|---|---|---|---|---|
🟢 | 31.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.12.2024 | Стабильная работа без инцидентов | ||||
🔴 | 25.12.2024 | Система частично недоступна | 88% пользователей онлайн |
10:03 - начало недоступности 10:04 - собрана аварийная конференция 10:10 - производится откат изменений 10:20 - откат изменений произведен, ведутся проверки доступности 10:31 - обнаружена недоступность админ-панели 10:38 - доступность админ-панели восстановлена Причина: 25.12 в 10:03 во время пиковой нагрузки один из сервисов DION gRPC-gateway перегрузился и обработка запросов критически замедлилась. Вследствие замедления, ряд идущих конференций, а также подключения новых пользователей были разорваны.
В момент аварии, в условиях ограниченного времени, было принято решение об откате самых недавних изменений – обновления 5.22 (24.12.2024). Это и заняло основное время для восстановления.
До момента пиковой нагрузки успешно прошло множество конференций, чатов и трансляций, проблем в работе DION не наблюдалось. Также были пройдены все тесты в рамках проверки новой версии.
Общий простой DION, с учетом времени на откат релиза составил 15 минут. Однако расследование показало, что была возможность выделить дополнительные системные ресурсы сервису gRPC-gateway, чтобы обеспечить требуемую производительность с учетом большого количества одновременных соединений.
|
||
🟡 | 25.12.2024 | Система работоспособна, проблемы в работе одного из компонентов | При подключении по новому номеру телефона не всегда слышен звук из конференции |
09:30 - обнаружена недоступность звука 09:40 - заведён кейс на провайдера телефонии 10:00 - номер в приглашениях скорректирован |
||
🟡 | 24.12.2024 | Система работоспособна, проблемы в работе одного из компонентов | Кратковременное переподключение части пользователей | ~ 7% пользователей |
16:41 - кратковременный реконнект 16:43 - ведётся разбор |
22:00 - 00:00 - обновление DION 5.22.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса |
🟢 | 23.12.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Без влияния на сервис |
|||
🟢 | 22.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 20.12.2024 | Стабильная работа без инцидентов | ||||
🟡 | 19.12.2024 | Система работоспособна, проблемы в работе одного из компонентов | Недоступен раздел расшифровки текстов в DION.Video | Записанные встречи |
11:14 - обнаружена недоступность расшифровок 11:30 - ведётся подготовка исправления 15:10 - работоспособность расшифровок в разделе Видео восстановлена |
15:00 - 15:30 Без влияния 22:00 - 23:00 |
🟢 | 18.12.2024 | Стабильная работа без инцидентов | 20:00 - 21:00 Технические работы. Во время работ возможна кратковременная недоступность просмотра видеозаписей в разделе Видео. 22:00 - 00:00 Технические работы. Возможны кратковременные прерывания в работе сервиса |
|||
🟢 | 17.12.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Возможны кратковременные прерывания в работе сервиса |
|||
🟢 | 16.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.12.2024 | Стабильная работа без инцидентов | ||||
🟡 | 13.12.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при подключении к конференциям, ошибки при включении записей встреч | ~ 29% пользователей |
10:04 - 10:08 - замедления при подключении к конференциям 10:09 - восстановление подключений 16:14 - кратковременное замедление Ведётся разбор причин |
18:00 - 20:00 Технические работы. Без влияния на сервис |
🟢 | 12.12.2024 | Стабильная работа без инцидентов |
18:00 - 19:00 технические работы. Возможна кратковременная недоступность скачивания записи. |
|||
🟢 | 11.12.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 - обновление DION 5.22.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса |
|||
🟡 | 10.12.2024 | Система работоспособна, проблемы в работе одного из компонентов | Недоступен раздел аудита в админ-панели | Администраторы организаций |
10:45 - обнаружена проблема, ведётся разбор причин 11:02 - обнаружена причина, ведутся восстановительные работы. Плановый срок восстановления - до 22:00 12:05 - аудит восстановлен Обходной путь получения информации - страницы аудита в УЗ пользователя и в соответствующем разделе в конференции
|
22:00 - 00:00 - обновление DION 5.22.0.
По техническим причинам, обновление перенесено |
🟢 | 09.12.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Без влияния на сервис |
|||
🟢 | 08.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.12.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Без влияния на сервис |
|||
🟢 | 05.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.12.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Возможно кратковременное прерывание в работе сервиса | |||
🟢 | 27.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Возможно кратковременное прерывание в работе сервиса | |||
🟢 | 26.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Возможно кратковременное прерывание в работе сервиса |
|||
🟡 | 25.11.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при подключении у некоторых гибридных заказчиков, подключающихся в определенный датацентр. Пользователи во втором датацентре не испытывают затруднения при подключениях. | Причина: последствия некорректного обновления медиа-сервисов. Ведётся анализ логов в оффлайн-режиме | ||
🟢 | 24.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 21.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🔴 | 20.11.2024 | Система частично недоступна |
Ограничено подключение к конференциям, текущие конференции продолжаются Не проходят звонки между пользователями Наблюдаются замедления в отправке сообщений в чатах и создание новых чатов |
07:22 - начало недоступности Проводятся восстановительные мероприятия 07:50 - доступ восстановлен 08:11 - повторное начало недоступности 08:31 - откат применённых платформенных изменений 08:45 - откат применённых изменений в части конференций 09:02 - доступ к части конференций восстановлен 09:17 - доступ к большинству конференций восстановлен 09:42 - частичные проблемы сохраняются, проводится полный откат сервиса. Возможно переподключение к конференциям 09:52 - сервис восстановлен 11:15 вход в конференции гостем восстановлен Причина: Сбой произошел на микросервисе, предназначенном для передачи политик различным конфигурационным элементам системы DION.
Часть подключающихся пользователей, которые не получали ответ вовремя, видели долгую загрузку на входе в конференции, а затем ошибку сетевого соединения. При этом пользователи, уже подключившиеся к конференциям, не испытывали на себе сложностей или задержек, встречи проходили штатно.
Для устранения влияния было принято решение об откате на предыдущую версию, но сам откат занял больше времени для снижения влияния на уже подключенных пользователей. Идущие встречи были затронуты только кратковременным переподключением в 09:46, когда часть сервисов конференций откатили к предыдущей стабильной версии.
Инженеры продолжают проработку мер для неповторения инцидента. |
22:00 - 00:00 Технические работы. Возможно кратковременное прерывание в работе сервиса | |
🟢 | 19.11.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.21.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса |
|||
🟢 | 18.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 17.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.11.2024 | Стабильная работа без инцидентов | ||||
🟡 | 15.11.2024 | Система работоспособна, замедления в работе | Замедления при подключении к конференциям, временный разлогин из личного кабинета | определяется |
10:00-10:02 вылет на окно авторизации при переходе между разделами в личном кабинете, не активная кнопка войти при подключении к конференции Причина: неактуальная конфигурация одного из микросервисов привела к обработке части токенов пользователей с ошибкой. Ошибочная обработка вызвала разлогин пользователей. Проведена корректировка конфигурации сервиса. После корректировки, ошибки обработки отсутствуют |
|
🟢 | 14.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.11.2024 | Стабильная работа без инцидентов | 22:10 - 01:00 Технические работы. Возможно кратковременное прерывание в работе сервиса. |
|||
🟢 | 12.11.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 Технические работы. Возможно кратковременное прерывание в работе сервиса. | |||
🟢 | 11.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 10.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 09.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.11.2024 | Стабильная работа без инцидентов | 22:00 - 23:30 Технические работы. Возможно кратковременное прерывание в работе сервиса. |
|||
🟠 | 07.11.2024 | Система работоспособна, прерывания в работе | Переподключения к конференциям | ~ 49% пользователей онлайн |
12:06 - начало переподключений 12:08 - перевод траффика на стабильную ноду, восстановление Причина: подготовительные работы в новом датацентре оказали влияние на работающий экземпляр сервиса. Проведены работы по исключению кросс-влияния во время инфраструктурных работ. Все изменения на новом датацентре перенесены на наименее нагруженное время. |
22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
🟢 | 06.11.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.20.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса |
|||
🟢 | 05.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Возможны кратковременные прерывания в работе сервиса. |
|||
🟢 | 04.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.11.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.11.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ ожидается кратковременная недоступность просмотра видеозаписей в разделе Видео. |
|||
🟡 | 31.10.2024 | Система работоспособна, замедления в работе | Замедления при подключении к конференциям, долгий отклик при прогрузке страниц и включении микрофонов | ~ 10% пользователей в конференциях |
14:02 - начало замедления 14:24 - переключены ресурсы для нормализации работы системы 15:10 - отключена история подключений до разбора причин Причины: повышенная нагрузка на виртуальный граничный маршрутизатор привела к замедлению получения ответов от базы данных, замедлению подключений к конференциям и замедленной реакции на действия пользователей в конференциях. Мероприятия по неповторению: маршрут передачи трафика перестроен так, чтобы максимально исключить проблемный виртуальный маршрутизатор. Ведётся анализ траффика, нагружающего его сверх лимита. |
22:00 - 01:00 |
Система работоспособна, замедления в работе | Замедления при подключении к конференциям, долгий отклик при прогрузке страниц | ~ 10% пользователей в конференциях |
10:00 - начало замедлений 10:08 - нормализация подключений 10:20 - переключен трафик между датацентрами для распределения нагрузки 10:55 - отключение сервисов с избыточной нагрузкой, возможно влияние на пользователей Причины: повышенная нагрузка на виртуальный граничный маршрутизатор привела к замедлению получения ответов от базы данных, замедлению подключений к конференциям и замедленной реакции на действия пользователей в конференциях. Мероприятия по неповторению: маршрут передачи трафика перестроен так, чтобы максимально исключить проблемный виртуальный маршрутизатор. Ведётся анализ траффика, нагружающего его сверх лимита. |
|||
🟢 | 30.10.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ возможна кратковременная недоступность Календаря |
|||
🟡 | 29.10.2024 | Система работоспособна, проблемы в работе одного из компонентов | При подключении к некоторым конференциям гостевой доступ в них закрывается | Организации с настройкой “Пароль на вход в конференции для всех” |
12:30 - получена информация о проблемных кейсах пользователей, ведётся разбор 14:10 - выпущено исправление Причина: ошибка разработки, которая привела к конфликту настроек в новых и уже существующих конференциях с включенной настройкой “Пароль на вход в конференции для всех”. |
22:00 - 01:00 Технические работы. Во время работ возможна кратковременная недоступность Календаря |
🟢 | 28.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.10.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ ожидается кратковременное отключение sip-терминалов от идущих облачных конференций. |
|||
🟢 | 24.10.2024 | Стабильная работа без инцидентов | ||||
🟡 | 23.10.2024 | Система работоспособна, проблемы в работе одного из компонентов | Сетевая ошибка при подключении к некоторым конференциям. Плавающая ошибка | Гибридные комнаты одного из заказчиков |
Ведётся анализ и вывод потенциально проблемных серверов - причины в закрытых сетевых доступах Причина: обновление логики работы сервиса аутентификации пользователей. Корректировка настроек устранила затруднения при входе. |
22:00 - 00:00 Технические работы. Влияние: - недоступность раздела Чаты в течении 10-ти минут; - кратковременный обрыв идущих конференций, потребуется самостоятельное переподключение. |
🟡 | 22.10.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при подключении к конференциям |
10:00 - 10:03 - замедления при подключении к конференциям. Не подтверждено влияние на пользователей |
22:00 - 01:00 - обновление DION 5.19.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. |
|
Система работоспособна, проблемы в работе одного из компонентов | Записи в DION.Video у некоторых пользователей не отображаются | < 1% пользователей |
16:03 - начало проблем 16:24 - записи восстановлены Причина: некорректная переменная при обновлении сервиса. Сами записи остались без изменений, затронут только интерфейс отображения. |
|||
🟢 | 21.10.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 20.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 19.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 18.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.10.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 Технические работы.Ожидаются кратковременные прерывания в работе сервиса | |||
🟢 | 16.10.2024 | Стабильная работа без инцидентов | 22:00 - 23:30 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 15.10.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 Технические работы. Ожидаются кратковременные прерывания в работе сервиса. |
|||
🟡 | 14.10.2024 | Система работоспособна, проблемы в работе одного из компонентов | Недоступна база знаний faq.dion.vc | Пользователи, обращающиеся к инструкциям по DION |
10:35 - проблема обнаружена, собрана аварийная конференция 12:05 - восстановлен доступ Причина: в рамках добавления ресурсов для новой базы знаний по инструкциям пользователей онпрем, было оказано влияние и на основную базу знаний. Для избежания влияния в будущем базы разнесены на разные адреса. |
|
🟢 | 13.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.10.2024 | Стабильная работа без инцидентов | ||||
🟡 | 10.10.2024 | Система работоспособна, проблемы в работе одного из компонентов | Уведомления от календаря на iOS не содержат информации о встречах | iOS-устройства пользователей с подключенным календарём |
13:30 - пуш-уведомления от календаря на мобильные приложения отключены. Ведётся разбор |
22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
🟢 | 09.10.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.18.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. |
|||
🟢 | 08.10.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.18.0. Подробнее по ссылке Работы по обновлению перенесены |
|||
🟢 | 07.10.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
|||
🟢 | 06.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 05.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.10.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. С 22:00 до 22:15 (мск) ожидается кратковременное переподключение в идущих конференциях, отключение sip-терминалов от идущих конференций. |
|||
🟢 | 02.10.2024 | Стабильная работа без инцидентов | Получена информация о ddos-атаках на провайдеры Ростелеком и Мегафон | 22:00 - 00:00 Технические работы. Влияния на пользователей не ожидается. |
||
🟢 | 01.10.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.09.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ ожидается кратковременная недоступность просмотра видеозаписей. |
|||
🟢 | 29.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.09.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ ожидается кратковременная недоступность просмотра видеозаписей. |
|||
🟢 | 26.09.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. С 22:01 - 22:20 ожидается кратковременное отключение участников от конференций, потребуется самостоятельное переподключение. |
|||
🟡 | 25.09.2024 | Система работоспособна, наблюдаются замедления в работе | 71% пользователей онлайн |
10:01 - 10:03 - кратковременная недоступность части конференций До завершения разбора причин отключены уведомления о ближайших встречах в календаре и поиск по приглашенным участникам Причина: повышенная нагрузка на базу данных вызвала кратковременную перезагрузку медиа-сервисов. В работе перенос избыточной нагрузки на отдельную инсталляцию БД для снижения нагрузки на ПРОД |
22:00 - 00:00 Технические работы. Во время работ: ожидается несколько кратковременных отключений участников от конференций, потребуется самостоятельное переподключение. |
|
🟢 | 24.09.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.17.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. |
|||
🟡 | 23.09.2024 | Система работоспособна, проблемы в работе одного из компонентов |
Недоступность календаря Долгая загрузка аудита в админ-панели |
10:45 - работа календаря и аудита восстановлена Причина: повышенная нагрузка на базу данных вызвала замедление при выполнении запросов календаря и аудита |
||
🟢 | 22.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.09.2024 | Стабильная работа без инцидентов | ||||
🟡 | 20.09.2024 | Система работоспособна, проблемы в работе одного из компонентов | Отключена админ-панель DION | Администраторы организаций |
11:35 - 11:45 - отключена админ-панель DION Причина: повышенная нагрузка на базу данных вызвала замедление в обработке запросов от админ-панели. Кратковременное переподключение админ-панели способствовало сбросу очереди и снижению нагрузки |
|
🟢 | 19.09.2024 | Стабильная работа без инцидентов | ||||
🟡 | 18.09.2024 | Система работоспособна, наблюдаются замедления в работе | Фиксируем потери от подключающихся пользователей облачных конференций | Возможно ухудшение качества звука или видео |
11:00 - наблюдаются потери 11:24 - нормализация Причина: потери у провайдеров связи пользователей |
22:00 - 01:00 Технические работы. Во время работ: - с 22:05 – 22:25 (МСК) возможна полная недоступность облачного Дион; - ожидается несколько кратковременных отключений участников от облачных конференций, потребуется самостоятельное переподключение. |
🟢 | 17.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.09.2024 | Стабильная работа без инцидентов | ||||
🟡 | 13.09.2024 | Система работоспособна, проблемы в работе одного из компонентов | Кратковременный реконнект | ~ 2% пользователей онлайн |
10:17 - реконнект 10:18 - восстановление Причина: кратковременная перезагрузка одного из медиа-серверов, вызванная повышенной нагрузкой |
22:00 - 23:59 Технические работы. Во время работ ожидается кратковременный обрыв облачных конференций, потребуется самостоятельное переподключение. |
🟢 | 12.09.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 Технические работы. Во время работ ожидаются: - замедление в чатах; - кратковременная недоступность просмотра видеозаписей. |
|||
🟡 | 11.09.2024 | Система работоспособна, наблюдаются замедления в работе | Сложности при регистрации новых пользователей, задержка при активации УЗ | Новые регистрации |
10:45 - исправлено Причина: некорректная переменная повлияла на скорость перехода УЗ из статуса “ожидает регистрации” в статус “активна” |
|
🟢 | 10.09.2024 | Стабильная работа без инцидентов | 22:00 - 01:00 - обновление DION 5.16.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. |
|||
🟢 | 09.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 05.09.2024 | Стабильная работа без инцидентов |
22:00 - 01:00 Технические работы. |
|||
🟡 | 04.09.2024 | Система работоспособна, наблюдаются замедления в работе | Фиксируем потери от подключающихся пользователей облачных конференций | Возможно ухудшение качества звука или видео |
10:08 - 11:17 Причина: потери у провайдеров связи пользователей |
22:00 - 01:00 Технические работы. Возможна полная недоступность Дион не более 5 минут |
🟢 | 03.09.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.09.2024 | Стабильная работа без инцидентов | ||||
🟡 | 01.09.2024 | Система работоспособна, наблюдаются замедления в работе | Долгая загрузка страниц, возможны разлогины | Облачные конференции | Причина: повышенная нагрузка вызвана особенностью работы на уровне авторизации клиентских приложений. В работе исправление работы с авторизацией |
01.09.24 08:00 - 12:00 Технические работы на Чатах. |
🟢 | 31.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.08.2024 | Стабильная работа без инцидентов |
22:00 - 00:00 Обновление чатов (подробнее) и инфраструктурные работы. Влияние: кратковременная недоступность чатов |
|||
🟢 | 28.08.2024 | Стабильная работа без инцидентов |
22:00 - 00:00 Технические работы по обновлению интерфейса. Без влияния |
|||
🟢 | 27.08.2024 | Стабильная работа без инцидентов |
22:00 - 01:00 - обновление DION 5.15.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. |
|||
🟢 | 26.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.08.2024 | Стабильная работа без инцидентов | ||||
🟡 | 23.08.2024 | Система работоспособна, наблюдаются замедления в работе | 12:47 - 12:48 Кратковременное переподключение к конференциям |
20% пользователей онлайн |
12:47 - 12:48 Причина: кратковременная перезагрузка одного из медиа-серверов, вызванная повышенной нагрузкой |
|
🟢 | 22.08.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 технические работы на чатах и сетевой инфраструктуре DION. Возможны кратковременные переподключения к конференциям | |||
🟢 | 21.08.2024 | Стабильная работа без инцидентов | ||||
🟡 | 20.08.2024 | Система работоспособна, наблюдаются замедления в работе | Переподключение к идущим конференциям | ~ 20% пользователей онлайн |
10:23:30 - 10:24:15 пользователи переподключились к встречам. Причина: кратковременная перезагрузка одного из медиа-серверов, вызванная повышенной нагрузкой |
22:00 - 00:00 технические работы на админ-панели DION. Без влияния |
🟢 | 19.08.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 проведены технические работы. Без влияния | |||
🟢 | 18.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.08.2024 | Стабильная работа без инцидентов | 20:00 - 21:00 технические работы. Ожидается обрыв телефонных вызовов и отключение облачных sip-терминалов от идущих конференций. |
|||
🟢 | 15.08.2024 | Стабильная работа без инцидентов | 22:00 - 00:00 проведены технические работы. | |||
🟢 | 14.08.2024 | Стабильная работа без инцидентов |
22:00-01:00 - обновление DION 5.14.0. Подробнее по ссылке Возможны кратковременные прерывания в работе сервиса. Работы проведены |
|||
🟢 | 13.08.2024 | Стабильная работа без инцидентов | Обновление DION 5.14.0 - работы перенесены | |||
🟢 | 12.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.08.2024 | Стабильная работа без инцидентов | ||||
🟡 | 09.08.2024 | Система работоспособна, проблемы в работе одного из компонентов | Отключаются записи конференций | <1% записей конференций |
01:45 - обнаружена проблема 03:15 - работа записей восстановлена Причина: неуспешное обновление токена аутентификации сервиса рекордера. Выпущен фикс |
|
🟢 | 08.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.08.2024 | Стабильная работа без инцидентов | ||||
🟠 | 06.08.2024 | Система работоспособна, прерывания в работе | Отключение от конференций, разавторизация из учетных записей | ~ 79% пользователей онлайн |
10:15 - начало переподлючений 10:17 - восстановление доступа Причина: сервис противодействия ddos-атакам потерял соединение с одним из инстансов DION, в следствие чего не перенаправлял запросы на полключение пользователей. Предположительно причина сбоя в работе сервиса - ddos-атака на провайдера связи |
|
🟢 | 05.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.08.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.08.2024 | Стабильная работа без инцидентов | ||||
🟡 | 01.08.2024 | Система работоспособна, наблюдаются проблемы в работе одного из компонентов | Фиксируются частые разлогины | < 1% пользователей | Исправлено, возможен однократный разлогин пользователей с устаревшими токенами | |
🟢 | 31.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 30.07.2024 | Система работоспособна, проблемы в работе одного из компонентов |
На мобильных устройствах через браузер недоступно скачивание APK или переход в магазины приложений Обходное решение: скачать APK из центра загрузок на ПК https://download.dion.vc/ |
Пользователи DION на Android без PlayMarket |
14:50 - обнаружено некорректное отображение страницы dion.vc в браузерах на мобильных устройствах 22:15 - исправлено в рамках вечерних работ Причина: обновление сервисов в рамках работ 29.07. |
|
🟡 | 30.07.2024 | Система работоспособна, проблемы в работе одного из компонентов | Долгие загрузки и ошибки при отправке сообщений в чатах | Пользователи DION.Чаты |
10:33 - обнаружено замедление 10:40 - работа восстановлена Причина: избыточная нагрузка на сервис шифрования |
|
🔴 | 29.07.2024 | Система полностью недоступна | Недоступность конференций в рамках работ по обновлению | 100% пользователей онлайн |
22:15 - начало недоступности 22:45 - восстановление доступа к конференциям Обновление сервисов завершено успешно в рамках работ 30.07. |
|
🟢 | 28.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.07.2024 | Стабильная работа без инцидентов | ||||
🟠 | 25.07.2024 | Система работоспособна, проблемы в работе нескольких компонентов |
Недоступен вход по SSO Не отправляются письма пользователям с пин-кодами и ссылками для скачивания записей |
08:12 - однаружена недоступность 08:55 - доступ по SSO и отправка писем восстановлены Причина: сбой в работе DNS провайдера |
||
🟡 | 24.07.2024 | Потери на сети, возможно влияние на качество звука или видео, а так же сложности при подключение к комнатам | < 30% пользователей онлайн |
11:33 - начало потерь 11:45 - диагностировали проблемы 11:52 - определили проблемные каналы провайдера 12:16 - отключили провайдера, наблюдается стабилизация подключений Причина: сбой на сети у одного из провайдеров |
||
🟢 | 23.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 20.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 19.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 18.07.2024 | Система работоспособна, проблемы в работе одного из компонентов | Переадресация при входе в админ-панель в определенных условиях | Неаутентифицированные админы организации, которые переходят в админ-панель по прямой ссылке |
17.07 - обнаружена переадресация при входе, выявлено обходное целевое решение 18.07 11:10 - доступ восстановлен Причина: необновленная информация для переадресации в админ-панель при использовании новых ресурсов для повышения производительности сервиса |
|
🟢 | 17.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 16.07.2024 | Система работоспособна, проблемы в работе одного из компонентов | Ошибка при скачивании записей | Облачные записи конференций |
02:33 - получены первые жалобы 03:19 - передано в разбор 08:57 - доступ восстановлен Причина: технический сбой при обновлении конфигурации сервиса записей. Одному из микросервисов присвоен некорректный адрес |
|
🟢 | 15.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 12.07.2024 | Система работоспособна, проблемы в работе одного из компонентов | Потери на сети, возможно влияние на качество звука или видео | ~ 3% пользователей онлайн |
17:00 - 17:30 фиксация периодических потерь Причина: шторм трафиком с внешних адресов |
|
🟢 | 11.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 09.07.2024 | Система работоспособна, наблюдаются замедления в работе | Кратковременное переподключение к конференциям | ~ 10% пользователей онлайн |
13:39 - начало переподключения 13:40 - доступ восстановлен Корневая причина аналогична сбою 05.07 - долгие ответы микросервисам DION от базы данных. |
|
🔴 | 08.07.2024 | Система частично недоступна | Разлогин, ошибки при авторизации, недоступность конференций |
96% пользователей онлайн в первый период недоступности 71% пользователей онлайн во второй период недоступности |
15:08 - начало недоступности 15:15 - восстановление доступа 16:18 - проводятся работы по неповторению. Возможно влияние на DION.Чаты 16:37 - работы по неповторению проведены, влияния на сервис DION.Чаты нет 17:01 - повтор недоступности 17:10 - восстановление доступа Корневая причина аналогична сбою 05.07 - долгие ответы микросервисам DION от базы данных. |
|
🟢 | 07.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.07.2024 | Стабильная работа без инцидентов | ||||
🔴 | 05.07.2024 | Система частично недоступна | Выявлена кратковременная недоступность сервиса | 95% пользователей в конференциях |
14:32 - начало проблем с подключением 14:37 - начинают проходить подключения 14:39 - доступность полностью восстановлена Корневая причина - долгие ответы микросервисам DION от базы данных.
Долгие ответы были вызваны комплексом причин, проявившихся в один момент времени - миграцией виртуальных машин, потерями на сетях и попаданием в очередь на обработку объемных запросов.
Мониторинг нагрузки и скорости обработки запросов на прошлой неделе показал, что симптомы предыдущих аварий больше не повторяются. Но команда DION продолжит вносить долгосрочные изменения для повышения стабильности работы идущих конференций. |
|
🟢 | 04.07.2024 | Стабильная работа без инцидентов | ||||
🟡 | 03.07.2024 | Система работоспособна, проблемы в работе нескольких компонентов |
Не запускаются записи в облачных конференциях
Обходной путь для записей - запускать аудиозапись в настройках конференции |
25% облачных конференций |
09:42 - получение пин-кодов восстановлено 10:10 - записи восстановлены Ведется разбор корневых причин |
|
🟡 | 02.07.2024 | Система работоспособна, наблюдаются замедления в работе | Кратковременное переподключение к идущим конференциям в промежутке времени 14:19:20 - 14:21:00 | < 30% пользователей онлайн | Идет разбор | |
🟢 | 01.07.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.06.2024 | Стабильная работа без инцидентов | ||||
🟡 | 25.06.2024 | Система работоспособна, проблемы в работе одного из компонентов | Замедления в отправке сообщений в чатах, сообщения отображались как не отправленные до перезагрузки страницы | Пользователи DION.Чаты |
16:10 - обнаружена проблема 16:12 - собрана аварийная конференция 16:47 - восстановлена отправка сообщений |
|
🟢 | 24.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.06.2024 | Стабильная работа без инцидентов | ||||
🟡 | 20.06.2024 | Система работоспособна, возможны прерывания в работе |
Возможны периодические вылеты из конференции Запись конференции может не запускаться |
1 % пользователей |
10:48, 10:51, 10:52 Вылет части пользователей. 12:00 Заметны улучшения, но потери остаются. Наблюдаются небольшие потери. 10:01 небольшая часть записей конференции не запускается (пробовать запустить повторно) 11:45 ошибка при запуске записи конференции исправлена |
|
🟡 | 19.06.2024 |
Система частично работоспособна Система работоспособна, наблюдаются замедления в работе |
Возможна недоступность dion.vc и мобильного приложения Фиксируются ddos атаки на ресурсы где базируется DION . Может наблюдаться нестабильность работы Dion, длительное подключение в конференции, проблемы со звуком. |
1 % пользователей
20% пользователей |
14:18 начало 14:44 работа восстановлена
9:45 начало 11:38 Атака локализована, критика снята, но могут наблюдаться сложности 12:25 Работоспособность полностью восстановлена Следим за ситуацией |
|
🟠 | 19.06.2024 | Система работоспособна, прерывания в работе | Фиксируются ddos атаки на ресурсы где базируется DION . Может наблюдаться нестабильность работы Dion: сложности с подключением в конференции, проблемы со звуком. | 100% пользователей |
9:45 начало 11:38 Атака локализована, стабильность восстановлена Продолжаем следить за ситуацией |
|
🟢 | 18.06.2024 | Стабильная работа без инцидентов | ||||
🟡 | 17.06.2024 | Система работоспособна, проблемы в работе одного из компонентов | Ошибка при попытке скачивания/просмотра записи конференции | <1% записей конференций |
9:39 выявили наличие проблемы 10:47 решен вопрос с просмотром записей конференций 13:20 налажена возможность скачивания записей конференции Идёт разбор |
|
🟢 | 16.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 09.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.06.2024 | Стабильная работа без инцидентов | ||||
🟠 | 05.06.2024 | Система работоспособна, проблемы в работе одного из компонентов | Недоступны внутренние конференции одного из заказчиков | 16:32 - 17:27 недоступна часть конференций | Доступ восстановлен, ведётся разбор причин | |
🟡 | 04.06.2024 | Система работоспособна, проблемы в работе одного из компонентов | Достигнут лимит по идущим записям, новые записи в облачном DION не поднимаются | Новые записи 10:11 - 10:44 |
10:54 - добавлены дополнительные ресурсы Нагрузка на активные сервера записи снижена |
|
🟡 | 03.06.2024 | Система работоспособна, проблемы в работе одного из компонентов | Достигнут лимит по идущим записям, новые записи в облачном DION не поднимаются | Новые записи 12:15 - 12:23 |
12:23 - освобождена часть ресурсов для новых записей 12:42 - добавлены дополнительные ресурсы Идёт разбор |
|
🟢 | 02.06.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.06.2024 | Стабильная работа без инцидентов | ||||
🟡 | 31.05.2024 | Система работоспособна, проблемы в работе одного из компонентов | Запись конференции не запускается из-за ошибки | ~ 80% запуска записей неуспешны |
09:45 - проблема зафиксирована 10:07 - проблемные рекордеры выведены, записи работают корректно |
|
🟠 | 30.05.2024 | Система работоспособна, прерывания в работе | Высокая нагрузка и замедления в работе конференций | 80% пользователей онлайн |
11:02 - начало замедления 11:05 - восстановление системы, постепенное переподключение участников Причина: большая очередь к ресурсам ВМ вызвана непрогнозируемым ростом пользовательской нагрузки. Из-за повышенного времени ожидания ответа некоторые сервисы рестартовали, что привело к недоступности подключения к конференциям в течение времени рестарта. После перезагрузки сервисов очередь стабилизировалась и была обработана с приемлемым временем отклика. Для неповторения аварии: перераспределены имеющиеся ресурсы и форсированы работы по горизонтальному масштабированию DION |
|
🟢 | 29.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.05.2024 | Стабильная работа без инцидентов | ||||
🟡 | 27.05.2024 | Система работоспособна, проблемы в работе одного из компонентов | Не работает автопереход в desktop-приложение по ссылке | Установленные версии desktop-приложения |
09:57 - первые обращения от админов организации 11:26 - фиксация массовости проблемы 11:35 - сбор аварийной конференции 11:58 - начало сборки новых версий с обновленными сертификатами 15:20 - отправили сборку на проверку в Касперский 22:00 - выпущена версия 5.6.2 с обновленными сертификатами для поддержки работы ссылок |
|
🟢 | 26.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 20.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 19.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 18.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.05.2024 | Стабильная работа без инцидентов | ||||
🟡 | 15.05.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при получении текстовых расшифровок записей |
Записи, сделанные 13.04 - 15.04 <1% записей конференций |
10:21 - собрана аварийная конференция 10:40 - локализована точка сбоя 12:58 – завершены работы по восстановлению доступа Причина: нарушение сетевой связности между хранилищем записей и сервисом обработки ввиду работ провайдера. Меры по неповторению аварии в обсуждении. Все ранее не обработанные записи отправлены на повторную обработку. Статус на 09:00 МСК 20.05.24 - обработано 80% зависших записей. 20% записей в обработке |
|
🟢 | 14.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.05.2024 | Стабильная работа без инцидентов | ||||
🟡 | 09.05.2024 | Система частично работоспособна, наблюдаются замедления в работе | Замедления при подключении к конференциям, долгая активация кнопки «Войти» | Облачные конференции |
13:42 - зафиксированы первые потери 14:01 - определены причины проблем на уровне сети, избыточный bgp-траффик 14:12 - сетевые подключения стабилизированы |
|
🟢 | 08.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 05.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.05.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 20.04.2024 | Стабильная работа без инцидентов | ||||
🟡 | 19.04.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при получении уведомлений о новых сообщениях в чатах | < 5% пользователей |
09:57 - обнаружена проблема 10:02 - собрана аварийная конференция, ведётся поиск причин 10:25 - проблема устранена, замедления могут сохраняться ещё 5-10 минут, до момента завершения вычитывания оставшихся сообщений |
|
🟢 | 18.04.2024 | Стабильная работа без инцидентов | ||||
🟡 | 17.04.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления в работе фильтров админ-панели при отображении активных конференций и конференций без участников | Пользователи админ-панели |
10:15 - обнаружены замедления в работе фильтров 10:45 - подготовка исправления 15:45 - замедления устранены |
|
🟡 | 17.04.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при получении писем с пин-кодами регистрации новых пользователей | Новые пользователи |
Причина: в связи с недавними блокировками некоторых сайтов хостинг-провайдеров, пересылка писем с пин-кодами затруднена. Пожалуйста, запрашивайте пин-код повторно или обращайтесь в поддержку для активации ваших УЗ. 13:35 - применено решение для исключения блокировок входящих писем |
|
🟢 | 16.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.04.2024 | Стабильная работа без инцидентов | ||||
🟡 | 10.04.2024 | Система работоспособна, наблюдаются замедления в работе | По мониторингу были замечены замедления в работе конференций | < 5% пользователей онлайн |
18:19 - кратковременные замедления 18:20 - восстановление 18:22 - собрана аварийная конференция Причина: в указанное время также замечены проблемы на сетях провайдеров |
|
🟢 | 09.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.04.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.04.2024 | Стабильная работа без инцидентов | ||||
🟡 | 05.04.2024 | Система работоспособна, наблюдаются замедления в работе | По мониторингу наблюдаются задержки при передаче данных от пользователей |
~ 15% пользователей испытывали периодические потери более 1% передаваемых данных. Для пользователей могло проявляться как кратковременный “робовойс” говорящих участников |
15:45 - собрана аварийная конференция, ведется наблюдение и разбор причин 18:00 - ситуация стабилизирована, направлен запрос к провайдерам о возможном влиянии сетевых сбоев |
|
🟡 | 04.04.2024 | Система работоспособна, проблемы в работе одного из компонентов | На части sip-терминалов не видна демонстрация экрана | < 1% пользователей |
15:27 - обнаружено 15:58 - работоспособность восстановлена |
|
🟡 | 03.04.2024 | Система работоспособна, проблемы в работе одного из компонентов | Приём звонков в desktop-версии после перехода по всплывающим уведомлениям затруднён | < 1% пользователей |
11:08 - проблема обнаружена 11:10 - сбор аварийной конференции 13:20 - фикс передан на тестирование 22:00 - исправление выпущено |
|
🟢 | 02.04.2024 | Стабильная работа без инцидентов | ||||
🟡 | 01.04.2024 | Система работоспособна, наблюдаются замедления в работе | 09:39 МСК - прерывания в работе конференций, переподключения к встречам в течение ~ 1 минуты | ~ 50% пользователей онлайн |
Работоспособность сервиса восстановлена. Причина: в процессе анализа. Проверяются версии по ошибкам в конфигурации сервисов, балансирующих входящие обращения. Ведется подготовка профилактических мер на прикладном уровне |
|
🟢 | 31.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.03.2024 | Стабильная работа без инцидентов | ||||
🟡 | 27.03.2024 | Система работоспособна, проблемы в работе одного из компонентов | Не проходят звонки с терминалов из переговорных комнат | Устройства одного заказчика |
08:23 - собрана аварийная конференция, идет диагностика 08:58 - применено обходное решение 09:05 - проверки успешны, подключения проходят 22:00 - выпущено исправление, звонки проходят успешно Причина: ошибка при получении множества реинвайтов со стороны терминалов Polycom определенной модели. |
|
🟢 | 26.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.03.2024 | Стабильная работа без инцидентов | ||||
🟡 | 21.03.2024 | Система работоспособна, проблемы в работе одного из компонентов |
Отключение некоторых записей в конференциях Достигнут лимит по одновременно запущенным записям |
< 10 записей пользователей |
Ведётся разбор причин. Прерванные записи можно получить через запрос в поддержку DION 12:35 - добавлены ресурсы для обеспечения новых записей |
|
🟠 | 20.03.2024 | Система работоспособна, прерывания в работе | Кратковременное переподключение к конференциям в 14:03 | 25% пользователей онлайн |
14:03 - отключение от конференций 14:04 - подключение восстановлено Причина: комплексная проблема, связанная с перегрузкой граничного маршрутизатора и замедлениями 19.03 - 20.03. |
|
🟠 | 20.03.2024 | Наблюдаются замедления в работе | Замедление при подключении к конференциям, отключение от конференций и разлогин из учетных записей | 80% пользователей онлайн |
10:00 - начало замедления 10:08 - нормализация 10:31 - переподключение к конференциям, разлогин 10:45 - нормализация подключений 11:00 - переподключение к конференциям 11:05 - работы по стабилизации с кратковременным переподключением 11:30 - подтверждаем нормализацию на пике 11:30 - 11:32 12:00 - подтверждаем нормализацию на пике 12:00 - 12:02 Причина: В связи с перегрузкой граничного маршрутизатора трафик, проходящий через него, обрабатывался с задержкой. Это проявлялось как отключение от конференций до 80% пользователей онлайн. Было замечено три волны переподключений: в 10:00 / 10:30 / 11:00 МСК В 10:27 и в 10:33 был предпринят ряд экстренных мер для снижения нагрузки, но их влияние оказалось недостаточным. В 11:05 были проведены экстренные работы по стабилизации с кратковременным переподключением участников встреч. На последующих точках пиковой нагрузки в 11:30 и 12:00 МСК была подтверждена нормализация работы. В рамках устранения последствий ведутся подготовительные работы по глобальному обновлению сетевого оборудования во втором квартале 2024 года. |
|
🟡 | 19.03.2024 | Система работоспособна, наблюдаются замедления в работе |
Замедления при переключением между разделами Главная / Видео / Чаты / Звонки Замедление при подключении к конференциям, искажение звука в некоторых конференциях |
10% пользователей онлайн |
10:00 - начало замедления 10:10 - нормализация 11:00 - повторение замедления 12:20 - проведены работы для распределения нагрузки, возможно переподключение к конференциям 12:25 - работа нормализована Причина: В связи с повышением входящего трафика один из серверов на инфраструктуре DION был перегружен. Перегрузка вызывала замедление обработки запросов и медиа трафика. После обнаружения перегруженного сервера отключили избыточные сервисы, которые генерировали дополнительную нагрузку и длительность обработки запросов нормализовалась. При отключении сервисов часть пользователей могла заметить кратковременное переподключение к конференциям в 12:25 МСК. Ночью с 19.03 на 20.03 в период 22:00 - 01:00 МСК проведены работы по добавлению ресурсов. Во время работ сервис был доступен, но могли отключаться записи в конференциях. В течение 20.03 мы будем наблюдать за нагрузкой и результатами проведенных работ. |
|
🟢 | 18.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.03.2024 | Стабильная работа без инцидентов | ||||
🟡 | 12.03.2024 | Система работоспособна, проблемы в работе одного из компонентов | Возможны сложности при подключении к части звонков DION-DION | < 50 % звонков от пользователя пользователю. Влияние на звонки из конференции не подтверждено | Прохождение звонков нормализовано | |
🟡 | 11.03.2024 | Система работоспособна, проблемы в работе одного из компонентов | Возможны сложности при подключении к части звонков DION-DION | < 50 % звонков от пользователя пользователю. Влияние на звонки из конференции не подтверждено | Ведется анализ причин | |
🟢 | 10.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 09.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 05.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.03.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.02.2024 | Стабильная работа без инцидентов | ||||
🟡 | 28.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | Нотификация (push-уведомления) в iOS - приложениях работают с перебоями. Затронуты уведомления о сообщениях в DION.Чатах и входящие звонки | < 2% пользователей |
09:36 - обнаружен сбой в работе уведомлений 14:00 - тестирование исправления 22:00 - выпущено исправление Причина: ограничения сервисов AppStore |
|
🟡 | 27.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | В desktop приложении не принимается звонок DION-DION для версий 5.1 или ниже | Версии desktop-приложения 4.9 / 5.1 |
12:20 - при снижении нагрузки от пользовательского трафика были отключены алгоритмы, влияющие на приём звонков в версиях desktop-приложения 5.1 и ниже 20:10 - исправление подготовлено и протестировано 22:00 - выпуск исправления Исправлено, для восстановления работы необходимо закрыть приложение в трее полностью и запустить заново |
|
🟡 | 27.02.2024 | Система работоспособна, наблюдаются замедления в работе | Повышенный трафик от пользователей | Переход между разделами до 5 секунд |
09:32 - заметили проблему 09:35 - сбор аварийной конференции 09:49 - увеличено кол-во ресурсов 10:00 - пик по замедлению 10:24 - нормализация 10:52 - повторное замедление 12:20 - нормализация Ведётся разбор причин |
|
🟢 | 26.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 23.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 22.02.2024 | Стабильная работа без инцидентов | ||||
🟡 | 21.02.2024 | Система работоспособна, наблюдаются замедления в работе | Замедление при включении микрофонов и подключении к конференции | 3% пользователей онлайн |
11:00 - начало замедления 11:03 - восстановление Ведется разбор причин |
|
🟠 | 20.02.2024 | Система работоспособна, проблемы в работе нескольких компонентов | Проблемы при подключении с части мобильных клиентов, прерывания связи в рамках работ | 30% пользователей |
22:33 - начало влияния в рамках работ 23:28 - восстановление доступа Причина: обновление сертификата безопасности приложения в рамках работ повлекло проблемы в работе мобильных клиентов. Произведен откат на прежний сертификат |
|
🟡 | 19.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | Ошибки при обработке расшифровки аудио в DION.Video | 50% обрабатываемых расшифровок |
12:36 - зафиксирована проблема, ведется разбор 17:30 - сбой устранен |
|
🟢 | 18.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.02.2024 | Стабильная работа без инцидентов | ||||
🟡 | 16.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | Некорректный редирект по старым ссылкам на записи конференций из почты. | Старые записи до 15.02 |
09:31 - обнаружение проблемы 09:46 - диагностика причин 09:56 - переадресация на старые записи восстановлена |
|
🟢 | 15.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 09.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.02.2024 | Стабильная работа без инцидентов | ||||
🟡 | 06.02.2024 | Система работоспособна, наблюдаются замедления в работе | Замедления при подключении к конференциям в 05:41 - 05:43 | < 1% пользователей | Замедление устранено, причина в проблемах на сети | |
🟡 | 05.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | Замедление обработки видеозаписей | Записи конференций в облачном DION в промежутке 15:30 - 18:30 МСК | Проблема исправлена, идет дообработка оставшихся записей. Прогнозное время дообработки всех записей - 08:00 МСК 06.02.2024 | |
🟢 | 04.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.02.2024 | Стабильная работа без инцидентов | ||||
🟡 | 02.02.2024 | Система работоспособна, проблемы в работе одного из компонентов | Недоступна информация в админ-панели по части пользователей | < 1% пользователей |
11:41 - определение проблемы 12:04 - сбор аварийной конференции 12:30 - увеличено время на выполнение запроса данных о пользователе 13:00 - устранение последствий Причина: недостаточное время на выполнения запроса информации о пользователе. Часть запросов к БД не успевала выполниться и падала с ошибкой. Время на выполнение запроса увеличено. |
|
🟢 | 01.02.2024 | Стабильная работа без инцидентов | ||||
🟢 | 31.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 30.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 29.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 28.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 27.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 26.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 25.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 24.01.2024 | Стабильная работа без инцидентов | ||||
🟡 | 23.01.2024 | Система работоспособна, наблюдаются замедления в работе |
Замедление при входе в конференции DION Замедление при отправке сообщений в групповые чаты до 20 секунд |
5% пользователей |
10:05 - замедление в подключении к конференциям 10:08 - подключение к конференциям нормализовано 10:38 - отправка сообщений нормализована Причина: В связи с утренней нагрузкой и увеличением трафика от пользователей скорость отклика DION снизилась. Запланировано дополнительное исследование кэширования и сжатия для снижения нагрузки |
|
🟢 | 22.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 21.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 20.01.2024 | Стабильная работа без инцидентов | ||||
🟡 | 19.01.2024 | Система работоспособна, проблемы в работе одного из компонентов | Замедление работы Чатов, отправка сообщений до 10 секунд 12:05 - 13:07 |
Менее 3% пользователей | Ведётся разбор корневых причин, косвенное влияние из-за повышенной нагрузки на сервис | |
🟢 | 18.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 17.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 16.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 15.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 14.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 13.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 12.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 11.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 10.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 09.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 08.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 07.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 06.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 05.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 04.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 03.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 02.01.2024 | Стабильная работа без инцидентов | ||||
🟢 | 01.01.2024 | Стабильная работа без инцидентов | ||||
История стабильности работы 2023 |