Ученые представили новый метод для работы с несбалансированными данными
Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.
Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.
Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.
Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях, когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).
Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.
Андрей Савченко
«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.
Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.
Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.
Вам также может быть интересно:
Стартовала регистрация школьников на Всероссийскую олимпиаду по ИИ
Открылась регистрация на пятый сезон Всероссийской олимпиады по искусственному интеллекту. В этом году организаторы ожидают увеличения числа участников — соревнование получило международный статус, и теперь принять участие могут школьники 8–11-х классов не только из России, но и из других стран. Олимпиаде присвоен II уровень в перечне РСОШ — ее призеры и победители получат льготы при поступлении в вуз.
В НИУ ВШЭ обсудили глобальные тренды ИИ на международной форсайт-сессии
В Высшей школе экономики прошла международная форсайт-сессия по искусственному интеллекту (ИИ). Российские и иностранные ученые обсудили тренды и вызовы, которые возникают в связи с быстрым развитием ИИ.
Больше не одинокий гений: как сохранить идентичность ученого в эпоху ИИ
Сегодня профессия ученого требует новых навыков, зачастую не связанных с наукой — от умения находить гранты до успешной продажи продукта своего труда. Огромным вызовом стал ИИ, который справляется со многими задачами быстрее человека. Центр научной интеграции НИУ ВШЭ организовал вебинар «Ученые и искусственный интеллект», посвященный профессиональной идентичности исследователя в условиях стремительной цифровизации и технологических трансформаций. Подробнее — в материале HSE Daily.
Вышка доверит ИИ рутинную работу по созданию программ ДПО
НИУ ВШЭ совместно с EdTech-компанией CDO Global запускает AI-конструкторы для оптимизации разработки курсов дополнительного профессионального образования (ДПО). Новый сервис позволит автоматизировать подготовку учебных материалов и оценочных средств, значительно сократив время и ресурсы, затрачиваемые преподавателями и методистами.
ВШЭ и Московский аналитический центр объединят усилия в сфере ИИ
НИУ ВШЭ подписал соглашение о сотрудничестве с ГБУ «Московский аналитический центр». Документ закрепил намерение сторон развивать совместные исследования и внедрять технологии искусственного интеллекта в управление городским хозяйством.
Руководители «Билайна» прокачивают навыки работы с ИИ на базе НИУ ВШЭ
В Центре непрерывного образования факультета компьютерных наук НИУ ВШЭ стартовала программа повышения квалификации для руководителей компании «Вымпелком» «Лаборатория ИИ: Вместе быстрее». В ее работе примут участие сотрудники компании из разных городов страны, которые будут повышать компетенции по внедрению ИИ в бизнес-процессы.
Вузы разделились на шесть лагерей в отношении к искусственному интеллекту
Каким должно быть образование в эпоху ИИ? Чтобы разобраться, какие есть точки зрения и какие решения уже формируются, команда Института образования ВШЭ весной 2025 года провела серию интервью с проректорами российских университетов. Об итогах этого исследования рассказывает директор института Евгений Терентьев.
НИУ ВШЭ стал абсолютным лидером рейтинга вузов по подготовке кадров для ИИ
Альянс в сфере искусственного интеллекта опубликовал обновленный рейтинг вузов по качеству подготовки специалистов в области ИИ. В него вошли 203 российских университета из 68 регионов. Высшая школа экономики первой получила наивысшую категорию А++.
ВШЭ и МТС будут вместе бороться с дипфейками и научат искусственный интеллект создавать новое видео под запросы пользователей
НИУ ВШЭ и компания МТС Web Services (MWS) объявили о запуске серии совместных исследовательских работ в области технологий искусственного интеллекта, направленных на развитие инновационных решений в сфере кибербезопасности, мультимодальной генерации контента и анализа больших данных. Основным исполнителем проекта является Московский институт электроники и математики им. А.Н. Тихонова НИУ ВШЭ при общей координации Центра искусственного интеллекта ВШЭ.
11 вузов России стали участниками проекта ВШЭ и «Яндекса» по применению ИИ при подготовке дипломных работ
Эксперты «Яндекс Образования» и факультета компьютерных наук НИУ ВШЭ научили студентов и научных руководителей использовать нейросеть YandexGPT в трудоемких задачах — для анализа источников, структурирования информации, визуализации данных и работы с текстом в процессе подготовки дипломов.