• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

Нейросеть научили предсказывать кризисы на фондовом рынке России

Экономисты из ВШЭ разработали нейросетевую модель, способную за сутки до события с точностью более 83% предупредить о приближении краткосрочного фондового кризиса. Модель работает даже на сложных, несбалансированных данных и учитывает не только экономические показатели, но и настроение инвесторов. Работа сотрудников Центра финансовых исследований и анализа данных ФЭН ВШЭ Тамары Тепловой, Максима Файзулина и Алексея Куркина опубликована в журнале Socio-Economic Planning Sciences.

«Человеческое существование без математики сегодня трудно, а завтра будет просто невозможно»

Математики всего мира говорят на одном языке и продолжают сотрудничество, несмотря на сложности последних лет. Центр их общения перемещается в Китай, где ученые разных стран встречаются на конференциях и других научных мероприятиях. Сотрудничество с ведущими китайскими университетами перспективно для продолжения прежних и организации новых контактов. Об этом, а также о том, что такое ИИ и почему государство должно сотрудничать с математиками, новостной службе «Вышка.Главное» рассказал заведующий Международной лабораторией зеркальной симметрии и автоморфных форм НИУ ВШЭ Валерий Гриценко.

Новые модели изучения заболеваний: от чашки Петри до органов-на-чипе

Биологи из НИУ ВШЭ совместно с исследователями из НМИЦ АГП им. В.И. Кулакова используют новейшие микрофлюидные технологии для изучения преэклампсии — одного из самых опасных осложнений беременности, которое угрожает жизни и здоровью матери и ребенка. В статье, опубликованной в BioChip Journal, они рассмотрели современные клеточные модели, включая передовые технологии «плацента-на-чипе», позволяющие глубже понять механизмы заболевания и разработать эффективные лекарства.

Как разработать честный тест: зачем нужны параллельные тексты для диагностики дислексии

Исследователи из Центра языка и мозга ВШЭ разработали тест для точной оценки навыков чтения у взрослых — например, до и после занятий с логопедом. Он включает два разных по содержанию, но одинаковых по сложности текста: участники читали их с равной скоростью, делали равное количество ошибок и одинаково понимали смысл. Подобные параллельные тексты позволят точнее диагностировать дислексию и отслеживать прогресс коррекции. Исследование опубликовано в журнале «Вопросы образования».

Внутренние часы: как сердце и эмоции меняют ощущение времени

Восприятие времени зависит от частоты сердцебиения — к такому выводу пришли нейроученые из НИУ ВШЭ. В эксперименте добровольцы смотрели короткие видео с разной эмоциональной окраской и оценивали их продолжительность, пока ученые фиксировали сердечную активность с помощью ЭКГ. Оказалось, что чем медленнее билось сердце участника, тем короче ему казалось видео, особенно это проявлялось при просмотре неприятного контента. Исследование опубликовано в журнале Frontiers in Psychology.

«Мы близки к практическому применению системы бесстимульного картирования головного мозга»

Созданные учеными Вышки совместно с медиками нейроинтерфейсы позволяют установить контакт с головным мозгом и декодировать его сигналы. Их применение создает возможности для стимуляции мозговой активности, восстановления и нормализации мышечного контроля пациентов, перенесших инсульт, инфаркт или страдающих иными неврологическими заболеваниями, а также способствует реабилитации людей с черепно-мозговыми травмами и потерей конечностей. О работе Центра биоэлектрических интерфейсов Института когнитивных нейронаук НИУ ВШЭ рассказывает его директор Алексей Осадчий.

Исследователи НИУ ВШЭ выяснили, как часто у россиян с легочной гипертензией встречаются генетические мутации

Команда ученых и медиков впервые в России провела масштабное генетическое исследование пациентов с легочной артериальной гипертензией. Исследователи, включая сотрудников Международной лаборатории биоинформатики факультета компьютерных наук НИУ ВШЭ, изучили геномы более ста пациентов и обнаружили, что примерно у каждого десятого встречаются опасные мутации в гене BMPR2, отвечающем за рост сосудов. Три мутации были описаны впервые. Исследование опубликовано в журнале Respiratory Research.

Центр языка и мозга провел первое полевое нейролингвистическое исследование чтения на якутском языке

В июле команда Центра языка и мозга НИУ ВШЭ совместно с Центром изучения, сохранения и развития родных языков Академии наук Республики Саха (Якутия) организовала в селе Чурапча первую в истории нейролингвистическую экспедицию по исследованию чтения на якутском языке с использованием метода электроэнцефалографии (ЭЭГ). В ходе двухнедельной работы впервые были собраны ЭЭГ-данные 43 взрослых участников, а также поведенческие данные 40 детей.

Понимаем одинаково, читаем по-разному: как родной язык влияет на чтение на английском

Исследователи международного проекта MECO, включая специалистов Центра языка и мозга НИУ ВШЭ, разработали инструмент для изучения чтения на английском у носителей более чем 19 языков. В масштабном эксперименте с участием более 1200 человек ученые отслеживали движения глаз во время чтения одних и тех же текстов на английском языке, а затем анализировали уровень понимания. Результаты показали: даже при одинаковом понимании процесс чтения — где взгляд задерживается, куда возвращается, какие слова пропускает — зависит от родного языка и уровня владения английским. Исследование опубликовано в Studies in Second Language Acquisition.

«Мы описываем бесписьменные языки»

Научный сотрудник Международной лаборатории языковой конвергенции НИУ ВШЭ Кьяра Наккарато окончила университет в Италии, а в Вышку приехала изучать дагестанские языки и особенности речи билингвов. Итальянка отмечает доброжелательную атмосферу в лаборатории и гостеприимство жителей Дагестана.