Warning: session_start(): open(/tmp/sess_83fb02763deb1486ec46c6a1762e099c, O_RDWR) failed: No space left on device (28) in /var/www/www.spbit.ru/frontend/system/page_frontend.class.php on line 45

Warning: session_start(): Cannot send session cache limiter - headers already sent (output started at /var/www/www.spbit.ru/frontend/system/page_frontend.class.php:45) in /var/www/www.spbit.ru/frontend/system/page_frontend.class.php on line 45
Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных

rss Twitter Добавить виджет на Яндекс
     
 
 
 
     
     
 
 
 
     
     
 

Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных

Учёные Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ предложили метод оценки качества векторных представлений данных (в машинном обучении их называют эмбеддингами) без участия человека и ручной разметки.

Специализированная метрика Persistence помогает выбрать лучшую архитектуру модели и вовремя остановить её обучение, экономя GPU-часы и ускоряя выход ИИ-решений в реальный бизнес. Результаты исследования изложены в научной статье, принятой на конференцию высшего уровня ECIR 2026 (48-я Европейская конференция по информационному поиску) в Делфте (Нидерланды).

В современном машинном обучении модели, которые учатся без ручной разметки, становятся основой для рекомендаций, финансовой аналитики и поведенческого моделирования. Но у разработчиков долго не было инструмента, чтобы без размеченных данных понять, хорошие ли векторные представления получились. Существующие метрики предполагают линейную разделимость данных или работают только в узких сценариях. Предложенная метрика решает ключевые задачи автоматически: подбирает оптимальный размер векторного представления, количество слоёв и функцию потерь, а также указывает, на какой эпохе обучения нужно остановиться, чтобы модель не переобучилась и не осталась сырой.

Метрика основана на методе топологического анализа данных. Над множеством точек в пространстве эмбеддингов строится фильтрация Вьеториса–Рипса, а суммарная персистентность топологических признаков отражает геометрическое богатство этого пространства. Метрика российских учёных устойчиво превосходит зарубежные аналоги (RankMe, α-ReQ, NESum, SelfCluster) по корреляции с качеством на прикладных задачах — в финансовой аналитике, поведенческом моделировании и коллаборативной фильтрации.

Для бизнеса это прямая экономия. Раньше выбор лучшей модели векторных представлений требовал тестирования каждой конфигурации на размеченных данных — это занимало много ресурсов и времени. Persistence оценивает качество модели без лишних задач и находит оптимальную эпоху обучения, когда данные максимально структурированы (без пере- или недообучения). Компании тратят меньше ресурсов на эксперименты и быстрее запускают лучшую модель в прод. Даже при малом количестве разметки или её отсутствии (например, новая категория товаров) Persistence работает. Метрика универсальна: подходит для любых бизнес-задач, а векторные представления не заточены под один классификатор. Persistence устойчива там, где валидация падает (временной сдвиг, сложные пайплайны), — она оценивает внутреннюю геометрию данных, а не конкретную выборку.

Решение позволит получать более точные рекомендации в онлайн-кинотеатрах и маркетплейсах. Оно улучшит работу голосовых помощников и ускорит внедрение ИИ в медицину. Снизится барьер применения моделей без учителя в областях с дефицитом разметки: здравоохранение, социальные науки, гуманитарные дисциплины.

Сергей Рябов, директор департамента развития ИИ-решений Сбербанка, отмечает:
«До появления специализированной метрики аналитики данных выбирали архитектуру и момент остановки обучения модели вслепую или через ресурсозатратные эксперименты с разметкой. Это требовало сотен GPU-часов и замедляло вывод моделей в прод. Наша метрика автоматически оценивает качество эмбеддингов по их внутренней геометрии. Обучают несколько конфигураций — Persistence указывает лучшую. Или обучают одну модель — метрика определяет эпоху остановки, избегая переобучения. В результате происходит экономия ресурсов, развиваются универсальные модели, устойчивые к сдвигам распределения данных. Для бизнеса — скорость и предсказуемость, для пользователей — более точные ИИ-сервисы, быстрее адаптирующиеся к новым сценариям без длительной настройки».

Редактор раздела: Антон Соловьев (info@mskit.ru)

Рубрики: Интеграция, ПО

наверх
 
 
     

А знаете ли Вы что?

     
 

ITSZ.RU: последние новости Петербурга и Северо-Запада

17.04.2026 «Перекрёсток» научился предсказывать поломки оборудования

17.04.2026 Замедление интернет-сервисов и сохранение цифровой экономики: взгляд отрасли

15.04.2026 Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных

18.03.2026 Уязвимости в тени: ChatGPT и DeepSeek пропускают от 40 до 50% уязвимостей в приложениях на Java и Python

MSKIT.RU: последние новости Москвы и Центра

NNIT.RU: последние новости Нижнего Новгорода

 
     
       

Warning: Unknown: open(/tmp/sess_83fb02763deb1486ec46c6a1762e099c, O_RDWR) failed: No space left on device (28) in Unknown on line 0

Warning: Unknown: Failed to write session data (files). Please verify that the current setting of session.save_path is correct () in Unknown on line 0