Вышла новая версия IBM SPSS Statistics 31: Новый взгляд на анализ данных с расширенными алгоритмами

Компания IBM представила обновленную версию своего флагманского продукта для статистического анализа — IBM SPSS Statistics 31. Новый релиз предлагает бизнес-пользователям и аналитикам усовершенствованный набор инструментов, позволяющих глубже проникать в суть данных, выявлять неочевидные связи и строить более точные прогнозные модели. Обновление сфокусировано на добавлении новых процедур, отвечающих современным требованиям к анализу сложных данных, и на повышении удобства работы с программным обеспечением.

Ключевые нововведения IBM SPSS включают мощные алгоритмы, такие как Proximity Mapping (PROXMAP) для визуализации рыночных позиций, Time Series Filtering для очистки данных от шума и выделения трендов, Distance Correlation для выявления нелинейных зависимостей, Conditional Inference Trees для построения стабильных деревьев решений, а также процедуру STATS Earth для гибкого предиктивного моделирования. Кроме того, внедрена функция Curated Help, которая упрощает интерпретацию результатов анализа.

Proximity Mapping (PROXMAP): Визуализация конкурентной среды

Одним из наиболее интересных дополнений в IBM SPSS Statistics 31 стала процедура Proximity Mapping (PROXMAP). Этот метод, являющийся развитием многомерного шкалирования (MDS), позволяет визуализировать отношения между объектами (например, товарами, брендами, сегментами клиентов) в виде пространственной карты. В отличие от предыдущих инструментов, PROXMAP способен работать с различными источниками данных о “близости” или “сходстве” объектов и учитывать дополнительные переменные, описывающие их атрибуты.

Для бизнеса это открывает широкие возможности. Маркетологи могут создавать карты восприятия, чтобы увидеть, как потребители сравнивают их бренд с конкурентами по таким параметрам, как цена, качество, инновационность и уровень сервиса. Это помогает идентифицировать свободные рыночные ниши, оценить эффективность рекламных кампаний и принять обоснованные решения по репозиционированию продукта.

Практическое применение:

Анализ рынка: Розничная сеть может проанализировать, как покупатели воспринимают различные торговые марки кофе. Карта PROXMAP способна показать, что одни бренды ассоциируются с высокой ценой и премиальным качеством, другие – с доступностью и семейным потреблением, а третьи – с инновационными вкусами. Это позволит оптимизировать ассортимент и стратегию продвижения для каждой группы товаров.

Сегментация клиентов: Банк может визуализировать сегменты своих клиентов на основе их поведения: частоты транзакций, использования различных продуктов (кредиты, депозиты, инвестиции) и уровня риска. Это поможет разработать целевые предложения для каждой группы и повысить их лояльность.

Time Series Filtering: Очистка сигнала от шума для точных прогнозов

Работа с данными временных рядов, такими как ежедневные продажи, объемы производства или колебания цен на акции, часто осложняется из-за наличия “шума” – случайных колебаний, которые маскируют основные тенденции и циклы. В IBM SPSS Statistics 31 появились новые инструменты для фильтрации временных рядов, которые помогают решить эту проблему.

Новая процедура включает три мощных фильтра:

Фильтр Ходрика-Прескотта (HP): Позволяет разделить временной ряд на две компоненты: долгосрочный тренд и циклическую составляющую. Это идеальный инструмент для анализа бизнес-циклов и макроэкономических показателей.
Фильтр Бакстера-Кинга (BK): Является полосовым фильтром, который выделяет колебания определенной периодичности, соответствующие бизнес-циклам (например, от 1.5 до 8 лет), игнорируя краткосрочные и очень долгосрочные колебания.
Фильтр Кристиано-Фицджеральда (CF): Асимметричный фильтр, который также хорошо подходит для выделения циклической компоненты в режиме реального времени, поскольку он эффективен даже на концах временного ряда.

Практическое применение:

Прогнозирование спроса: Производственная компания может использовать фильтры для очистки данных о ежемесячных продажах от случайных всплесков и падений. Это позволит увидеть реальный сезонный спрос и долгосрочный тренд роста, что критически важно для планирования запасов и производственных мощностей.

Финансовый анализ: Инвестиционный аналитик может применить фильтр Бакстера-Кинга к динамике ВВП или индексам фондового рынка, чтобы идентифицировать фазы экономического цикла (рост, пик, спад, дно) и принимать более взвешенные инвестиционные решения.

Distance Correlation: Поиск скрытых нелинейных связей

Классический коэффициент корреляции Пирсона эффективен только для выявления линейных связей между переменными. Однако в реальном мире бизнеса зависимости зачастую более сложны. Например, повышение затрат на рекламу может сначала давать стремительный рост продаж, а затем эффект замедляется (U-образная зависимость).

Новая функция Distance Correlation (корреляция расстояний) в IBM SPSS Statistics 31 является мощным инструментом, способным выявлять любые типы зависимостей между двумя переменными, включая нелинейные и сложные. Значение коэффициента варьируется от 0 (полная независимость) до 1 (идеальная зависимость). Это позволяет аналитикам находить значимые связи там, где традиционные методы показывают их отсутствие.

Практическое применение:

Маркетинговая аналитика: Компания может исследовать связь между удовлетворенностью клиентов и их лояльностью. Эта связь редко бывает линейной. С помощью Distance Correlation можно выявить пороговое значение удовлетворенности, после которого лояльность начинает стремительно расти.

Управление рисками: Финансовое учреждение может анализировать зависимость между различными рыночными факторами (например, ценой на нефть и курсом валют), которые могут иметь сложное нелинейное взаимодействие, чтобы точнее моделировать потенциальные риски для своего портфеля.

Conditional Inference Trees: Построение надежных и интерпретируемых моделей

Деревья решений являются популярным инструментом для классификации и прогнозирования. Однако традиционные алгоритмы, такие как CHAID или CART, иногда склонны к “переобучению” (когда модель слишком хорошо подстраивается под обучающие данные и плохо работает на новых) и могут отдавать предпочтение переменным с большим количеством возможных значений.

Новый алгоритм Conditional Inference Trees (условные деревья выводов) использует иной подход. Он базируется на статистических тестах значимости (пермутационных тестах) для выбора переменных на каждом шаге разбиения. Это приводит к построению более стабильных и объективных деревьев, которые лучше обобщают закономерности в данных.

Практическое применение:

Прогнозирование оттока клиентов: Телекоммуникационная компания может построить модель для определения клиентов, склонных к расторжению контракта. Условное дерево выводов покажет наиболее значимые факторы риска (например, продолжительность пользования услугами, количество обращений в службу поддержки, тип тарифного плана) в виде простой и понятной иерархии правил.

Кредитный скоринг: Банк может использовать этот алгоритм для создания модели оценки кредитоспособности заемщиков. Модель будет менее подвержена ошибкам и обеспечит более надежную классификацию клиентов на “надежных” и “рискованных”.

STATS Earth: Гибкое моделирование нелинейных зависимостей

Процедура STATS Earth реализует алгоритм Multivariate Adaptive Regression Splines (MARS). Это современный метод регрессионного анализа, который автоматически моделирует сложные нелинейные связи между предикторами и зависимой переменной. В отличие от традиционной линейной регрессии, описывающей связь одной прямой линией, MARS строит модель из нескольких отрезков прямых (сплайнов), каждый из которых имеет свой наклон.

Это позволяет модели гибко “подстраиваться” под сложную структуру данных, выявляя точки, где характер зависимости меняется. Алгоритм автоматически отбирает самые важные переменные и находит их взаимодействия.

Практическое применение:

Прогнозирование цен на недвижимость: Агентство недвижимости может построить модель, прогнозирующую стоимость квартиры. STATS Earth может выявить, что влияние площади на цену нелинейно: например, для маленьких квартир каждый дополнительный метр значительно повышает стоимость, а для больших – этот эффект ослабевает.

Оптимизация производственных процессов: Инженер на производстве может моделировать зависимость качества продукции от параметров процесса (температуры, давления). Модель MARS поможет найти оптимальные настройки, даже если зависимости являются сложными и нелинейными.

Curated Help: Интеллектуальный помощник для интерпретации результатов IBM SPSS

Одним из препятствий для широкого использования статистических методов в бизнесе является сложность интерпретации результатов. В IBM SPSS Statistics 31 появилась функция Curated Help (также известная как Smart Output), которая анализирует таблицы с результатами и предоставляет краткий, понятный вывод.

На данный момент эта функция реализована для процедур корреляционного анализа. После расчета корреляционной матрицы система автоматически выводит текстовое резюме и использует цветовое кодирование в таблице, выделяя статистически значимые положительные и отрицательные связи. Это значительно ускоряет анализ и снижает риск ошибочной интерпретации для пользователей, не являющихся профессиональными статистиками.

Практическое применение:

Анализ данных опросов: Менеджер по персоналу, проанализировав результаты опроса вовлеченности, может мгновенно увидеть, какие факторы (например, отношения с руководителем, возможности для развития) сильнее всего коррелируют с общим уровнем удовлетворенности сотрудников, не углубляясь в детали статистических показателей.

Заключение

Релиз IBM SPSS Statistics 31 является логичным шагом в развитии аналитических платформ, где акцент смещается от простой обработки данных к глубокому, многогранному анализу и автоматизации интерпретаций. Внедрение таких инструментов, как PROXMAP, Distance Correlation и STATS Earth, предоставляет бизнесу возможность работать со сложными нелинейными зависимостями, которые являются нормой в современной экономике. В то же время функции Time Series Filtering и Conditional Inference Trees повышают надежность и точность прогнозных моделей. В совокупности эти обновления не просто расширяют функционал программы, а предоставляют аналитикам более мощный, гибкий и интуитивно понятный инструментарий для принятия решений, основанных на данных.

* Статья подготовлена по материалам “Release notes: IBM® SPSS® Statistics 31”.