Предобработка и анализ входных переменных
Валидация данных.
Валидация исходной информации и проверка непротиворечивости предоставленных данных является одним из важнейших этапов проведения статистического исследования.
Поэтому в рамках данного исследования был проведен анализ данных с целью выявления аномальных значений и выбросов.Из рассмотрения были исключены следующие данные, которые были отнесены к ошибкам заполнения анкеты.
1. Ошибки заполнения даты рождения:
■ клиенты, не достигшие возраста 18 лет, т.к. по условиям программы участником может стать гражданин РФ не моложе 18 лет;
■ клиенты, имеющие возраст старше 90 лет, т.к. вероятность оформления карты лояльности таким клиентом весьма низкая.
2. Мошеннические действия: выявление аномально большого количества покупок.
3. Ошибки загрузки данных в систему - технические ошибки: выявление клиентов с аномально маленькой или большой суммой покупок и среднего чека.
4. Прочие невалидные данные: отрицательные значения, незаполненные обязательные поля анкеты (возраст, пол), клиенты с отсутствием покупок.
Область допустимых значений для исследуемых переменных приведены ниже (Таблица 4).
Таблица 4. Область допустимых значений
| Минимальное значение | Максимальное значение | |
| Возраст | 18 | 90 |
| Сумма покупки | 100р | 2 000 000р |
| Средний чек | 10р | 2 000 000р |
| Совокупное число покупок | 1 | 800 |
В результате проведенного анализа было удалено 38 365 записей. Для построения модели использовалась выборка из 181 927 записей.
Статистический анализ входящих переменных
В рамках работы был проведен статистический анализ исходных и рассчитанных в ходе работы переменных:
1. Построены гистограммы исследуемых переменных.
2. Проанализирована описательная статистика переменных: минимальное и максимальное значение, среднее и стандартное отклонение.
Анализ демографических характеристик клиентской базы показал, что среди клиентов компании имеется небольшое преобладание мужчин, по социальному статусу клиентов, указавших свое семейное положение, небольшое преобладание «холостых» клиентов, над теми, кто обозначил свой статус, как «женат/замужем», при этом наблюдается значительная группа клиентов, которые не отметили свое семейное положение (рис.9).
Рисунок 9. Социально-демографические характеристики клиентской базы компании.
Распределение возрастных категорий среди мужчин и женщин одинаково: преобладают молодые люди в возрасте от 25 - до 40 лет (рис.10).
Рисунок 10. Половозрастная гистограмма клиентской базы компании.
Потребительское поведение клиента характеризуется его покупательской активностью. Т.е. такими параметрами, как: совокупное количество покупок, совокупная сумма покупок, средний чек покупки, частота покупок, время «жизни» и время «сна» клиента. Описательная статистика и гистограммы приведены на рис.11 - рис.16.
Как видно из приведенных графиков, большая часть клиентской базы имеет довольно пассивное покупательское поведение: небольшое число покупок из бюджетной категории товаров (средний чек от 1-2 тысячи рублей), частота покупок низкая, в среднем менее 1 покупки в год.
По гистограмме времени жизни клиента видно, что происходит постепенное насыщение клиентской базы компании: количество клиентов со сроком жизни менее 10 месяцев значительно ниже, чем количество клиентов, привлеченных на этапе формирования клиентской базы (срок жизни от 50 до 53 месяцев).
Примерно 12 500 клиентов активны и совершили покупку в последнем месяце (около 7% от рассматриваемой клиентской базы). Распределение клиентов по давности покупок довольно равномерно.
Рисунок 11. Описательная статистика характеристики «совокупное количество
покупок».
Рисунок 12. Описательная статистика характеристики «совокупная сумма покупок».
Средний чек
Рисунок 13. Описательная статистика характеристики «средний чек».
Рисунок 14. Описательная статистика характеристики «частота покупок».
Рисунок 15. Описательная статистика характеристики «время жизни клиента». Статистики
Рисунок 16. Описательная статистика характеристики «время «сна» клиента».
3.3.