Реферат: Применение кластерного анализа для сегментации рынка
ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ
Филиал государственного образовательного учреждения высшегопрофессионального образования казанского государственного университета имениВ.И. Ульянова – Ленина в Г.набенежные Челны
Факультетприкладной математики и информатики
Специальность:080116.65: Математические методы в экономике
ДОКЛАД
Применениекластерного анализа для сегментации рынка
Выполнил:
студент IIIкурса
дневного отделения
группы 40741
Ужогов А. А.
Набережны Челны
2009
Оглавление
1. Сегментация рынка
2. Сущность кластерного анализа
3. Выполнение кластерного анализа
3.1Формулировкапроблемы
3.2Выборспособа измерениярасстояния или мерысходства
3.3Выборметода кластеризации
3.4 Принятиерешения о количестве кластеров
3.5 Интерпретация и профилирование кластеров
3.6Оценканадежности и достоверности
Вывод
1. Сегментация рынка
В наше время созданиетовара не является уже таким беспрецедентным и уникальным событием, как этобыло раньше. Еще буквально полвека назад создание чего-то нового производилопереворот и приносило изобретателям сверхприбыли. Сейчас главным является несоздание, а умелое и эффективное продвижение нового товара. Истории известныслучаи, когда продукция, которая, по сути, не была уникальной или сверхновойстановилась лидером продаж на многие годы, благодаря грамотной маркетинговойстратегии фирмы.
При разработке новоготовара необходимо четко знать, на какую потребительскую аудиторию он рассчитан.Нужно знать о своем среднестатистическом потенциальном клиенте практически все,начиная с возраста и пола и заканчивая личными увлечениями. Именно эти сведениядают возможность разработать товар вплоть до мелочей и провести эффективнуюрекламную кампанию.
Одним из основныхнаправлений маркетинговой деятельности является сегментация рынка, позволяющаяаккумулировать средства предприятия на определенном направлении своего бизнеса.Рынок состоит из покупателей, а покупатели отличаются друг от друга по самымразным параметрам. И любой из этих переменных можно воспользоваться в качествеосновы для сегментирования рынка.
К настоящему времени вэкономической литературе достаточно четко обозначены понятия целевого рынка ицелевого сегмента, выделение которых и является основной целью сегментациирынка. Целевой рынок – это потенциальный рынок фирмы, который определяетсясовокупностью людей со схожими потребностями в отношении конкретного товара илиуслуги, достаточными ресурсами, а также готовностью и возможностью покупать.Целевой сегмент – это однородная группа потребителей целевого рынка фирмы,обладающая схожими потребностями и покупательскими привычками по отношению ктовару фирмы.
Таким образом, сегментирование рынка – это разбивка рынка начеткие группы покупателей, для каждой из которых могут потребоваться отдельныетовары и/или комплексы маркетинга.Целью сегментированияявляется выделение одной или нескольких целевых групп потребителей, под которых«затачивается» весь комплекс маркетинговых мероприятий — отразработки продуктов и брендинга до выбора тональности и носителеймаркетинговых коммуникаций.
Разбивать рынок насегменты можно разными способами. Можно использовать факторный, кластерный,дискриминантный анализы, можно разбивать и «на глазок», но этот метод пригодентолько, для опытных и много знающих маркетологов. Мы рассмотрим толькокластерный анализ.
2.Сущность кластерного анализа
Кластерныйанализ представляет собой класс методов, используемых для классификации объектовили событий в относительно однородные группы, которые называют кластерами (clusters).Объекты в каждом кластере должны быть похожи между собой и отличаться отобъектов в других кластерах. На рис. 20.1 показана идеальная ситуациякластеризации, когда кластеры четко отделены друг от друга на основанииразличий двух переменных: ориентация на качество (переменная 1), ичувствительность к цене (переменная 2),
/>
Переменная2
Рис.20,1. Идеальная ситуация
кластеризации
Следуетотметить, что каждый потребитель попадает в один из кластеров, и перекрывающихсяобластей нет. С другой стороны, на рис. 20.2 представлена ситуациякластеризации, которая чаще всего встречается на практике
/>
Переменная2
Рис.20.2. Реальная ситуация кластеризации
Нарис. 20.2 границы некоторых кластеров очерчены нечетко, и отнесение некоторыхпотребителей к конкретному кластеру не очевидно, поскольку многие из них нельзясгруппировать в тот или иной кластер. кластерном анализе нет необходимости впредварительной информации о кластерной принадлежности любого из объектов.Группы, или кластеры, определяют с помощью собранных данных, а не заранее. Кластерныйанализ используют в маркетинге для различных целей.
3. Выполнение кластерного анализа
Этапывыполнения кластерного анализa:
1. Формулировкапроблемы
2. Выбормеры расстояния
3. Выборметода кластеризации
4. Принятиерешения о качестве кластеров
5. Интерпритацияи профелирование кластеров
6. Оценкадостоверности кластеров
3.1ФормулировкапроблемыВозможно,самая важная часть формулирования проблемы кластеризации — это выборпеременных, на основе которых проводят кластеризацию. Включение даже одной илидвух посторонних (не имеющих отношение к группированию) переменных можетисказить результаты кластеризации. Задача состоит в том, чтобы выбранный наборпеременных смог описать сходство между объектами с точки зрения признаков, имеющихотношение к данной проблеме маркетингового исследования. Переменные следуетвыбирать, исходя из опыта прошлых исследований, теории или тестируемойгипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы.
3.2 Выбор способа измерения расстояния или меры сходстваЦелькластеризация — группирование схожих объектов. Поэтому для того чтобы оценить,насколько они похожи или непохожи, необходимо использовать некую единицуизмерения. Наиболее распространенный метод заключается в том, чтобы в качестветакой меры использовать расстояния между двумя объектами. Объекты с меньшимирасстояниями между собой больше похожи, чем объекты с большими расстояниями.Существует несколько способов вычисления расстояния между двумя объектами.
Наиболеечасто используемая мера сходства— евклидово расстояние или его квадрат.Евклидова метрика это квадратный корень из суммы квадратов разностей взначениях для каждой переменной
Существуюти другие способы измерения расстояния. Расстояние городских кварталов) (city-block,или манхэттенское расстояние (Manhattan distance) между двумя объектами— это сумма абсолютных разностей в значениях для каждой переменной. РасстояниеЧебышева (Chebychev distance) между двумя объектами — это максимальная абсолютнаяразность в значениях для любой переменной. Если переменные измерены в различныхединицах, то единица измерения влияет на решение кластеризации. В этих случаяхперед кластеризацией респондентов мы должны нормализовать данные, изменив шкалуизмерения каждой переменной таким образом, чтобы среднее равнялось нулю, а стандартноеотклонение — единице. Хотя нормализация может исключить влияние единицы измерения,она также уменьшает различия между группами по переменным, которые наилучшимобразом дискриминируют (отличают) группы или кластеры. Кроме того, желательноудалить выбросы (т.е. случаи с нетипичными значениями). Использование различныхспособов измерения расстояния ведет к разным результатам кластеризации.Следовательно, целесообразно использовать различные меры сходства и затем сравнитьрезультаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.
3.3 Выбор методакластеризацииМетодыкластеризации могут быть иерархическими и неиерархическими. Иерархическаякластеризация (hierarchical clustering) характеризуется построениемиерархической, или древовидной, структуры.
Иерархическиеметоды могут быть агломеративными (объединительными) и дивизивными.Агломеративная кластеризация (agglomerative clustering) начинается с каждогообъекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый разво все более и болеекрупные кластеры. Этот процесс продолжают до тех пор, покавсе объекты не станут членами одного единственного кластера.
Разделяющая,или дивизивная, кластеризация (divisive clustering) начинается со всехобъектов, сгруппированных в единственном кластере. Кластеры делят (расщепляют)до тех пор, пока каждый объект не окажется в отдельном кластере.
Обычнов маркетинговых исследованиях используют агломеративные методы, например методысвязи, дисперсионные и центроидные методы. Методы связи (linkage methods)включают метод одиночной связи, метод полной связи и метод средней связи.
Воснове метода одиночной связи (single method) лежит минимальное расстояние,или правило ближайшего соседа. При формировании кластера первыми объединяют дваобъекта, расстояние между которыми минимально. Далее определяют следующее повеличине самое короткое расстояние, и в кластер с первыми двумя объектамивводят третий объект. На каждой стадии расстояние между двумя кластерамипредставляет собой расстояние между их ближайшими точками.
Методполной связи (complete linkage) аналогичен методуодиночной связи, за исключением того, что в его основе лежит максимальноерасстояние между объектами, или правило дальнего соседа. В методе полной связирасстояние между двумя кластерами вычисляют как расстояние между двумя ихсамыми удаленными точками.
Методсредней связи (average linkage) действует аналогично. Однако в этомметоде расстояние между двумя кластерами определяют как среднее значение всехрасстояний, измеренных между объектами двух кластеров, при этом в каждую парувходят объекты из разных кластеров.
Широкоизвестным дисперсионным методом, используемым для этой цели, является МетодВарда (Ward'sprocedure)Дисперсионныйметод, в котором кластеры формируют таким образом, чтобы минимизироватьквадраты евклидовых расстояний до кластерных средних. Для каждого кластеравычисляют средние всех переменных. Затем для каждого объекта вычисляют квадратыевклидовых расстояний до кластерных средних. Эти квадраты расстояний суммируютдля всех объектов. На каждой стадии объединяют два кластера с наименьшимприростом в полной внутрикластерной дисперсии.
Вцентроидных методах (centroid method) расстояние между двумя кластерамипредставляет собой расстояние между их центроидами (средними для всехпеременных). Центроидный метод (centroid method) Дисперсионный методиерархической кластеризации, в котором расстояние между двумя кластерамипредставляет собой расстояние между их центроидами (средними для всехпеременных). Каждый раз объекты группируют и вычисляют новый центроид. Изо всехиерархических методов методы средней связи и Варда показывают наилучшиерезультаты по сравнению с другими методами.
Кдругому типу процедур кластеризации относятся неиерахические методыкластеризации (nonhierarchical clustering), часто называемые методом k-средних.Эти методы включают последовательный пороговый метод, параллельный пороговыйметод и оптимизирующее распределение. В последовательном пороговом методе(sequential threshold method) выбирают центр кластера и все объекты,находящиеся в пределах заданного от центра порогового значения, группируютвместе. Затем выбирают новый кластерный центр, и процесс повторяют длянесгруппированных точек. После того как объект помещен в кластер с этим новымцентром, его уже не рассматривают как объект для дальнейшей кластеризации.
Аналогичноработает параллельный пороговый метод (parallel threshold method), заисключением того, что одновременно выбирают несколько кластерных центров иобъекты в пределах порогового уровня группируют с ближайшим центром.
Методоптимизирующего распределения (optimizing partitioning method) отличается отдвух изложенных выше пороговых методов тем, что объекты можно впоследствиипоставить в соответствие другим кластерам (перераспределить), чтобыоптимизировать суммарный критерий, такой как среднее внутри кластерноерасстояние для данного числа кластеров. Два главных недостатка неиерархическихметодов состоят в том, что число кластеров определяется заранее и выборкластерных центров происходит независимо. Более того, результаты кластеризациимогут зависеть от выбранных центров. Многие неиерархические процедуры выбираютпервые k случаев (k — число кластеров), не пропуская никакихзначений в качестве начальных кластерных центров. Таким образом, результатыкластеризации зависят от порядка наблюдений в данных. Неиерархическаякластеризация быстрее иерархических методов, и ее выгодно использовать прибольшом числе объектов или наблюдений, Высказано предположение о возможностииспользования иерархических и неиерархических методов в тандеме. Во-первых,первоначальное решение по кластеризации получают, используя такие иерархическиеметоды, как метод средней связи или метод Варда. Полученное этими методамичисло кластеров и кластерных центроидов используют в качестве исходных данных вметоде оптимизирующего распределения. Выбор метода кластеризации и выбор мерырасстояния взаимосвязаны. Например, квадраты евклидовых расстояний используютнаряду с методом Варда и центроидным методом. Некоторые из неиерархическихметодов также используют квадраты евклидовых расстояний.
3.4 Принятие решения о количестве кластеров
Главныйвопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердыхправил, позволяющих быстро принять решение, но можно руководствоватьсяследующим.
1.При определении количества кластеров руководствуются теоретическими ипрактическими соображениями. Например, если цель кластеризации — выявлениесегментов рынка, то менеджмент может захотеть получить конкретное числокластеров.
2.В иерархической кластеризации в качестве критерия можно использоватьрасстояния, при которых объединяют кластеры/
3.В неиерархической кластеризации чертят график зависимости отношения суммарнойвнутригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, вкоторой наблюдается изгиб или резкий поворот, указывает на приемлемоеколичество кластеров. Увеличение числа кластеров за эту точку обычнобезрезультативно.
4.Относительные размеры кластеров должны быть достаточно выразительными.
3.5 Интерпретация ипрофилирование кластеров
Интерпретацияи профилирование кластеров включает проверку кластерных центроидов. Центроидыпредставляют средние значения объектов, содержащиеся в кластере по каждой изпеременных. Они позволяют описывать каждый кластер, если присвоить ему номерили метку. Если компьютерная программа кластеризации не выдаст такую информацию,ее можно получить через дискриминантный анализ.
Частоимеет смысл профилировать кластеры через переменные, которые не явилисьоснованием для кластеризации. Эти переменные могут включать демографические,психографические характеристики, использование продукта или другие переменные.Например, кластеры можно вывести, исходя из искомых преимуществ. Дальнейшеепрофилирование осуществляют через демографические или психографическиепеременные, чтобы определить маркетинговую стратегию для каждого кластера. Переменные,существенно различающиеся между кластерами, можно идентифицироватьдискриминантным анализом и однофакторным дисперсионным анализом.
3.6 Оценка надежности идостоверности
Имеянесколько умозаключений, выведенных из кластерного анализа, не следуетпринимать никакого решения по кластеризации, не выполнив оценку надежности идостоверности этого решения. Формальные процедуры оценки надежности идостоверности решений кластеризации достаточно сложны и не всегда оправданыпоэтому мы их опустим. Однако следующие процедуры обеспечат адекватную проверкукачества кластерного анализа.
1.Выполняйте кластерный анализ на основании одних и тех же данных, но сиспользованием различных способов измерения расстояния. Сравните результаты,полученные на основе разных мер расстояния, чтобы определить, насколькосовпадают полученные результаты.
2.Используйте разные методы кластерного анализа и сравните полученные результаты.
3.Разбейте данные на две равные части случайным образом. Выполните кластерныйанализ отдельно для каждой половины. Сравните кластерные центроиды двухподвыборок.
4.Случайным образом удалите некоторые переменные. Выполните кластерный анализ посокращенному набору переменных. Сравните результаты с полученными на основеполного набора переменных.
5.В неиерархической кластеризации решение может зависеть от порядка случаев внаборе данных. Выполните анализ несколько раз, меняя порядок случаев, дополучения стабильного решения.
Вывод
Кластерныйанализ является очень удобным средством для выделения сегментов рынка. Вособенности в наш век высоких технологий, когда на помощь человеку приходятмашины, и столь трудоемкий процесс становиться буквально секундным делом.
Образованиесегментов зависит от имеющихся данных, а не определяется заранее.
Переменные,которые являются основанием для кластеризации, следует выбирать, исходя изопыта предшествующих исследований, теоретических предпосылок, проверяемыхгипотез, а также по усмотрению исследователя. Кроме того, следует выбратьсоответствующую меру расстояния (сходства). Особенность иерархическойкластеризации — разработка иерархической или древовидной структуры.Иерархические методы кластеризации могут быть агломеративными или дивизивными.Агломеративные методы включают: метод одиночной связи, метод полной связи иметод средней связи. Широко распространенным дисперсионным методом являетсяметод Барда. Неиерархические методы кластеризации часто называют методамиk-средних. Эти методы включают последовательный пороговый метод, параллельныйпороговый метод и оптимизирующее распределение. Иерархические и неиерархическиеметоды можно применять совместно. Выбор метода кластеризации и выбор мерырасстояния взаимосвязаны.
Решениео числе кластеров принимают по теоретическим и практическим соображениям. Виерархической кластеризации важным критерием принятия решения о числе кластеровявляются расстояния, при которых происходит объединение кластеров.Относительные размеры кластеров должны быть такими, чтобы имело смысл сохранитьданный кластер, а не объединить его с другими. Кластеры интерпретируют с точкизрения кластерных центроидов. Часто интерпретировать кластеры помогает ихпрофилирование через переменные, которые не лежали в основе кластеризации.Надежность и достоверность решений кластеризации оценивают разными способами.