Реферат: Восходящая стратегия анализа данных


ВОСХОДЯЩАЯ СТРАТЕГИЯ АНАЛИЗА ДАННЫХ


С ЧЕГО НАЧИНАЕТСЯ АНАЛИЗ?


Восходящая стратегия анализа и нисходящая стратегия ана­лиза. Различие понятий «анализ данных» и «логика анализа» (ло­гическая схема анализа). Первичный анализ как составная часть любой стратегии. Признак. Анализ «поведения» отдельно взятого признака. Вариационный ряд. Одномерное распределение. Показа­тели распределения. Абсолютная, относительная и накопленная частоты. Деление на интервалы. Цели первичного анализа дан­ных. «Язык» анализа распределений.

Следует напомнить, что в качестве третьего структурного эле­мента области эмпирической социологии, обозначенной нами как методология анализа данных, выделена:

восходящая стратегия анализа (проверки описательных гипотез; поиск эмпирических закономерностей, начиная с простых и заканчивая сложными для формирования новых гипотез).

Следует особо остановиться на использовании пары понятий: восходящая стратегия анализа  нисходящая стратегии анализа. Что касается просто пары понятий «восходящая стратегия  нис­ходящая стратегия», то она используется в эмпирической социо­логии в разных контекстах. Например, для обозначения выбороч­ной стратегии в исследовании. Если сбор информации осуществляется по так называемому методу «снежного кома», то это пример восходящей выборочной стратегии. Такая стратегия используется обычно для изучения латентных социальных групп (наркоманов, скрытых алкоголиков и т. д.). С нисходящей выбо­рочной стратегией мы сталкиваемся при формировании выборки, исходя из структуры генеральной совокупности. Это является ти­пичным для изучения общественного мнения. Разумеется, в рам­ках одного и того же исследования одновременно могут использоваться как нисходящая, так и восходящая стратегии формирова­ния выборки.

Такую пару терминов можно использовать и для характеристи­ки логики исследовательского процесса в целом, а именно для обо­значения двух подходов к изучению социальной реальности. Мы их обозначили как статистическую и гуманитарную традиции (подхо­ды, парадигмы) в эмпирической социологии. Известно, что латент­ные социальные группы, в отличие от других, целесообразнее изу­чать по восходящей стратегии [6], т. е. не только стратегия формирования выборки носит восходящий характер, но и все ис­следование в целом построено по восходящей стратегии изучения таких групп.

Эта пара терминов применяется и в достаточно узком смысле в так называемых методах многомерной классификации для обозна­чения процедуры деления эмпирических объектов на группы. О по­нятии «классификация» пойдет речь в последней части книги. Это пока ремарка для «всезнаек». Пара «восходящая стратегия анализа данных  нисходящая стратегия анализа данных» составляет основу для формирования в социологическом исследовании логики анализа данных, логической схемы анализа. Социолог выбирает стратегию анализа данных исходя из специфики своего исследования (цели, зада­чи, гипотезы). Рассмотрим несколько исследовательских ситуаций.

Первая ситуация

Предположим, у социолога нет четко обозначенных гипотез ни описательного, ни объяснительного характера. Разумеется, в рас­плывчатой форме они всегда существуют. Ведь социолог, желая «взглянуть» на социальную реальность через призму какого-то под­хода, отвечает на вопросы «Что изучать?» и «Зачем и для дости­жения каких целей изучать?». Отсутствие четкости в гипотезах тре­бует определенной стратегии при работе с эмпирическим материалом. Сначала социолог в «мешке» с информацией наводит «космети­ческий» порядок  ищет простые эмпирические закономерности. Их можно назвать и регулярностями. Прежде всего он выделяет сами эмпирические индикаторы, если их нет. С этой ситуацией мы стал­киваемся при работе с текстовой информацией. Мы с вами выделя­ли элементарные обоснования и элементы в контексте применения метода неоконченных предложений. Первые из них и являлись эм­пирическими индикаторами.

При работе с биографиями людей, с текстами полуформализо­ванных и свободных интервью естественным образом появляется необходимость в анализе, условно говоря, «поведения» отдельно взятого эмпирического индикатора. Затем возникает потребность в анализе совместного «поведения» двух эмпирических индикато­ров, в анализе их взаимосвязей. Таким образом, логика анализа эмпирии строится по восходящей (от частного к общему) стратегии. Начальный этап такой стратегии  первичный анализ / первичная обработка данных.

Социолог, исходя из восходящей стратегии, последовательно ищет ответы на вопросы, такие как: не объединяются ли эмпирические индикаторы в какие-то группы, а объекты  в классы. К примеру, похожие в определенном смысле объекты представляют собой некий класс, а взаимосвязанные между собой эмпирические индикаторы могут образовать некую группу. Вполне возможно, что объекты, отнесенные к одному и тому же формальному классу, являются однотипными. А группа эмпирических индикаторов может интерпретироваться как некий специфический социальный фактор. О содержании понятий «тип» и «фактор» пойдет речь в последней главе. Главная задача в таких исследовательских сюжетах  проблема интерпретации разного рода эмпирических закономерностей, ибо они выражают какие-то тенденции, синдромы.


Вторая ситуация

У социолога могут быть четко обозначены гипотезы исследования. В этом случае логика анализа может строиться как в рамках восходящей, так и нисходящей стратегий. Выбор стратегии зависит от характера гипотез и от того, какими априорными знаниями (знания, имевшиеся до проведения исследования) располагает исследователь. Допустим, что источником эмпирической информации является индивид; техника сбора данных жестко структурирована; в исследовании проверяются только описательные гипотезы. Тогда также необходимы восходящие, от частного к общему, стратегии анализа. Вспомним из предыдущего материала, что в процессе прямого ранжирования для принятия решения о присвоении рангов нам непременно требовалось изучить степень единодушия респондентов в оценке объектов ранжирования. Для этих целей в процессе анализа опять же требуется движение по восходящей стратегии.

Пусть гипотеза звучит следующим образом: политические пристрастия населения в основном определяются возрастом и происхождением. Для проверки этой гипотезы социолог определяет всевозможные связи этих «пристрастий» с огромной совокупностью различных эмпирических индикаторов. Если из всех связей оказываются самыми сильными связь с возрастом и с происхождением, то считается, что гипотеза подтвердилась. К примеру, сформулируем другую гипотезу: в России существуют типы электорального поведения областей, интерпретируемые как объекты социального управления. В том смысле, что механизм воздействия на отдельные области одинаков, если они отнесены к одному и тому же типу. Для проверки такой сложной гипотезы необходимую основу для логики

анализа составляет нисходящая стратегия анализа (от общего к частному). Такой пример будет приведен в последней главе.

Ясно одно: проверка такого рода гипотез предполагает «продумывание» всей логики анализа априори (до сбора эмпирической информации). Это очень не просто. Вместе с тем такое «продумывание» нужно и важно даже в описательных исследованиях. А в серьезных аналитических исследованиях для проверки сложных гипотез тем более. Вспомним, что мы с вами рассматривали несложные модели изучения отдельных свойств социальных объектов для перехода с теоретического уровня на эмпирический. При этом совершенно не затрагивали вопросы обратного перехода, для которого крайне важно понятие логической схемы анализа.

Если вернуться к модели изучения свойства социального объекта, то в контексте наших рассуждений, логика анализа позволяет уточнить не только саму такую модель, но и предполагает продумывание заранее логики получения эмпирических закономерностей и, соответственно, переход от них к теоретическим обобщениям. Разумеется, речь идет уже о сложных эмпиричесих закономерностях, получаемых на основе всей системы изучаемых в исследовании свойств. В зависимости от логической схемы анализа социолог определяет и то. Какого рода эмпирический материал ему нужен, и то, какие приемы «обработки» информации необходимы, и то, в какой последовательности будет строиться логика изучения и объяснения того или иного социального феномена. В таких исследовательских сюжетах главным является концептуальная схема, теория «видения» социальной реальности, так как идет поиск ответа на вопрос «Почему это?». Для такого случая необходима нисходящая (от общего к частному) стратегия анализа. Поиск ответа на вопрос «Почему это?», проверка объяснительных гипотез социологического исследования возможны только в рамках нисходящей стратегии анализа. Все, что с этим связано, будет обсуждаться в последней части книги.

В отдельно взятом социологическом исследовании возможно сочетание восходящей и нисходящей стратегий анализа. Та и другая стратегии могут быть реализованы на практике с помощью одних и тех же методов, приемов, способов «обработки» информации. Например, к таковым относятся так называемые методы математической статистики (это такая область математической науки, которая в определенной мере как бы обслуживает науки, работающие с эмпирическим материалом) и методы многомерного анализа. Сюда включаются и такие методы, применение которых теоретически может быть необоснованно. В том смысле, что закономерности, полученные для выборки, нельзя распространить (перенести) на всю генеральную совокупность. Однако эти методы «хорошо» работают на практике и их принято называть эвристическими в отличие от статистических. К различию понятий «статис­тика» и «эвристика» мы еще вернемся. Вся совокупность техни­ческих приемов (по сути, это использование математического фор­мализма или математических методов в социологии) называется методами анализа данных.

К этому разделу мы подошли с пониманием того, что социо­логу, изучающему различные социальные феномены, приходит­ся строить модели изучения их свойств, пользоваться различны­ми типами информации, применять совокупность приемов измерения латентных, непосредственно не наблюдаемых призна­ков, выбирать стратегию анализа. Это и есть начало начал ана­лиза данных.

Наблюдаемые признаки мы называли эмпирическими инди­каторами. В предыдущих разделах они были нашими главными понятиями. Здесь и далее таковыми будут признаки. Признаком может быть и отдельно взятый эмпирический индикатор, и произ­водный от них показатель. Например, признаком будем называть любые показатели, индексы, коэффициенты, возникающие в рам­ках работы с данными типа «государственная статистика», «бюд­жет времени». Признак, как и любой эмпирический индикатор, имеет для нас те же три уровня измерения: номинальный, порядковый, «метрический». Как минимум, мы должны научиться изу­чать «поведение» всех трех типов признаков, измеренных по трем типам шкал.

Представляется важным еще раз повторить следующее. Несмотря на многообразие шкал (в данном случае как линеек для измерения чего-то) в социологии, мы рассматриваем только три типа шкал и к «метрическим» относим все шкалы, уровень измерения по которым выше порядкового, т.е. то, что очень похоже на числа, на «количе­ства».

С чего же начинается анализ «поведения» отдельно взятого при­знака тогда, когда информация «лежит» на столе социолога? Такой анализ необходим практически всегда независимо от исследователь­ских задач, типов информации, выбора стратегии анализа. Речь идет как бы о «социальной бухгалтерии», азы которой вы должны осво­ить. Практически в любой книге, в название которой входят слова «...статистические методы в...», вы найдете определенный матери­ал по освоению этих азов [2, 3, 7, 8, 9, 11].

Несмотря на то что ниже рассматривается пример, имеющий отношение к данным анкетирования, все выводы относятся к ана­лизу любых вариационных и динамических рядов. К сожалению, объем книги не позволяет привести другие примеры. На протяже­нии всей этой главы в основном будем приводить фрагменты из некоторого исследования на тему «Структура времяпрепровожде­ния студентов: сравнительный анализ вузов», придуманного (модельного) нами в качестве примера. Сбор данных осуществлялся в нем как по использованию бюджета времени, так и по вопроснику «сложной структуры»; генеральная совокупность - студенты вузов России. Нас в этом исследовании будут интересовать только сту­денты-гуманитарии, т. е. некоторая подвыборка.

Рассмотрим всего три признака из этого исследования: буду­щую профессию студента-гуманитария, его удовлетворенность уче­бой и продолжительность времени на учебу. Относительно третье­го признака нужно подчеркнуть следующее. Продолжительность в данном случае представляет собой сумму затрат времени на про­слушивание лекций, на участие в семинарских занятиях, на до­полнительные самостоятельные занятия, а также на перерывы между аудиторными занятиями. В качестве примера будем рассматривать среднесуточную, например за неделю, продолжитель­ность. «Продолжительность» имеет метрический уровень измере­ния. «Будущая профессия» как признак имеет номинальный уровень измерения. «Удовлетворенность учебой» может быть измерена посредством логического квадрата по пятибалльной по­рядковой шкале. Тогда она понимается только как удовлетворен­ность учебой в «родном» вузе (вернитесь к тому разделу, где обсуждается логический квадрат). Вместо этих признаков можно было бы выбрать и любые другие.

Что означает анализ «поведения» профессии на совокупности объектов? Это означает, что мы должны обработать эмпиричес­кие данные, чтобы получить распределение изучаемых объектов (в нашем случае студентов-гуманитариев) по профессиональным груп­пам и по характеру этого распределения судить о профессиональ­ной структуре опрошенных студентов. Для простоты изложения буду приводить цифры модельного характера, т. е. в реальном исследовании они не были получены. Предположим, что нас интересует восемь профессий, все они закодированы цифрами от 1 до 8, а число студентов-гуманитариев среди всех опрошенных равно 1000. Таким образом, исходно мы имеем матрицу данных типа «объект  признак». Из нее выделяем для анализа столбец матрицы в соответствии с анализируемым признаком. Подсчиты­ваем в этом ряду число респондентов, которые в недалеком буду­щем будут иметь ту или иную профессию. Тем самым получаем частоту встречаемости в выборке студента той или иной будущей профессии.

Распределение опрошенных по профессиям представлено в таб­лице 3.1.1. Это результаты самого первого этапа систематизации эмпирических данных. Распределение может быть представлено и описано на «языке» четырех показателей. Первый ¾ абсолютная частота, т. е. число студентов с определенной «будущей» профес­сией. Среди опрошенных студентов оказалось 100 будущих политологов (профессия I), 200 социологов (профессия 2), 300 культуро­логов (профессий 3), 100 филологов (профессия 4), 50 психологов, (профессия 7) и 250 историков (профессия 8). Студенты с будущи­ми профессиями, обозначенными как 5 и 6, в выборку не попали. В этом нет ничего удивительного, если при формировании выборочной совокупности не учитывалась будущая профессия студента. Эти шесть обозначенных и встречающихся в выборке профессий, будем использовать в процессе дальнейшего анализа.

Таблица 3. 1. I
^ Распределение студентов по их будущей профессии




Второй показатель в таблице ¾ относительная частота в до­лях, или частость, т. е. это доля респондентов определенной про­фессии среди всех опрошенных студентов-гуманитариев. Очень ча­сто в социологических исследованиях наряду или вместо числа опрошенных используется число ответивших. Для нашего приме­ра не имеет значения, по отношению к какому «числу» считается доля, ибо число ответивших совпадает с числом опрошенных. В массовых опросах различение этих величин носит принципиаль­ный характер, так как число неответивших бывает достаточно большим. Сама же проблема неответивших является серьезной проблемой в массовых опросах. Мы касались этой проблемы при обсуждении так называемой (нами) проблемы социологического нуля. Относительная частота в долях ¾ это важный показатель для последующих этапов работы с данными.

^ Доля интерпретируется как оценка вероятности обладать опре­деленной профессией. Последняя фраза только для тех, кто случайно прослушал курс по теории вероятности.

Третий показатель ¾ относительная частота в процентах — определяет, какой процент респондентов будет иметь ту или иную профессию. Это самый любимый показатель социолога, и вы в этом могли убедиться, если уже успели принять участие в каком-нибудь социологическом исследовании. Процент и частость ¾ составные элементы языка анализа социолога.

И наконец, четвертый показатель ¾ накопленная частота в процентах. С такой частотой мы сталкивались при построении шкалы Терстоуна. Для номинального уровня измерения она почти никогда не имеет смысла. Чисто технически ее можно подсчитать для нашей таблицы. Это и будет маленьким примером неадекват­ности математики. Прямо говоря ¾ чушь. Отсюда и вывод, что, живя в век потрясающих компьютеров, слепо нажимать на кноп­ки для запуска «модерновых» математических методов недопус­тимо. Компьютер может подсчитать все, только есть ли в этом смысл. Вот в чем вопрос.

Накопленная частота имеет «прозрачный» содержательный смысл только для шкал начиная с порядковых. Рассмотрим рас­пределение студентов по степени их удовлетворенности учебой, полученной с помощью применения логического квадрата. В таб­лице 3.1.2 представлено распределение респондентов по степени «удовлетворенности» по тем же четырем показателям (и в этом случае цифры не реальные, а модельные). Все показатели имеют смысл. Число опрошенных так же, как и в случае первого призна­ка, совпадает с числом ответивших. Степени удовлетворенности обозначены цифрами от 1 до 5. При этом 1 соответствует мини­мальному уровню удовлетворенности, а 5 ¾ максимальному.
^ Таблица 3.1.2 Распределение студентов по степени удовлетворенностью учебой


Напомним, какой смысл имеет накопленная частота. Напри­мер, в таблице 3.1.2 частота, равная 70%, означает, что число студентов с уровнем удовлетворенности меньше четырех составля­ет 70% от числа опрошенных, а меньше трех ¾ 50%. Перейдем к случаю метрической шкалы. Для табличного представления распределения «продолжительности» необходимо разбить диапазон ее изменения на отдельные интервалы. Важно отметить, что рас­пределение не всегда имеет смысл представлять в табличной фор­ме, так как деление на интервалы не всегда имеет смысл, напри­мер, для динамических рядов или для продолжительности затрат времени в исследованиях бюджета времени. Это происходит пото­му, что можно сразу переходить к изучению характеристик, опи­сывающих характер распределения. Необходимо иметь также в виду, что признак может носить дискретный характер (встречают­ся только целые числа) или непрерывный характер (встречаются числа, имеющие целую часть и дробную). С непрерывностью встре­чаемся в основном при работе с аналитическими индексами на этапе анализа эмпирий.

Наш третий признак ¾ продолжительность затрат времени на учебу ¾ может носить дискретный характер, если выражен в мину­тах, и непрерывный характер ¾ если выражен в часах. Остановим­ся на последнем случае. Для каждого студента этот производный показатель равен его среднесуточным (в часах) затратам времени на учебу. Введем интервалы и подсчитаем число студентов, вне­сенных в каждый интервал. В социологии в отличие от многих других наук, работающих с эмпирией, разбиение на интервалы не может носить формального характера. Такое разбиение всегда происходит в зависимости от исследовательских задач, а точнее, от того, как и для чего будет использоваться признак в процессе дальнейшего анализа. Поэтому социолог пользуется при этом понятиями «группировка данных», «типологическая группировка данных».

При выделении интервалов изменения продолжительности зат­рат времени на учебу исходим из значений максимальной и ми­нимальной продолжительности, встретившихся в нашей выборке. Разница между этими величинами называется вариационным раз­махом. Без знания минимальной продолжительности нельзя опре­делить нижнюю границу первого интервала, а без знания макси­мальной ¾ верхнюю границу последнего интервала. Допустим, в нашем случае максимум (max) равен 9-ти часам, а минимум (min) ¾ 0 часам. Последний факт можно объяснить тем, что в выборку попали студенты, которые были больны: никаких занятий, входя­щих в «продолжительность учебы», в недельном бюджете време­ни у них не было. Чтобы сей факт не вызвал недоумения, заме­тим, что сбор информации о бюджете времени студента происходит за неделю, предшествующую опросу.

Тогда наши интервалы (всего их шесть) могут выглядеть следу­ющим образом:

1. 0—1 часов;

2. 1—2,5 часов;

3. 2,5—4 часов;

4. 4—7 часов;

5. 7—8 часов;

6. 8—9 часов.

Нетрудно догадаться, из чего мы исходили при выборе имен­но таких интервалов. К примеру, в последний интервал попадут студенты ¾ «трудяги», в первый ¾ те, кто по какой-то причине был «выключен» из учебного процесса, а в четвертый ¾ модаль­ная (самая распространенная) группа студентов. Кстати, это не факт, а гипотеза, и, соответственно, она может не подтвердиться в реальном исследовании. Для наглядности на рис 3.1.1 изображе­ны эти интервалы в виде делений на линейке.




Рис 3.1.1
При отнесении респондента к конкретному интервалу по продолжительности учебы возникает такой вопрос. Куда входят ниж­няя и верхняя границы интервала? Другими словами, к какому интервалу отнести, например, студента, у которого продолжитель­ность учебы равна четырем часам. Ведь его можно отнести и к первому, и ко второму интервалу. Эта проблема решается просто. Например, социолог принимает решение, что все верхние грани­цы интервалов относятся к интервалу. Тогда студент, у которого продолжительность учебы равна 4-м часам, будет отнесен к третьему интервалу. Студент, у которого продолжительность учебы равна 8-ми часам, ¾ к пятому и т. д.

Эти же интервалы могут быть заданы и в другой форме:

1. 0—1 часов;

2. 1,1—2,5 часов;

3. 2,6—4 часов;

4. 4,1—7 часов;

5. 7,1—8 часов;

6. 8,1—9 часов.

В этом случае при вычислениях возникает другая проблема, если продолжительность учебы некоторого студента, например, равна 1,09 часов. Опять же принятие решения в руках социолога. Он может отнести к интервалу не только верхнюю границу, но и то, что ниже нижней границы следующего интервала, т.е. рес­пондент, у которого продолжительность учебы равна 1,09 часам будет отнесен к первому интервалу.

Используя первые введенные интервалы, подсчитаем по ним распределение респондентов (таблица 3.1.3.)

Обратите внимание, что каждая из приведенных таблиц имеет заголовок, итоговый столбец. Эти таблицы  пример оформления как бы первичных результатов социологического исследования. Разумеется, за исключением того, что реальные таблицы содержат только один показатель из четырех приведенных. Такого рода таблицы служат и для представления результатов исследования. Эта ситуация типична для исследований общественного мнения.

Социолог называет распределение признака «линейкой», про­стым распределением, линейным распределением, частотным рас­пределением, простой группировкой, потому что речь в самом деле идет о самых простых, одномерных распределениях в отличие от ус­ловных и многомерных. Последние получаются тогда, когда одно­временно строится распределение по нескольким признакам. К слу­чаю двумерных распределений перейдем чуть позже.
Таблица 3.1.3 ^ Распределение студентов по продолжительности учебы




Одномерное распределение может быть получено как для всей выборочной совокупности, так и для отдельной подвыборки. В нашем случае подвыборкой являются студенты-гуманитарии, вы­деленные из всей совокупности опрошенных студентов. Тогда точ­нее называть распределения, полученные нами по трем призна­кам, условными. Такого рода условные распределения позволяют уже на этом первом этапе работы с эмпирическими данными решать задачи сравнительного анализа. Например, можно сравни­вать структуру удовлетворенностью учебой студентов-гуманитари­ев и студентов-естественников, структуру продолжительности уче­бы для социологов и историков и т. д. В любом случае мы сравниваем структуру распределений для различных групп обследованных / опрошенных.

Кроме такого сравнительного анализа, одномерные распреде­ления необходимы социологу ради достижения следующих целей. Во-первых, для проверки качества выборки, если речь идет о массо­вых опросах. Даже тогда, когда выборка «хорошо» планируется, в реальных данных могут возникнуть перекосы. Признаки, по кото­рым формируется выборка, включаются в инструментарии, и по их распределениям осуществляется соответствующий контроль. Это только один аспект. Другой связан с тем, что число признаков, по которым планируется выборка, не может быть большим. В этой связи ряд признаков, интересующих социолога с точки зрения реп­резентативности выборки, выпадают из рассмотрения при ее фор­мировании. Тогда социолог может проверить репрезентативность по этим признакам на основе анализа их распределений.

Во-вторых, по одномерным распределениям определяется дифференцирующая сила признаков. Возвращаясь к таблице 3.1.1, видим, что две профессии не встречаются в наших данных. Соот­ветственно, они исключаются из дальнейшего анализа. Некоторая группа (по уровню удовлетворенности, профессиональная) рес­пондентов может быть по численности небольшой (что есть «мно­го» и «мало», определяет социолог, исходя их своих исследова­тельских задач). Небольшая группа исключает возможность сравнения ее с другими, большими группами. В этом случае, опираясь на простые распределения, принимается решение и об. объединении отдельных групп. Тем самым могут уточняться зада­чи и гипотезы исследования.

В-третьих, по простым распределениям определяем характер этого распределения и устанавливаем эмпирические закономернос­ти «поведения» признака в отношении изучаемых объектов (в на­шем случае студенты-гуманитарии). Термин «поведение» будем употреблять исключительно для наглядности и образности. На наш взгляд, он полезнее, чем математические термины.

Прежде всего по распределениям выделяются модальные (часто встречающиеся) и антимодальные (редко встречающиеся) тенден­ции. Не только первые, но и вторые могут быть социально значимы­ми. «Мало» для социолога имеет два значения. Первое ¾ выборка была мала по объему, и представители какой-то группы в нее не попали случайно. Второе ¾ «редкая» группа, но социально значи­мая. Например, случай латентных социальных групп. Из этого вы­вод ¾ нельзя выкидывать из анализа феномен «антимодальности» без достаточного обоснования.

И наконец, представляется важным следующее. Одномерное распределение можно анализировать на разных «языках». Первый основной ¾ язык математической статистики, статистического ана­лиза. Огромное количество литературы описывает именно этот ас­пект. Основной постулат статистического подхода: одномерное распределение ¾ результат только одного наблюдения генеральной со­вокупности и, соответственно, подвержено влиянию случайных, неконтролируемых, факторов. Если выборка была «хорошей», то по ней можно с определенной точностью вычислить характеристи­ки генеральной совокупности. Отсюда и возникает понятие довери­тельного интервала, интервала, в котором находится истинное (для генеральной совокупности) значение такого рода характеристики. На языке статистического анализа возможные значения признака называют вариантами, а их совокупность и соответствующие им частоты ¾ вариационным рядом. Этими терминами социологи прак­тически не пользуются.

Второй «язык» опирается на информационный подход или по­нятия теории информации. Существует понятие единицы информа­ции. Таковой является бит (от английского binary digit ¾ двоичная цифра). Любой поток информации (числа, буквы, фразы) можно закодировать нулями и единицами. Число нулей и единиц, необхо­димых для оптимального (самого короткого) кодирования этого по­тока, называется количеством информации.

Представим теперь ситуацию, когда нам надо что-то узнать. Например, кто-то из вас загадал кого-то из присутствующих. Какое число вопросов надо мне задать ему, чтобы узнать, «кого» он зага­дал. При этом только вопросы с вариантами ответа «да» и «нет». Для этого я составлю список из всех, например, 32 присутствующих студентов. Затем поделю этот список на две части и спрошу, указы­вая на первую часть списка, «есть ли загаданный в этой части». Тем самым определю 16 студентов, среди которых есть и загаданный. Повторю процедуру деления на две части и получу список из 8-ми студентов, среди которых есть и загаданный. Продолжение такой процедуры деления приводит к результату. Мне надо было задать всего пять вопросов. Пять и есть количество информации. Это ко­личество можно было определить и по-другому. Каждому порядко­вому номеру студента поставлю в соответствие пятизначное двоич­ное число от 00000 до 11111 и спрошу, верно ли, что у задуманного студента первая, вторая, третья, четвертая и пятая цифры равны единице?

Количество информации, необходимое для отгадывания заду­манного студента, равно пяти или lоg232. В качестве упражне­ния подсчитайте количество информации в номере паспорта.

Одномерное распределение может интерпретироваться как не­кое сообщение, несущее в себе определенное количество информа­ции. Это количество можно оценить некоторой мерой, и значение ее будет разным для разных распределений. Такая мера называется также энтропией. Если кого-то из вас заинтересует эта проблемати­ка, то загляните в интересную книгу (10) венгерского математика, где есть раздел «Записки студента по теории информации».

Третий «язык» ¾ просто поиск регулярности, значимость ко­торых может описываться и без всякой математической статис­тики. Существуют «языки» анализа распределений, когда анали­зируются упорядоченности и соотношения между частотами, на­пример, для поиска социальных констант. Но эти проблемы уже для следующего этапа изучения методологии анализа инфор­мации. «Языков» анализа распределений может быть много, поэтому это еще одна причина, по которой мы пользуемся по­нятием «поведение» признака, а не термином статистический анализ.


^ Задание на семинар или для самостоятельного выполнения

Каждому студенту необходимо придумать данные для модель­ной задачи. По возможности используйте фрагмент из реального исследования. Цель задания ¾ подготовка к освоению приемов первичного анализа, т. е. изучение «поведения» отдельно взятых признаков, в том числе и эмпирических индикаторов. На этом же материале будем осваивать и анализ взаимосвязей между призна­ками.

Требования к задаче, а значит к эмпирическим данным, таковы:

1. Число объектов 45—50. В роли объектов могут выступать: респонденты, семьи, студенческие группы и т. д. Скорее всего, это будут респонденты, ибо объектов нужно около 50-ти. Предуп­реждение к «всезнайкам» ¾ на данном этапе все делается без компьютера. Рекомендуется сначала выполнить вручную все при­веденные в «Лекциях» задания и только потом воспользоваться компьютером.

2. Число признаков как минимум равно трем. Первый из них измерен по номинальной шкале с числом градаций, равным 6—9. Второй ¾ по порядковой шкале с числом градаций, равным 5—7. И наконец, третий признак измерен по метрической шкале (чис­ла, количества). При этом для упрощения вычислений в качестве значений признака рекомендуется использовать двузначные целые числа.

3. Для этих трех признаков должен иметь содержательный смысл анализ взаимосвязей между ними. Например, можно изу­чить «поведение» таких признаков, как «социальное происхож­дение студента», «его уверенность в трудоустройстве по специ­альности после окончания вуза» и «отношение к учебе». При этом первый из них имеет номинальный уровень измерения и представляет собой прямой вопрос анкеты о социальном происхождении. Второй может быть измерен посредством логического квадрата по пятибалльной порядковой шкале. Третий измерен по шкале Терстоуна и тем самым имеет метрический уровень измерения.

4. Для выбранных признаков должны быть правомерны, на­пример, такие вопросы: «3ависит ли уверенность в трудоустройстве от социального происхождения студента?», «Зависит ли отноше­ние к учебе от уверенности в трудоустройстве?».

5. После выбора исходных для анализа признаков следует со­чинить ответы, если задача модельная. Таким образом получается матрица исходных данных вида «объект ¾ признак», на основе которой будут выполняться задания к нескольким последующим разделам этой главы.

6. По всем трем признакам необходимо вычислить абсолютные, относительные (в долях и процентах) и накопленные частоты. Офор­мить результаты в виде таблиц типа 3.1.1; 3.1.2; 3.1.3.
еще рефераты
Еще работы по разное