Главная Каталог статей Полезные ссылки Поиск по сайту Гостевая книга Добавить статью

Главная arrow Каталог статей arrow Научная библиотека arrow Методы социологических исследований 

РАБОЧАЯ КНИГА СОЦИОЛОГА II-VI глава
Рейтинг: / 1
ХудшаяЛучшая 
12.12.2006 г.
Оглавление
РАБОЧАЯ КНИГА СОЦИОЛОГА II-VI глава
Страница 2
Страница 3
Страница 4
Страница 5
Страница 6

Глава пятая

Методы статистики в социологическом исследовании.

 

1.               Понятие измерения в социологии. Уровни измерения

 

Определение измерения.

Измерением   называется    процедура, с помощью которой объекты измерения, рассматриваемые как носи­тели определенных соотношений, отображаются в некоторую мате­матическую систему с соответствующими отношениями между элементами этой системы.

В качестве объектов измерения могут выступать респонденты, производственные коллективы, условия труда и быта и т. д. В от­ношения, которые моделируются при измерении, объекты вступают как носители определенных свойств. Так, мы можем рассматривать респондентов изучаемой совокупности как носителей такого свой­ства, как удовлетворенность своим трудом, и рассматривать отношение равенства между ними, считая каких-то респондентов «равными» или «неравными» в зависимости от степени рассматри­ваемой удовлетворенности. Те же респонденты могут выступать как носители такого свойства, как «возраст». Ясно, что между ними может быть определено отношение равенства, однако респон­денты, «равные» друг другу и первом случае, могут оказаться «неравными» во втором.

Каждому объекту при измерении приписывается определенный элемент используемой математической системы. В социологии чаще всего используются числовые математические системы, т. е. такие системы, элементами которых являются действительные числа. Однако возможно аффективное использование и нечисловых математи­ческих систем1: частично упорядоченных множеств, графов, мат­риц и т. д.

Адекватное измерение предполагает наличие общего представления о наблюдаемых объектах, об их изучаемых сторонах. Такое, представление даст возможность выделить отношения между объек­тами, которые должны отображаться в соответствующие отноше­ния между элементами использующейся математической системы2. Поскольку при практическом осуществлении измерения социологи в подавляющем большинстве случаев используют числовые системы, остановимся на принципах их применения в социологии.

Будем называть шкалой тот алгоритм, с помощью которого каж­дому наблюдаемому объекту ставится в соответствие некоторое чис­ло. Приписываемые же объектам числа назовем шкальными значе­ниями этих объектов.

Элементы используемых в социологии числовых  систем, как правило, нельзя считать «полноценными» числами. Приведем пример.

Предположим, что нас интересует отношение порядка между респондентами по их удовлетворенности своим трудом. Пусть процесс измерения состоит в следующем. Мы задаем каждому респон­денту вопрос: «Удовлетворены ли Вы своим трудом?» с традицион­ным веером из пяти ответов (от «совершенно не удовлетворен» до «вполне удовлетворен»). Каждому ответу присвоим соответственно числа от 1. до 5. Ясно, что реальным отношениям между респон­дентами в таком случае отвечает лишь отношение порядка между числами. Другие же операции под этими числами, например их сложение, не имеют эмпирически интерпретируемого смысла. Дру­гими словами, полученные шкальные значения не являются числами в обыденном значении этого понятия.

Встает естественный вопрос: какими известными соотношениями между числами мы в подобных ситуациях можем пользоваться, чтобы, анализируя шкальные значения, можно было получать содержательные выводы? Для ответа на этот допрос необходимо в первую очередь четко представить себе характер числовых систем, использующихся в процессе измерения в социологии.

 

Неоднозначность шкальных значений. Допустимые

 преобразования и типы шкал.

Единственное требование, предъявляемое к числам, служащим шкальными значениями, состоит в том, что рассмат­риваемые эмпирические отношения должны переходить в соответ­ствующие им числовые отношения. Этого требования, как правило, бывает недостаточно для однозначного определения множества шкальных значений. Совокупности величин, полученных по исполь­зуемым в социологии шкалам, обычно бывают определены лишь с точностью до некоторых преобразований этих величин, которые называются допустимыми преобразованиями соответствующих шкал; В соответствии со сложившейся в литературе традицией тип шкалы определяется соответствующим этой шкале множеством допустимых преобразований.

Чтобы пояснить введенные определения, опишем типы наиболее часто использующихся в социологии шкал.

Шкалы наименований (номинальные, классификационные). При использовании шкалы наименований объекты измерения распада­ются на множество взаимно исключающих и исчерпывающих клас­сов. Каждому классу даётся наименование, числовое обозначение которого является одним из шкальных значений. Шкала наимено­ваний получается, если в качестве моделируемых в процессе из­мерения эмпирических отношений выступают лишь отношения равенства и неравенства между объектами. Требования, предъявляе­мые к шкальным значениям, состоят в том, что равным объектам должно соответствовать одно и то же число, а неравным — разные числа. Поэтому номинальная шкала фактически задает некоторую классификацию исходных объектов. Один класс — это совокупность объектов, имеющих одно и то же шкальное значение.

Номинальные шкалы можно определить как шкалы, допустимыми преобразованиями которых являются произвольные взаимно однозначные преобразования3, т. е. преобразования, сохраняющие отношения равенства и неравенства между числами. Изучаемые эмпирические отношения одинаково хорошо будут отражать, напри­мер, следующие совокупности шкальных значений: (1, 1, 2, 3, 4) и (15, 15, 14, 13, 12). Каждая из этих совокупностей получена из другой с помощью некоторого однозначного преобразования.

Отметим, что даже при таком простейшем измерении к построе­нию шкалы надо подходить с большой осторожностью. Получаемые классы должны иметь социологическую значимость. Ясно, что сна­чала исследователь должен решить, что он будет классифицировать, какие категории будут при этом исследоваться. Например, если изучаются респонденты как носители определенной профессии, то классифицировать их нужно по принадлежности к той или иной профессии. Предполагается, что каждой профессии произвольно приписывается число, причем разным профессиям соответствуют разные числа.

Однако уже здесь проблема измерения (т. е. приписывания респондентам определенных чисел) не столь проста. Нельзя с предель­ной четкостью выделить всевозможные профессии или, по крайней мере, считать, что все профессии взаимно исключают друг друга. Например, неизбежно придется столкнуться с таким частным слу­чаем, когда профессия будет комбинацией нескольких. И тогда встанет вопрос о соотнесении респондента, имеющего такую про­фессию, с некоторой группой профессий и обозначении ее числовым знаком.

Порядковые шкалы (шкалы порядка). Порядковая шкала полу­чается, если при осуществлении измерения моделируются не только эмпирические отношения равенства и неравенства между изучае­мыми объектами, по и отношения порядка между ними. Порядковая шкала не только задает некоторую классификацию на множестве объектов, но и устанавливает определенный порядок между клас­сами.

Порядковые шкалы можно определить как шкалы, в качестве допустимых преобразований которых выступают произвольные мо­нотонно возрастающие преобразования4. Последние образуют подсовокупность всех взаимно однозначных преобразований, включаю­щую те из них, которые сохраняют отношение порядка между числами. Примером совокупностей шкальных значений, получаю­щихся друг из друга с помощью некоторого монотонно возрастающе­го преобразования, могут служить совокупности (1, 3, 5, 4, 2) и (18, 20, 28, 24, 19). Интересующие нас отношения равенства, не­равенства и порядка между объектами с одинаковым успехом отра­жены в любой из этих совокупностей. Ясно, что порядковые шкалы образуют подмножество номинальных шкал.

Пример порядковой шкалы мы получим, если будем различать людей данной профессии по квалификации (сложности труда и т.д.).

На практике часто не удается полностью упорядочить объекты изучаемой совокупности относительно того или иного интересующе­го исследователя свойства. Предположим, например, что изучается совокупность людей носителей свойства - «удовлетворенность спе­циальностью», а более узко — свойства, содержащегося в вопросе «Удовлетворены ли Вы своей специальностью?» и пяти ответах на него от «полностью удовлетворен» до «совсем не удовлетворен». Обычно считается, что любую совокупность людей можно упорядо­чить в отношении данного свойства, т. е. что ответившие «специаль­ностью полностью удовлетворен» выше по измеряемому качеству, чем те, кто ответил, что «специальностью удовлетворен» и т. д. Зачастую предполагаемого четкого различения оценок не наблю­дается и респонденты не могут однозначно выбрать тот или иной ответ. В этом случае на помощь могут прийти частично упорядо­ченные множества.

Шкальные  значения,  полученные по порядковой шкале,  часто называют рангами.

Интервальные шкалы (шкалы интервалов). Интервальные шка­лы получаются, если в процессе измерения мы моделируем не толь­ко те отношения, которые моделируются при использовании поряд­ковой шкалы, но и отношение равенства (или, что одно и то же, порядка) для разностей (интервалов) между изучаемыми объектами. Далеко не всегда в тех случаях, когда удается построить порядко­вую шкалу, удается построить и интервальную. Например, возьмем  классификацию рабочих по разрядам. Известно, что первый разряд ниже второго, второй — третьего и т. д. (и это соответствует опре­деленному эмпирическому отношению порядка между респондентами), т. е. разряды отвечают порядковой шкале. Однако сопоставлять дистанции между каждой парой разрядов все же нельзя.

Интервальным шкалам соответствуют положительные линейные преобразования5, т. е. такие преобразования, которые, наряду с от­ношениями равенства, неравенства и порядка между числами со­храняют и отношения равенства и порядка между их разностями, (или, что то же самое, частное от деления любой такой разности на любую другую). Примером совокупности чисел, получающихся друг из друга с помощью положительного линейного преобразова­ния (У = 3Х + 9), служат совокупности (5, 5, 2, 1, 2) и (24, 24, 15, 12, 15). Нетрудно проверить, что в этих совокупностях отражаются одни и те же отношения равенства, неравенства и порядка, как для чисел, так и для интервалов между ними (так, для первой совокуп­ности 5 — 2 > 2 — 1, а для соответствующих шкальных значений из второй совокупности 24 — 15 > 15 — 12). Легко видеть также, что частные от деления величины одного интервала между шкальными значениями на величину другого не зависят от того, какую из рассматриваемых шкал мы выбираем (так, верно соотношение (5 – 2):(2-1)=(24-15):(15-12)=3). Это справедливо для любых интервальных  шкал. Ясно, что положительные линейные преобразования явля­ются под совокупностью монотонно возрастающих преобразований, а совокупность интервальных шкал — подмножеством шкал порядка.

Главная трудность при построении интервальных шкал в социологии состоит в обосновании равенства или разности дистанций между объектами. Процедуры, позволяющие таким образом преобразовать шкальные значения порядковой шкалы, что равенство (порядок) расстояний между полученными числами можно будет трактовать как отражение соответствующего равенства (порядка) «рас­стояний», между изучаемыми объектами, носят название метризации шкалы (или «оцифровки» шкальных значений.)6. На практике из­вестно много методов шкалирования, позволяющих получать ин­тервальную шкалу «косвенным» образом, без отображения указан­ного отношения непосредственно в процессе измерения7.

Шкалам отношений соответствуют положительные преобразования подобия8, составляющие подсовокупность положительных ли­нейных преобразований, оставляющих без изменения отношения между числами (под отношением здесь понимается частное от де­ления одного числа на другое). Шкалу отношений получим, если будем требовать, чтобы в процессе измерения не только отношения между эмпирическими объектами отображались в соответствующие; числовые отношения, но и один и тот же объект отображался в 0. Подобная возможность иногда возникает в социологических иссле­дованиях. Так, при изучении удовлетворенности респондентов своим трудом, вероятно, в качестве такого объекта имеет, смысл выбрать респондента, равнодушного к своей работе. Фиксацию такого нуле­вого объекта можно рассматривать как задание начала отсчета; шкальных значений. Поэтому можно сказать, что шкалы отношений образуют подмножество интервальных шкал, характеризующееся фиксацией начала отсчета. Неоднозначность совокупности шкальных; значений, полученных с помощью измерения по шкале отношений, иллюстрируется примером следующих двух совокупностей, отража­ющих одни и те же эмпирические отношения равенства, неравенства и порядка как между респондентами, так и между соответствующими интервалами и, кроме того, отвечающих одному и тому же началу отсчета (один и тот же объект (второй) в обоих случаях отображается в: (2, 0,—1,4, 1) и (3, 6,—3/2, 6, 3/2). Легко видеть также, что для обеих совокупностей частные от деления между шкальными значениями любых пар объектов одни и те же (2:4 = 3: 6 и т. д.). Ясно, что рассматриваемые совокупности получаются друг из друга с помощью некоторого положительного преобразова­ния подобия (у = 3/2х). Шкалы разностей — это шкалы, которым соответствуют преобра­зования сдвига9. Ясно, что такие преобразования образуют подсовокупность положительных линейных преобразований. Шкалы раз­ностей получаются из интервальных шкал при фиксации единицы измерения. Для большинства социологических шкал трудно задать естественным образом такую единицу (исключение составляют шка­лы типа «возраст», «стаж работы», «доход» и некоторые другие). Однако шкалу разностей можно получить, например, при отыскании шкальных значений рассматриваемых объектов с помощью неко­торых методов парных сравнений (см. гл. 7),

Сказанное подытожено в схеме 1, где указаны допустимые преобразования описанных шкал и отражено соотношение их типов.

Признаки, значения которых получены по порядковой или но­минальной шкале, обычно называют качественными, а признаки, для получения значений которых использовалась шкала, тип кото­рой ниже типа интервальной шкалы — количественными.

В соответствии с имеющейся традицией будем говорить, что две шкалы позволяют достичь одного и того же уровня измерения, если эти шкалы являются шкалами одного типа (т. е. если соответству­ющие этим шкалам совокупности допустимых преобразований сов­падают)10.

Адекватность математических методов.

Одним из основных во­просов, встающих перед исследователем после осуществления измерения, является вопрос о том, какие математические методы он имеет право применять для анализа полученных чисел. Представля­ется целесообразным считать разрешенными (далее допустимыми, адекватными) только такие методы, результаты, применения которых не зависят от того, по какой из возможных шкал получены исходные данные. Необходимым условием такой независимости является инвариантность этих результатов относительно допустимых преоб­разований используемых шкал.

Основанием для такого подхода служит то, что именно такие результаты в принципе поддаются содержательной интерпретации, только они могут отражать реальные закономерности. Отметим, од­нако, что одной независимости результатов применения какого-либо метода от выбора конкретных используемых шкал отнюдь не доста­точно для того, чтобы попытка их содержательной интерпретации увенчалась успехом. Необходимо также содержательное осмысление  соответствующих результатов хотя бы для одной из возможных шкал.

Подчеркнем, что понятие допустимости или недопустимости той или иной статистики (различных мер средней тенденции, мер раз­броса, коэффициентов связи между признаками и т. д.) является относительным. Все зависит от того, в каком «контексте», значения этой статистики используются, какие именно соотношения между этими значениями значимы для получения содержательных выводов. Так, сопоставление средних тенденций двух совокупностей может осуществляться с помощью сравнения средних арифметических значений некоторого признака по их величине, с помощью оценки разности (отношения) этих средних и т. д. И возможность исполь­зования средних арифметических значений зависит от того, какие именно соотношения между ними подлежат содержательной интер­претации.

Подчеркнем следующее. Если удалось показать, что некоторое числовое соотношение можно содержательно проинтерпретировать, то не имеет значения, удастся ли при этом найти эмпирические аналоги отдельных входящих в это соотношение операций над чис­лами. Например, можно делать содержательные выводы на основе сравнения по величине двух средних арифметических значений некоторого признака, никак не интерпретируя при этом суммы шкаль­ных значений, вычисляемые в процессе нахождения средних ариф­метических.

Как отмечалось выше, для проверки разрешенное любого со­отношения необходимо убедиться в том, что это соотношение инва­риантно относительно допустимых преобразований использовавшейся при измерении шкалы (или нескольких шкал, если исходные данные получены по разным шкалам, но мы такой случай рассматривать не будем). Однако на практике такая проверка бывает довольно сложной. Соответствующая проблема в теории измерений называ­ется проблемой адекватности рассматриваемого числового соотно­шения. Аналогично можно говорить о проблеме адекватности ре­зультатов применения какого-либо математического метода.

Естественно, что чем уже круг допустимых преобразований, тел большее количество математических соотношений оставляют эти преобразования без изменения. Другими словами, чем выше тип шкалы, чем выше уровень измерения, тем большее количество ма­тематических методов можно применять к шкальным значениям, получая при этом интерпретируемые результаты.

Вопрос об адекватности используемых в социологии математи­ческих методов, как правило, является весьма сложным. Получен­ные к настоящему времени результаты касаются лишь небольшого числа методов. Рассмотрим некоторые из них.

Прежде всего, остановимся на вопросе о корректности использования различного рода средних и коэффициентов связи между признаками.

Ясно, что любую статистику можно использовать в произвольном «контексте» только в том случае, если ее значение остается инва­риантным относительно применения к исходным данным любого допустимого преобразования соответствующей шкалы. Нетрудно показать, что для номинальной шкалы, удовлетворяющей такому условию, средней будет мода, для порядковой шкалы — медиана и другие квантили. Значение среднего арифметического остается без изменения лишь для абсолютных шкал. Поэтому обращение с ним требует известной осторожности. Однако можно показать11, что сравнивать по величине средние арифметические значения какого-либо признака можно уже в том случае, когда исходные данные получены по интервальной шкале (другими словами, результаты такого сравнения не изменяются при применении к исходным данным произвольного положительного линейного преобразования).

Относительно коэффициентов связи можно сказать следующее, Инвариантными относительно допустимых преобразований рассматриваемых шкал являются значения коэффициентов связи, рекомендуемых в § 6 настоящей главы для соответствующего уровня изме­рения. Так, значение коэффициента корреляции  не изменяется при применении к исходным данным произвольного положительного линейного преобразования; значения коэффициентов Кендалла t и Спирмена r, инвариантны относительно произвольного монотонно возрастающего преобразования входящих в них величин; значения коэффициентов х2> Ф Р, К, Т инвариантны относительно произвольного взаимно однозначного преобразования исходных данных12.

 

2. Группировка материала статистических наблюдений

Измеряя характеристики объекта, исследователь собирает пер­вичный статистический материал. Дальнейшая его задача состоит в систематизации и обобщении результатов измерения для выявле­ния характерных черт, существенных свойств тех или иных типов Явлений, обнаружения закономерностей изучаемых процессов и про­верки гипотез, лежащих в основе исследования. В основе исполь­зуемых методов обработки полученных материалов исследования лежит предварительное упорядочение первичных данных главным образом при помощи статистической группировки и составления статистических таблиц.

 

Статистическая группировка.

Распределение изучаемой совокуп­ности на однородные группы по существенным для нее признакам (характеристикам) называется статистической группировкой.

Основное назначение группировки состоит, во-первых, в уста­новлении численности каждой отдельно взятой части совокупности, расчленённой в соответствии со значениями определенного признака (или нескольких признаков), и, во-вторых, в изучении влияния причин и зависимости явлений.

Главным вопросом метода группировки является правильный выбор группировочных признаков. Могут быть получены превосход­ные данные, по эти сведения пропадут совсем, если их группировка будет произведена неправильно. Поэтому при выборе признаков для отграничения явлений одного типа от явлений других типов необхо­димо руководствоваться не субъективными построениями, а содер­жательным анализом особенностей социальных явлений, задачами исследования, а также видом признаков, с которыми имеет дело исследователь. Основные группировки должны тщательно разрабатываться уже при составлении программы социологического исследования  с необходимостью отражать ключевые гипотезы.

Ряды распределения.

Результат группировки единиц наблюдения по какому-либо признаку называется статистическим рядом. Обозначим группировочный признак х. Пусть это будет уровень образова­ния каждого человека в данном списке лиц. Получим неупорядочен­ный ряд результатов отдельных наблюдений: 10, 5, 7, 8, 10, 10 10 (классы). Если отдельные наблюдения расположить в порядке воз­растания указанных выше значений признака, то получим вариаци­онный ряд: 5, 7, 8, 10, 10, 10, 10.

По вариационному ряду количественного признака можно под­считать, как часто каждое значение этого признака встречается в совокупности. В результате получим частотное распределение для данного признака. Иногда его называют эмпирическим или стати­стическим распределением. Для вышеприведенного примера частотное распределение выглядит так:

Условимся каждое, отдельное  значение  признака х обозначать  х1, х2,… , xk   (в  данном  примере  это  5, 7, 8, 9 и 10 классов).

Абсолютное число, показывающее, сколько раз встречается то или иное значение признака х, называется частотой и обозначается соответственно  n1, n2, ..., nk.

Относительной частотой называется доля значений признака в общем числе наблюдений и обозначается m1, .,., mk.

Например, для приведенного частотного ряда частота наиболь­шего значения признака (10 классов) равна 4, а относительная частота m5 = 4/8 = 0,5. Относительную частоту обычно выражают в процентах (mk = 50%).

Сгруппированные данные. Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значения признаков объединяются в группы (интервалы). В этом случае частоты соотносят уже не с каждым отдельным зна­чением признака, как это делалось в предыдущем примере, а с ря­дом значений, попадающих в определенный интервал.

Например, распределение уровня образования в вышеприведенном примере может быть представлено в виде интервального ряда следующим образом:

Частотное распределение с не сгруппированными значениями иногда называют дискретным рядом распределения.

При построении интервальных рядов большое значение имеет выбор типа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, что группировка должна наиболее полно выявлять существенные свойства рядов распределения.

Существующие формальные правила выбора оптимальной вели­чины интервалов редко оказываются полезными при работе с социо­логическими данными13. Как правило, приходится делать выбор между двумя крайностями: слишком крупные интервалы для дан­ного объема выборки скрадывают многие нюансы в описании явле­ния, а слишком дробные ведут к статистически незначимым малым частотам внутри интервала.

Интервальные ряды распределения могут строиться с равными и неравными интервалами. Неравные интервалы применяются при неравномерном   распределении   частот   значений   группировочного признака — для выделения качественно  отличных типов  явлений. Например, выбор интервалов при группировке данных распределения совокупности опрошенных по возрасту можно основываться на  этапах жизненного цикла. При группировке семей по признаку «число книг в семье», опираясь на информацию ранее проведенных исследований о том, что чаще всего встречаются библиотеки с чис­лом книг по 500 и реже — библиотеки, насчитывающие 10000 книг, целесообразно установить неравные интервалы группировки, напри­мер такие: 1—50, 51—100, 101—200, 201—300, 301—500, 501—700, 701-1000, 1001-2000, 2001—5000, 5001-10000.

Если у исследователя нет предварительной информации, о харак­тере распределения по тому или иному признаку, то следует зада­вать равные интервалы. Равные интервалы также наиболее удобны при использовании методов математической статистики. Опыт пока­зывает, что по каждому из признаков не следует брать более 20 группировочных интервалов.

При образовании интервалов необходимо точно обозначить коли­чественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы. Поэтому, как правило, необ­ходимы дополнительные указания о том, считать ли граничные значения интервалов «включительно» или «исключительно».

Довольно часто социологу приходится сталкиваться с ситуацией, когда необходимо провести перегруппировку материала, задав дру­гие интервалы, но нет возможности при этом обратиться к перво­начальным статистическим данным.

При расщеплении интервала на несколько частей приходится вводить априорное предположение о частотном распределении внут­ри интервала, поскольку истинное распределение неизвестно. Самым  простым является предположение о равномерности частотного рас­пределения по отдельным значениям признака. Другие формы распределения требуют достаточно громоздких вычислений14.

Статистические таблицы.

Предусмотренные программой исследо­вания и методиками обработки группировки объектов по каждому из признаков кладутся в основу статистических таблиц, обобщаю­щих исходные данные.

В дальнейшем составляют более сложные таблицы, позволяющие сопоставлять ряды распределений, и, наконец, комбинационные таблицы, в которых три или более признака перекрещиваются, ком­бинируются. По таким таблицам устанавливаются, измеряются и анализируются связи между признаками исследуемой совокупности объектов.

Построение таблицы подчинено определенным правилам. Основ­ное содержание таблицы должно быть отражено в названии (круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы измерения). Таблицы бывают простые, групповые и комбинационные.

Простые таблицы представляют собой перечень, список, отдельных единиц совокупности о количественной (или качественной) характеристикой каждой из них в отдельности.

В групповых таблицах содержится группировка единиц совокуп­ности по одному признаку, а в комбинационных — по двум и более признакам.

Примером комбинационной разработки статистической таблицы может служить табл. 1.

Такая таблица представляет собой нечто гораздо большее, чем простой перечень данных, она является способом и вместе с тем результатом определенной организации данных. Хорошо сконструи­рованная таблица позволяет исследователю более четко представить и описать смысл и сущность изучаемого им социального явления.

Таким образом, метод группировки и представление материала в виде статистических таблиц уже дают определенные возможности для изучения социологических данных. С другой стороны, он является совершенно необходимым средством для дальнейшего анализа и применения более тонких статистических методов.

 

3. Графическая интерпретация эмпирических зависимостей

 

Частотные распределения изображаются также в виде диаграмм и графиков. Главным достоинством графического изображения яв­ляется его наглядность.

Графическая интерпретация эмпирических зависимостей осно­вана на знании технических правил построения рядов, типов и свойств теоретических распределений. Здесь мы рассмотрим графика вариационных рядов: гистограмму, полигон и кумуляту распределения.

Гистограмма.

Гистограмма — это графическое изображение интервального ряда. По оси абсцисс откладывают границы интервалов, на которых строят прямоугольники с высотой, пропорциональной плотностям распределения соответствующих интервалов (пропор­циональной числу единиц совокупности, приходящейся на единицу длины интервала). При равных интервалах плотности распределения пропорциональны частотам, которые и откладываются по оси ординат (рис. 1, табл. 2).

На гистограмме общее число лиц в каждой категории выражает­ся площадью соответствующего прямоугольника, а общая площадь равна численности  совокупности  (так как гистограмма на  рис.   1 строится по относительным    частотам, то площадь    равна единице (100%). Поэтому для интервалов 4—6, 6—8, 8—10 в табл. 2, которые в 2 раза больше предыдущих, нужно брать высоты прямоугольников в 2 раза меньшие. При нанесении на графике последне­го открытого интервала 

 

«10 лет и более» условно будем считать верхней его границей 40 лет. Тогда ширина интервала равна 30го­дам, а плотность распределения — около 0,5% (15,7 : 30 ~ 0,5).

Полигон распределения.

Для построения полигона величина при­знака откладывается на оси абсцисс, а частоты или относительные частоты — на оси ординат. Из точек, соответствующих значениям признака, восстанавливаются перпендикуляры, равные по высоте частотам. Вершины перпендикуляров соединяются прямыми ли­ниями.

Для интервального ряда ординаты, пропорциональные частоте (или относительной частоте) интервала, восстанавливаются перпен­дикулярно оси абсцисс в точке, соответствующей середине данного интервала.

Следующие данные распределения рабочих в возрасте до 24 лет по тарифным разрядам (высококвалифицированные рабочие сельхоз-машиностроения)15 дают возможность построить полигон распределе­ния (рис. 2):

 

Условно принято крайние ординаты признака соединять с серединами примыкающих интервалов (на рис. 2 эти замыкающие линии нанесены пунктиром). Однако для распределения, где концентрация событий увеличивается на концах полигона, такое изображение мо­жет привести к ложным представлениям о существе явления.

Кумулята.

Для графического изображения вариационных рядов используются также кумулятивные кривые. При построении кумуляты, как и гистограммы, на оси абсцисс откладываются границы интервалов (либо значения дискретного признака), а на оси орди­нат — накопленные частоты (либо относительные частоты), соответ­ствующие верхним границам интервалов. Таким образом, отличие кумуляты от гистограммы в том, что на графике кумуляты столби­ки, пропорциональные частотам, последовательно накладываются один на другой, так что высота последнего столбика является сум­мой высот столбиков гистограммы.

Кумулята округляет индивидуальные значения признака в пре­делах интервала и представляет собой возрастающую ломаную линию.

Кумулята позволяет быстро определить процент лиц, находящихся ниже или выше заданной величины признака. Например, по данным табл. 3, процент семейств, в которых муж старше cyпруги не более чем на 5 лет, равен 65 (рис. 3, точка А).

 

Вид (форма) кривых распределений.

Кривые, полученные в результате графического представления эмпирических данных, могут иметь разнообразную форму. Среди них можно выделить относи­тельно небольшое количество простых типов, Некоторые возможные формы распределений приведены на рис. 4, Анализ формы кривых иногда помогает в выявлении внутренней, скрытой структуры ис­следуемой совокупности. Например, можно предположить, что фор­ма кривой  обусловлена наложением двух кривых: а и б, иначе говоря, предположить, что существует третья скрытая переменная (или группа переменных), детерминирующая расчленение совокупности на две группы.

Существует множество конкретных примеров того, как графический анализ стимулирует дальнейшее развитие исследовательской мысли.

Теоретическое распределение.

Сбор эмпирической информации может быть осуществлен двумя путями: исследованием всей сово­купности социальных объектов, которые являются предметом изучения в пределах, очерченных программой социологического иссле­дования, и изучением лишь части этих объектов. В первом случае исследование называется сплошным, а множество социальных объектов — генеральной совокупностью, во втором исследование называется выборочным, а выделенная часть объектов — выборкой16.

Одна из основных задач статистики состоит в том, чтобы по данным выборки оценить параметры генеральной совокупности.

Гистограмма и полигон распределения, построенные на основу эмпирических данных выборки, позволяют выявить лишь

приближенную картину реального распределения в генеральной совокуп­ности.

При увеличении выборочной совокупности и все большем дроб­лении величины интервалов эмпирическое распределение в виде гистограммы или полигона все более приближается к некоторой кривой, называемой кривой распределения.

Если группировочный признак является непрерывной величиной, тo в предельном случае при, постепенном уменьшении величины интервала полигону и гистограмме будет соответствовать некоторая гладкая кривая (рис. 5).

Эта кривая распределения, являющаяся предельным случаем полигона данного эмпирического распределения, называется по установившейся терминологии кривой плотности распределения. Обозначим соответствующую функцию f(z).

В терминах теории вероятностей плотность распределения мож­но трактовать следующим образом: вероятность (р) того, что слу­чайная величина (x) примет значение из достаточно малого интер­вала (XiXi+1), равна произведению длины интервала на высоту пря­моугольника (f(xi)), т. е.

Для интервала произвольной длины суммированием этих значений получим, что

Отсюда приходим к определению фундаментального понятия теории вероятностей — функции распределения (F) случайной величины (x), которая по определению есть

 

Знание функции распределения дает исчерпывающее представление о поведении совокупности в отношении изучаемого признака, поэто­му определение типа распределения признаков представляет одну из задач исследования массовых явлений.

 

4. Средние величины и характеристики рассеяния значений признака

Группировка и построение частотного распределения — лишь первый этап статистического анализа полученных данных. Следую­щим шагом обработки является получение некоторых обобщающих характеристик, позволяющих глубже понять особенности объекта наблюдения. Сюда относится, прежде всего, среднее значение при­знака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математи­ческой статистике различают несколько видов средних величин: среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариацион­ный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т. п.17

Среднее значение признака.

Среднее есть абстрактная типическая характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индиви­дуальных особенностей и позволяет представить в одной величине, некоторую общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наибо­лее часто используемой считается среднее арифметическое.

Среднее арифметическое. Среднее арифметическое есть частное от деления суммы всех значений признака на их число. Обознача­ется оно х. Формула для вычисления имеет вид

 

По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке, из 10 человек:

Формула (1) для сгруппированных данных преобразуется в следующую:

где nt — частота для i-го значения признака.

Если находят среднюю для интервального ряда .распределения, то в качестве значения признака для каждого интервала условно принимают его середину.

Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).

Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля.

Пример.  Вышеприведенные  данные  о  количестве  прочитанных газет (см. с. 159) сгруппируем следующим образом:

Медиана. Медианой называется значение признака у той еди­ницы совокупности, которая расположена в середине ряда частот­ного распределения.

Если в ряду четное число членов (2k), то медиана равна средне­му арифметическому из двух серединных значений признака. При нечетном числе членов (2k+ 1) медианным будет значение призна­ка у (k + 1) объекта.

Предположим, что в выборке из 10 человек    респонденты проранжированы по стажу работы на данном предприятии:

 

         Серединные ранги 5 и 6, поэтому медиана равна

В интервальном ряду с различными значениями частот вычисление медианы распадается на два этапа: сначала находят медиан­ный интервал, которому соответствует первая из накопленных ча­стот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле

где Х0 — начало (нижняя граница) медианного интервала; d — ве­личина медианного интервала; n = Snt — сумма частот (относитель­ных частот) интервалов; nн — частота (относительная), накоплен­ная до медианного интервала; nмe — частота (относительная) меди­анного интервала.

Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них, превышающая половину совокупности (100/2 = 50%), равна 57,9%. Следовательно, медиана принадлежит интервалу 3—4 года. По­этому

Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньшее этой величины, а другие 50%—большее. Медиана может быть легко определена графически по кумуляте распределения (см. рис. 3).

Медиана может быть применена для дискретных переменных, хотя дробные значения часто не имеют непосредственной содержа­тельной интерпретации.

По данным распределения рабочих по тарифным разрядам см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу18. Получим

Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50%—больший.

Медиана, как уже отмечалось, делит упорядоченный вариацион­ный ряд на две равные по численности группы.

Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д.

Квантили, которые делят ряд на 4 равные по объему совокупно­сти, называются квартилями. Различают нижний Q1/4 и верхний  квартили (рис. 6). Величина Q1/2 является медианой. Вычисле­ние квартилей совершенно аналогично вычислению медианы:

 где х0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nн — частота (относительная частота), накоп­ленная до квартального интервала; nQ — частота (относительная частота) квартального интервала; d — величина квартального ин­тервала.

Процентили делят множество наблюдений на 100 частей с рав­ным числом наблюдений в каждой. Децили делят множество наблю­дений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).

Мода. Модой в статистике называется наиболее часто встречаю­щееся значение признака, т. е. значение, с которым наиболее веро­ятно можно встретиться в серии зарегистрированных наблюдений.  В дискретном ряду мода (Мо) — это значение с наибольшей частотой.

В интервальном ряду (с равными интервалами) модальным яв­ляется класс  с  наибольшим   числом   наблюдений.   Значение   моды  находится в его пределах и вычисляется по формуле

где х0 — нижняя граница модального интервала; d — величина ин­тервала; n- — частота интервала, предшествующего модальному; nМо — частота модального класса; n+ — частота интервала, следую­щего за модальным.

В совокупностях, в которых может быть произведена лишь опе­рация классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственный способом ука­зать некий центр тяжести совокупности.

К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величи­ны от интервала группировки; возможность существования в ряду распределения нескольких модальных значений признака (см., например, рис. 4, в).

Сравнение  средних. Целесообразность   использования  того   или   иного типа средней величины зависит по крайней мере от следующих условий: цели усреднения, вида распределения, уровня измерения признака, вычислительных соображений. Цель усреднения свя­зана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней мо­жет повлиять и вид распределения. Например, для ряда с откры­тыми конечными интервалами нельзя вычислять среднее арифмети­ческое, но если распределение близко к симметричному, можно под­считать тождественную ему в этом случае медиану.

Показатели колеблемости (вариации) значений признаков.

Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметические, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характери­стикой такого разброса служат показатели колеблемости — разность между максимальным и минимальным значениями признака в не­которой совокупности (вариационный размах), а также другие по­казатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п.

Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется но формуле,

Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается s.        

Геометрически среднее квадратическое отклонение является по­казателем того, насколько в среднем кривая распределения размы­та относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.

При ручном счете для упрощения вычислений дисперсию Ы рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо  отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел (аi) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; —1, —2 и т, д. (табл. 4).

В качестве проме­жуточного результата по формуле (7) получаем среднее арифметическое.   Величина   дисперсии   получается   подстановкой   промежуточных величин из табл. 4 в формулу (8).

Среднее арифметическое находится по формуле19

Приведенные вычисления показывают, что при среднем возрасте» 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%.

Среднее абсолютное отклонение. Эта мера вариации представля­ет собой среднее арифметическое из абсолютных величин откло­нений отдельных значений признака от их среднего арифметического, нения часто выражаются через соотнесение в процентах к среднему арифметическому, т. е. в виде относительных величин.

Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициен­том, вариации (V):

Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.

Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низ­ших уровней, строго говоря, некорректно и требует тщательной ин­терпретации полученных результатов.

Вариации качественных признаков. Если признак имеет k взаи­моисключающих градаций, то для вычисления индекса качествен­ной вариации применяется процедура, поясняемая следующим примером.

Пусть получено следующее распределение ответов (взаимоис­ключающих) па вопросы А, В и С (колонка 1):

Во вторую колонку  запишем  такие  частоты,   которые   получились бы при равномерном заполнении  всех   трех   вопросов,   т.   е. 120/3 = 40. Теперь вычислим величину

Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то j = 0, что означа­ло бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.

Совершенно аналогично индекс вычисляется при   любом   числе градаций. Но для альтернативных признаков вариация обычно подсчитывается по формуле  (14). Она отличается от J на константу, называется  дисперсией,  выражается в  абсолютных числах  и  обо­значается s2:

Другой мерой вариации признака  (независимо от уровня изме­рения) может служить так называемая энтропия — мера неопределенности, вычисляемая по формуле

Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:   

а) энтропия равна нулю лишь в том случае, если вероятность полу­чения одного из значения xi признака х равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обла­дает неопределенностью, так как достоверно известно одно един­ственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной;

б) наибольшей энтропией обладает признак, когда все значения xi равновероятны. Для признака с k градациями

Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке.

 

5. Нормальное распределение. Статистические гипотезы

 

Адекватное применение количественных методов, вошедших в практику социологических исследований, в той или иной степени впирается на предположение, что изучаемый признак (или сово­купность признаков) подчиняется определенному статистическому закону распределения. Таким наиболее часто встречающимся рас­пределением является нормальный закон, представление о котором дано здесь в очень краткой форме.

Вторая группа вопросов, рассмотренных в этом разделе, связана с проверкой гипотез. Можно выделить две функции статистических процедур: во-первых, это описание элементов совокупности, во-вто­рых, помощь исследователю в принятии некоторых решений о них. В предыдущих разделах этой главы их рассмотрение было связано с дескриптивной функцией статистики. Здесь же кратко описаны основные понятия и принципы статистического вывода.

Нормальное распределение. Наиболее широко известным теоре­тическим распределением является нормальное, или гауссовское, распределение. Нормальное распределение признака наблюдается в тех случаях, когда на величину его значений действует множество случайных независимых или слабозависимых факторов, каждый из которых играет в общей сумме примерно одинаковую и малую роль (т. е. отсутствуют доминирующие факторы). Функция плотности гауссовского распределения имеет вид

где s2 — дисперсия случайной величины (s2 — это теоретическая дисперсия, отличающаяся от s2, вычисляемой по выборочным дан­ным); m — среднее значение (математическое ожидание) (рис. 7).

В практических расчетах часто используется так называемое правило трех сигм, которое заключается в том, что лишь 0,26% всех значений нормально распределенного признака лежат вне ин­тервала m± Зs, т. е. почти все значения признака укладываются в интервале из шести сигм (рис. 8).

Статистические гипотезы.

Статистической называют гипотезу о виде неизвестного распределения либо о параметрах известных рас­пределений20. Так, статистической будет гипотеза о том, что пере­менная в генеральной совокупности распределена по нормальному закону. Проверяемую гипотезу называют нулевой (основной) гипоте­зой и обозначают Я0. Наряду с нулевой рассматривается конкури­рующая гипотеза Я, (альтернативная), которая ей противоречит.

Статистический критерий и проверка гипотез. Для проверки ну­левой гипотезы (используется специально подобранная случайная величина, точное либо приближенное распределение которой из­вестно и обычно сведено в таблицы. Эта величина называется ста­тистическим критерием. Обозначим его пока К.

Для критерия К фиксируется так называемая критическая об­ласть, т. е. совокупность значений критерия, при. которых нулевую гипотезу отвергают. Точка Ккрназывается критической, если она отделяет критическую область от области принятия гипотезы.

Различают правостороннюю, левостороннюю и двустороннюю критические области.

Принятие или отвержение гипотезы производится на основе со­ответствующего статистического критерия с определенной вероятно­стью. Считают, что нулевая гипотеза справедлива, если вероятность того, что критерий К примет значение, большее Ккр, т. е. попадет в критическую область, равна выбранному значению вероятно­сти a т. е.

Принятая вероятность а называется уровнем значимости.

Практически принятие или отвержение нулевой гипотезы прово­дится следующим образом: выбирается соответствующий критерий (этот вопрос будет обсуждаться далее); вычисляется наблюдаемое значение критерия КИ, исходя из эмпирического распределения; вы­бирается уровень статистической значимости (обычно 0,05 или 0,01).

По таблице распределения критерия К для данного уровня зна­чимости находят критическую точку Ккр. Если Кя > КК1>, нулевую гипотезу отвергают, если же КИ< Кку, то ее отвергать нет основа­ния.

Делая такие выводы (т. е. принимая или отвергая гипотезу), можно совершить ошибки двух типов: отвергнуть гипотезу, когда она верна; принять ее, когда она неверна. Поэтому при принятии гипотезы было бы неверным считать, что она тем самым полно­стью доказана. Для большей уверенности необходимо ее проверять другими способами (например, увеличить объем выборки).

Отвергают гипотезу более категорично, чем принимают.

Примеры статистических гипотез: а) нормальное распределение имеет заданное среднее и дисперсию либо имеет заданное среднее (о дисперсии ничего не говорится); б) распределение нормальное либо два неизвестных распределения одинаковы.

В качестве критериев чаще всего используются случайные ве­личины, распределенные нормально (Zкритерий), по закону «Фи­шера (Fкритерий Фишера), по закону Стьюдента (tкритерий Стьюдента), по закону хи-квадрат (критерий c2) и т. д.

В качестве конкретного примера рассмотрим применение крите­рия хи-квадрат для проверки гипотезы о виде распределения изу­чаемого признака.

Критерий хи-квадрат. Популярность критерия хи-квадрат обусловлена главным образом тем, что применение его не требует пред­варительного знания закона распределения изучаемого признака. Кроме того, признак может принимать как непрерывные, так и дискретные значения, причем измеренные хотя бы на номинальном уровне.

Если закон распределения признака неизвестен, но есть основа­ния предположить, что он имеет определенный вид А, то критерий X2 позволяет проверить гипотезу: исследуемая совокупность распре­делена по закону А. Для проверки такой гипотезы сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в пред­положении определенного распределения А) частоты. Выпишем эти частоты:

Как правило, эмпирические и теоретические частоты будут раз­личаться. Возможно, что наблюдаемое различие случайно (стати­стически незначимо) и объясняется либо малым числом наблюде­ний, либо способом их группировки, либо иными причинами. Но возможно, что расхождение частот значимо и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о характере распределения значений рассматриваемых признаков, генеральной совокупности. Критерий c2 отвечает на вопрос, случай­но или пет такое расхождение частот. Как любой критерий, c2  не доказывает справедливость гипотезы, а лишь с определенной веро­ятностью а устанавливает ее  согласие или  несогласие  с данными

наблюдениями. , Критерий c2 имеет вид

Критическая точка распределения c2 находится (см. табл. Б прило­жения} по заданному уровню значимости а и числу степеней свободы df. Число степеней свободы находят по формуле

df=k – l – r,

где kчисло интервалов вариационного ряда; rчисло парамет­ров предполагаемого распределения, которые оценены по данным выборки (например, для нормального распределения оценивают два параметра: m и s2).

Рассмотрим пример, когда признак оценивался в терминах «очень низкий», «средний», «очень высокий» и был получен сле­дующий ряд распределения для этих трех категорий:

Проверим гипотезу о том, что в генеральной совокупности зна­чения этого признака распределены равномерно.

Теоретическое  распределение  для   этих   групп   получим,    если предположим, что эти категории  независимы,   т. е.   респондент   с одинаковой вероятностью может попасть в любую группу. Очевид­но,   ожидаемая   (теоретическая)   частота   будет    равна   24/3 = 8 человек.

Таким образом, имеем следующие эмпирические и теоретические частоты:

Проверяется гипотеза, что число респондентов во всех трех катего­риях одинаково, т. е. отличие распределения от равномерного ста­тистически незначимо.

 

        По таблице распределения c2,   например,   для   уровня   значимости 0,05 и степени свободы, равной   df = 3 — 1 = 2,   находим   критиче­скую   точку c2 кр = 5,991. Таким образом, наблюдаемое   значение c2  меньше c2 кр следовательно, данные наблюдений согласуются с ну­левой гипотезой и не дают оснований ее отвергнуть.

Хи-квадрат критерий  применим  и  для проверки  нулевой гипо­тезы об отсутствии связей между признаками в случае, если эмпи­рические данные сгруппированы не по одному, как выше, а гкг не­скольким  признакам. Например, пусть имеется выборка в 190 чело­век, чье мнение относительно какого-то определенного вопроса ис­следовалось (табл. 5). Расчленим эту выборку на три независимых категории   по  возрасту.  Рассмотрим  следующие  гипотезы:   — не существует различия мнений относительно этого вопроса среди различных возрастных групп; Н—существует различие. Проверим гипотезу для уровня значимости а = 0,05.

Для нахождения ожидаемой (теоретической) частоты в любой клетке таблицы необходимо просто перемножить соответствующие маргинальные частоты и разделить произведение на итоговую сум­му. Например, ожидаемая частота для клетки (а) равна

 

Для нашего примера df= (4 — 1)(3 — 1) = 6. По табл.  Б прило­жения находим, что c2 кр = 16,812. Следовательно, нужно отвергнуть гипотезу о том, что нет различий   в   мнении   среди   неодинаковых возрастных групп, т. е. можно предположить, что существует зна­чимая статистическая взаимосвязь между тем, к какой возрастной группе принадлежит респондент, и тем мнением, которое он высказывает. Однако величина c2  не говорит о силе связи между переменными, а лишь указывает на вероятность существования такой свя­зи. Для Определения  интенсивности   связи   необходимо  использовать Соответствующие меры связи.

Для корректного применения методов, основанных на c2, иссле­дователь должен обеспечить выполнение следующих условий. Вы­борку необходимо получить из независимых наблюдений. Данные могут быть измерены на любом уровне, но ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если же часто­ты оказываются менее 5, то необходимо либо уменьшить степень дробности группировки признаков, объединив соседние категории, либо обратиться к другому критерию21.

 

6.  Статистические взаимосвязи и их анализ

 

Понятие о статистической зависимости. Исходя из известного положения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием Множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные 

данные) для выборки в 25 человек, а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя   очень   часто   уже   на диаграмме  просматривается общая тенденция в  изменении  значе­ний признаков и направление связи между изучаемыми признаками. Уравнение регрессии. Статистическая зависимость   одного   или большего числа признаков от остальных   выражается с   помощью уравнений регрессии. Рассмотрим две величины х и у, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­менной х, тогда у принимает целый ряд значений. Обозначим у среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины ух от x называется уравнением регрессии у по х:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению22

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убывании) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей, массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величин.

Направление и плотность (теснота) линейной связи между дву­мя переменными измеряются с помощью коэффициента корреляции.

Меры взаимозависимости для интервального уровня измерения. Наиболее широко известной мерой связи служит коэффициент кор­реляций Пирсона (или, как его иногда называют, коэффициент кор­реляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента г, состоит в том, что регрессионные уравнения для изучаемых переменных имеют линейную форму23, т. е.

где у — среднее арифметическое для переменной у; х — среднее арифметическое для переменной х; b1 и b2  - некоторые коэффи­циенты.

Поскольку вычисление коэффициента корреляции и коэффици­ентов регрессии b1 и b2 проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные регрессионные  модели24.

 

Выборочные коэффициенты регрессии и корреляции вычисляются по формулам

Здесь s2x  —дисперсия признака х; s2xдисперсия признака у. Величина sxy, называется ковариацией х и у.

Расчет r для не с группированных данных. Для вычислительных целей эти выражения в случае не сгруппированных данных можно переписать в следующем виде:

Рассчитаем коэффициент корреляции и коэффициенты регрессии для данных табл. 7:

Тогда уравнение регрессии имеет вид

Линии регрессии y = F(x) изображены на рис. 10-. Отсюда вид­но, что между заработной платой и общим стажем работы сущест­вует прямая зависимость: по мере увеличения общего стажа рабо­ты на предприятии растет и заработная плата. Величина коэффи­циента корреляции довольно большая и свидетельствует о положи­тельной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профес­сионального опыта. Коэффициент корреляции по определению яв­ляется симметричным показателем связи: rxy = ryx. Область возмож­ного изменения коэффициента корреляции г лежит в пределах от +1 до —1.

Вычисление r для сгруппированных данных. Для сгруппирован­ных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем так­же начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз.

Для условных данных, помещенных в табл. 8, за нулевую точ­ку отсчета выберем значение у, равное 64, а по x — значение 134,5.

Тогда коэффициент корреляции определяется по следующей формуле:

 

Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения Snijaxby вычислим последовательно все произведения частоты в каждой клетке таблицы на ее коор­динаты. Так

В соответствии с формулой вычисляем

Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы.

Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффи­циент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0.

Если гипотеза H0 (r = 0) будет отвергнута, говорят, что величи­на коэффициента корреляции статистически значима (т. е. эта ве­личина не обусловлена случайностью) при уровне значимости a.

Для случая, когда п < 50, применяется критерий t, вычисляе­мый по формуле

Распределение t дано в табл. В приложения.

Если п > 50, то необходимо использовать Z-критерий

В табл. А приложения приведены значения величины ZKp для соответствующих a.   

Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число на­блюдений п — 25 и нужно применять критерий t). Величина r (см. табл. 7) равна 0,86. Тогда

Для уровня значимости a = 0,01 ZKp = 2,33 (см. табл. А прило­жения).

Поскольку Z > ZKp, мы должны констатировать, что коэффици­ент корреляции г = 0,86 значим и лишь в 1 % случаев может ока­заться равным нулю. Аналогичный результат дает и проверка по критерию t для а = 0,01 (односторонняя область); tкр— 2,509, t вы­борочное равно 8,08.

Другой часто встречающейся задачей, является проверка равен­ства на значимом уровне двух коэффициентов корреляции. i =  г2 при заданном уровне а, т. е. различия между r1 и r2 обусловлены лишь колебаниями выборочной совокупности.

Критерий для проверки значимости следующий:

где значения   zrj и zr находят по табл. Д приложения для r1 и r2.

Значения ZКp определяют по табл. А. приложения аналогично вышеприведенному примеру.

Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у = а + bх. Если исследователь изучает влияние не­скольких переменных х1, х2, ..., хk  результатирующий признак y, то возникает необходимость в умении строить регрессионное урав­нение более общего вида, т. е.

где  ab1,. b2,  ...,  bk — постоянные   коэффициенты,   коэффициенты регрессии.   

В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенту регрессии а, b1, b2…bк ; б)какую интерпретацию можно припи­сать этим коэффициентам; в) оценить тесноту связи между у и каждым из Xi в отдельности (при элиминировании действия остальных);   г)   оценить  тесноту  связи  между  у и   всеми  переменными х1, ..., xк в совокупности.

Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образования i) и возраста 2) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида:

При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования п человек получены эм­пирические значения, сведенные в следующую таблицу (в каждом столбце представлены не сгруппированные данные):

Каждое значение переменной в таблице преобразуем по формулам

Коэффициенты с1 и сгнаходятся по следующим формулам 

с1 и с2 называются стандартизированными коэффициентами регрес­сии. Следовательно, зная коэффициенты корреляции между изучае­мыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения rij из следующей таблицы25;

Коэффициенты исходного регрессионного уравнения b0, b1 и b2 на­ходятся по формулам

Подставляя сюда данные из вышеприведенной таблицы, получим  b1= 3,13; b2= -0,17; b0= - 8,56.

Как же следует интерпретировать это уравнение? Например, значение b2 показывает, что в среднем недельный бюджет свободного времени при увеличении возраста на один год и при фиксированном признаке Xi уменьшается на 0,17 час. Аналогично интер­претируется b1. (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве (у, xt, х2).

Коэффициенты х1 и х2 можно в то же время рассматривать и как показатели тесноты связи между переменными у и, например, Xi при постоянстве хг.

Аналогичную интерпретацию можно применять и к стандарти­зированным коэффициентам регрессии сi. Однако поскольку ci вы­числяются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между пере­менными, измеряемыми в различных единицах. Например, в выше­приведенном примере Xi измеряется в классах, a x2в годах. C1 и с2 позволяют сравнить, насколько z1 теснее связан с у, чем хг26.

Поскольку коэффициенты bi и сi измеряют частную односторон­нюю связь, возникает необходимость иметь показатель, характери­зующий связь в обоих направлениях. Таким показателем является частный коэффициент корреляции

Для рассматриваемого примера ry1.2 = 0,558, rу2.1 i = —0,140.

Для любых трех переменных x1, х2, х3 частный коэффициент корреляции между двумя из них при элиминировании третьей стро­ится следующим образом:

Аналогично можно определить и частные коэффициенты корре­ляции для большего числа переменных (r12, 34 ...). Однако ввиду громоздкости вычисления они применяются достаточно редко.

Для характеристики степени связи результатирующего признака у с совокупностью независимых переменных служит множествен­ный коэффициент корреляции R2y , который вычисляется по формуле (иногда он выражается в процентах)

Так, для вышеприведенного примера он равен

Множественный коэффициент корреляции показывает, что включе­ние признаков х1 и х2 в уравнение

на 32% объясняет изменчивость результатирующего фактора. Чем больше Rt, тем полнее независимые переменные х2 ..., xk описы­вают признак у. Обычно  служит критерием включения или ис­ключения новой переменпой в регрессионное уравнение. Если Л мало изменяется при включении новой переменной в уравнение, то такая переменная отбрасывается. 

Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными является корре­ляционное отношение h2. Корреляционное отношение h2у/х опреде­ляется через отношение межгрупповой дисперсии к общей диспер­сии по признаку у:

где уiсреднее значение i-ro y-сечения (среднее признака у для объектов, у которых x=xi, т. е. столбец «г»); xi —среднее значе­ние i-го x-сечения т. е. строка «i» nyi —число наблюдений в y сечении; nXi — число наблюдений в x-сечении; у — среднее зна­чение у.

Величина h2у/х показывает, какая доля изменчивости значений у обусловлена изменением значения х. В отличие от коэффициента корреляции h2у/х не является симметричным показателем связи, т. е,  h2у/х не равно h2х/y. Аналогично определяется корреляционное отношение х по у27.

Пример.   По  данным   таблицы  сопряженности   (табл.  9)   найдем h2у/х.  Вычислим общую среднюю

Сравнение статистических показателей r и h2у/х. Приведем сравнительную характеристику коэффициента корреляции (будем срав­нивать r2) и корреляционного отношения h2у/х.

а) r2 = 0,   если x и у  независимы   (обратное   утверждение не­верно);

б) r2 =h2у/х =1 тогда и только тогда, когда имеется строгая ли­нейная функциональная зависимость у от х.

в) r2 = r\y/x<i тогда и только тогда, когда регрессия х и у стро­го линейна, но нет функциональной зависимости;

г) r2 <h2у/х < 1 указывает на то, что нет функциональной зави­симости и существует нелинейная кривая регрессии.

Коэффициенты взаимозависимости для порядкового

уровня из­мерения.

К этой группе относятся коэффициенты ранговой корреля­ции Спирмена rа, Кендалла t  и g. Коэффициенты ранговой корре­ляции используются для измерения взаимозависимости между ка­чественными признаками, значения-которых могут быть упорядоче­ны или проранжированы по степени убывания (или нарастания) данного качества у исследуемых социальных объектов.

Коэффициент ранговой корреляции Спирмена rs. Этот коэффи­циент вычисляется по следующей формуле:

где di = ikiразность между i-ми парами рангов; Iчисло сопоставляемых пар рангов. Величина rs может изменяться в преде­лах от +1 до — 1, когда два ряда проранжированы в одном поряд­ке. При полном взаимном беспорядочном расположении рангов г, равен нулю. Пример. По данным табл. 10 выясним, в какой степени связаны  жизненные планы детей, отличающихся по социальному происхождению. Для этого проранжируем значения процентных распределений для каждой из двух групп детей.

        В графе  «из крестьян»  (табл. 10) встречаются два одинаковых числа (51, 0). В подобных случаях обоим числам присваивают ранг, равный среднему арифметическому из этих рангов, т. е. (3 + 4)/2 = 3,5. Подставляя промежуточные величины, вычисленные в табл. 10, в формулу (34), находим28

Такую величину r, можно интерпретировать как высокую сте­пень связи между жизненными планами детей рабочих и крестьян. Однако большая величина г, не должна скрывать тот факт, что жизненные планы молодежи в табл. 10 распадаются на две груп­пы. Для одной группы (нижняя часть таблицы) ранги полностью совпадают, а для другой (верхняя часть) — нет.

Если подсчитать rs, для каждой группы отдельно, то в первом случае, очевидно, rs= 1, а во втором rs=0,15, но статистически не­значимо отличается от 0.

Значимость коэффициента корреляции Спирмена для l < 100 можно определить по табл. Г приложения, где приведены крити­ческие величины rs.

Если l> 100, то критические значения находятся по табл. А формуле

Например, возвращаясь к данным табл. 10, где l< 100, по табл. Г приложения найдем, что для того, чтобы r был значим на уровне 0,01, он должен быть равен или превосходить 0,833. Эмпирическое значение r, = 0,9, и поэтому делается вывод, что имеется значимая связь между предпочтениями жизненных планов двух групп рес­пондентов. Аналогичным образом легко убедиться, что rs, = 0,15 при l= 4 статистически незначим.

Коэффициент ранговой корреляции t Кендалла. Подобно rs ко­эффициент Кендалла используется для измерения взаимосвязи между качественными признаками, характеризующими объекты од­ной и той же природы, ранжированные по одному и тому же критерию, т изменяется от +1 до —1. Для расчета t0 используется формула

Как вычисляется S, поясним на примере данных табл. 10.

Таблица упорядочена так, что в графе «Ранг I» ранги располо­жились в порядке возрастания их значений. Берем значение ранга, стоящего в графе «Ранг II» на первом месте, 3,5; из расположен­ных ниже данного ранга семи других четыре значения его превы­шают, а два — меньше его. Число 4 записывается в графу Si , a 2 в колонку Si. Аналогичный подсчет делается для второго ранга со значением 1. Число рангов, расположенных ниже данного значения и превышающих его, равно 6, а число рангов, меньших данного,— 0 и т. д. Остальные вычисления ясны из следующей таблицы:

Тогда, подставив соответствующие значения в формулу (36), по­лучим

Таким образом, tа дает более осторожную оценку для степени связи двух признаков, чем rs.

При   расчете   t   не   учитывались   равные   ранги.   Например, в табл. 10 имеются два равных ранга со значением 3,5. Если число равных рангов велико, то необходимо вычислить т по следующей формуле:

где Тх= i/2Ztx(txi) (txчисло равных рангов по первой пере­менной); Ту=i/2Zty(tvi) (tyчисло равных рангов по второй: переменной).

Для предыдущего примера tx= 1, tv=2, тогда Тх = 0, Ty = 1.

Значимость коэффициента корреляции Кендалла t при l > 10 определяется по формуле

Гипотеза о том, что tа = 0, будет отвергнута для данного а, если       |Z|>Zкр(a/2).

Для вышеприведенного примера ,

По табл. А приложения для а = 0,05 находим ZKp(a/2), равное 1,96. Поскольку расчетное значение 2 = 2,84 и, следователыю, боль­ше Zкр, заключаем с вероятностью 95%, что t не равно 0.

Коэффициенты корреляции Спирмена и Кендалла используются как меры взаимозависимости между рядами рангов, а не как меры связи между самими переменными. Так, в табл. 10 ранги отражают иерархию жизненных планов, но совершенно не говорят о том, что дети рабочих почти в равной мере хотят получить как высшее образование, так и интересную работу (разница 0,2%), а дети крестьян в большей степени стремятся к высшему образованию (разница 8%). Кроме того, какая-нибудь из групп респондентов может считать, что выделенные категории вообще не отражают их жизненных планов, по проранжировали предложенные варианты. Если для целей исследования можно предположить эти моменты несущественными, то оправданно применение ранговой корреляции.

Коэффициенты Спирмена и Кендалла обладают примерно оди­наковыми свойствами, но  в случае многих рангов, а также при введении дополнительных объектов в ходе исследования имеет определенные вычислительные преимущества29.

Другая мера связи между двумя упорядоченными переменны­ми — g. Она, так же как и предыдущие коэффициенты, изменяется

от +1 до — 1 и может быть подсчитана при любом числе связанных рангов. Формула для вычисления g записывается в виде

Для иллюстрации правил вычисления 5, по сгруппированным дан­ным обратимся к примеру (табл. 11).

Процесс вычисления S+  и S~ наглядно  представлен на схеме

(схема 2).

Так:

Подставляя эти величины в формулу для g, находим

Проверку статистической значимости проводят по формуле

Гипотеза   Н0   оравенстве   нулю   коэффициента   отвергается,   если Z>ZKр(a/2). Для наших данных

Для а = 0,05 по табл. А приложения ZKp(a/2) = 1,96. Таким обра­зом, Z < ZKp, и, следовательно, у нас нет оснований отвергнуть гипотезу Н0 : g= 0, т. е. лишь в 5 % случаев следует ожидать, что g будет отличен от нуля.

Множественный коэффициент корреляции W. Этот коэффициент, иногда называемый коэффициентом конкордации, используется для измерения степени согласованности двух или нескольких рядов проранжированных значений переменных.

Коэффициент W вычисляется по формуле

Значимость  полученной  величины  W для  и > 7   проверяется  по критерию c2:

со степенью свободы п — 1. Для примера c2 = 10,133, степень свобо­ды (n— 1)=4. Для a = 0,05 из табл. Б приложения находим c2 = 9,488. Поскольку наблюдаемое значение c2  больше критической точки, отвергаем гипотезу о том, что не существует значимой связи между рассматриваемыми переменными30.

Коэффициенты взаимозависимости для номинального

 уровня из­мерения.

Связь в табл. 2 X 2. Простейшая  задача о взаимозависимости возникает тогда, когда имеются два признака, каждый из которых принимает два значения (табл. 13).

Представим данные о группировке по этим двум признакам так;

Для характеристики степени связи двух признаков применяется коэффициент Ф, определяемый формулой

Коэффициент Ф равен 0, если нет соответствия между двумя дихотомическими переменными, и равен 1 или —1, когда имеется полное соответствие между ними. В силу трудностей. с интерпрета­цией знака коэффициента для катетеризованных (поминальных) переменных часто используют в анализе лишь абсолютную величи­ну—|Ф|. Ф легко интерпретируется, поскольку показано, что он представляет собой просто коэффициент корреляции r, если значе­ния каждой дихотомической переменной обозначить 0 и 1.

Как уже отмечалось, Ф вычисляется для катетеризованных дан­ных, представляющих естественные дихотомии: пол, раса, и т. п. Приведение количественных переменных к дихотомическому виду связано .с выбором граничной точки разделения (например, мужчи­ны до 30 лет и мужчины старше 30 лет). Искусственная дихотомизация, столь часто необходимая в конкретном исследовании при изучении взаимосвязи признаков, может привести к тому, что одна часть дихотомической переменной по своему воздействию будет бо­лее значима для одной связи, другая —для другой, а это даст оши­бочный результат.

Измерение связи в табл. с X k. Рассмотрим теперь более общую ситуацию, когда две переменные классифицированы па две или более категории. Запишем это таким образом:

где nij частоты; ni— маргинальные суммы частот по строкам; nj — маргинальные суммы частот по столбцам. На с. 169—172 для выяс­нения отклонения от независимости распределения значений в по­добном случае использовался критерий c2. Однако сама величина c2 не очень подходит в качестве меры связи, поскольку сильно зависит от числа категорий.

Нормированным коэффициентом корреляции для таблицы c X k является коэффициент сопряженности Пирсона (P)

Коэффициент Р = 0 при полной независимости признаков. Недо­статком, его является зависимость максимальной величины Р от размера таблицы (максимум Р достигается при c = k, но сама гра­ница изменяется с изменением числа категорий). В связи с этим возникают трудности сравнения таблиц разного размера.

Чтобы исправить указанный недостаток, Чупров ввел другую величину:

При с = kТ достигает +1 в случае полной связи, однако не обла­дает этим свойством при k не равно с.

Коэффициент Крамера  (К) может всегда достигать +1  незави­симо от вида таблицы:

Для квадратной таблицы коэффициенты Крамера и Чупрова совпа­дают, а в остальных случаях К > Т.

Величина c2 быстро вычисляется с помощью формулы

Вычисление коэффициентов Р, Т и К связано с теми же ограни­чениями на х2, которые сформулированы на с. 172.

Следующая группа коэффициентов связи для категоризованных данных основана на предположении, что если две переменные свя­заны, то информация об одной переменной может быть использо­вана для предсказания другой. Так, если предположить, что связь между полом индивида и его отношением к правилам уличного движения абсолютно детерминирована, то согласно табл. 13 либо все мужчины были бы нарушителями, а женщины нет, либо наоборот. Поскольку это не так, то возникает несоответствие, или, как говорят, ошибка предположения абсолютной связи (обозначим величину этой ошибки 0А).

С другой стороны, можно предположить, что два признака абсо­лютно не связаны, и нельзя на основе одной переменной предска­зать другую. Поскольку это тоже не так, то возникает ошибка предположения об отсутствии связи (00).

может служить  мерой относительного уменьшения ошибки при- использовании информации об одной пе­ременной для предсказания другой.

Признак, на основе которого предсказывается другой признак, будем называть независимой переменной, а предсказываемый — за­висимой.

Тогда для случая, когда зависимая переменная расположена по строкам таблицы (т. е. Категории расположены по строкам), вычис­ляется коэффициент связи lг:

где max nнаибольшая частота в столбце r; max n jнаибольшая маргинальная частота для строк j.

Пример. Вычислим К2 для данных табл. 13 в предположении, что K1  независимая  переменная,   а  отношение   к  правилам  уличного движения — зависимая

Таким образом, использование информации о поле обследованных для предсказания отношения к правилам движения не умень­шает относительной ошибки.

Если зависимая переменная — это категории столбцов таблицы, то совершенно аналогично предыдущему вычисляется

где mах nij — наибольшая частота в строке; max ni— наибольшая

маргинальная частота для столбцов i.

Для нашего примера, когда пол зависимая переменная, l = 0,4, т. е. получаем 40%-пое уменьшение в ошибке, если используем от­ношение к правилам в качестве предсказывающей пол нарушителя.

Коэффициенты А и К имеют пределы изменения от 0 до 1. Чем ближе Кгили Кс к 1, тем больше относительное уменьшение в ошиб­ке и большее соответствие (связь) между переменными. Эти коэф­фициенты могут быть использованы для таблиц любого размера.

В ряде случаев удобно использовать симметричную l:  

Разнообразие корреляционных коэффициентов продиктовано стремлением отразить реально существующее разнообразие типов связей в природе и обществе. Поэтому данное обстоятельство сле­дует рассматривать скорее как свидетельство достоинств статисти­ческого аппарата, заключающихся в гибкости и большой приспособ­ленности его к анализу сложнейших взаимосвязей в социальной области. Каждый корреляционный коэффициент приспособлен дли измерения вполне определенного вида связи. Техника расчета и конструкция формулы одного и того же коэффициента могут изме­ниться в зависимости от того, какие (например, сгруппированные или не сгруппированные) данные приходится анализировать. Срав­ните, например, различные варианты формул для парного коэффи­циента корреляции r. Таким образом, применение того или иного показателя определяется природой данных и формой их представ­ления. Требуемая степень точности также может существенно по­влиять на выбор способа расчета связи в каждом конкретном слу­чае. Обычно оценка пригодности той или иной формулы произво­дится с учетом следующих факторов:

1) природы данных (качественные или количественные при­знаки);

2) формы и типа зависимости (линейная или нелинейная, поло­жительная или отрицательная связь);

3) требуемой точности расчетов (например, коэффициенты кор­реляции рангов r и t иногда могут использоваться вместо более точных мер r и t2);

4) удобства при вычислении и сравнительной простоты интер­претации;

5) трудностей технического порядка (имеется ли счетная техни­ка или нужно вести расчеты вручную);

6) распространенности использования того или иного коэффици­ента корреляции;

7) возможности сравнения различных коэффициентов.

Обычно предпочитают использовать наиболее распространенные в практике социологических исследований коэффициенты, так как тем самым достигается возможность сравнения полученных резуль­татов с материалами других исследований.

 

7. Новые подходы к анализу данных, измеренных по порядковым и номинальным шкалам

В последние годы как у нас в стране, так и за рубежом разработано довольно много математических методов, предназначенных для анализа дан­ных, полученных с помощью измерения по номинальным п порядковым шка­лам. Однако многие из них малознакомы широкому кругу социологов. В на­стоящем параграфе представлен краткий обзор таких методов. К сожалению, в силу сложности и большого объема материала нет возможности подробно изложить суть каждого метода и тем более описать конкретную методику его применения. Поэтому все излагаемое ниже можно рассматривать лишь как некоторое указание на то, к какой литературе необходимо обратиться для решения соответствующей задачи и какого рода вопросы необходимо поста; вить в этой связи перед математиком.

Наиболее распространенными задачами, при решении которых исследова­тель прибегает к помощи математических методов, являются задачи изучения связей между признаками, нахождения латентных переменных, классифи­кации объектов.

Рассмотрим задачу изучения связей между признаками. В предыдущем разделе этой главы уже рассматривались меры связи между номинальными признаками, основанные на анализе таблиц сопряженности. Определенного рода обобщением способов измерения таких связей с помощью критерия c2 можно считать метод логлинейного анализа частотных таблиц. В отличие от упомянутых мер связи логлинейный анализ позволяет анализировать таблицы сопряженности любой размерности и проверять гипотезы о наличии сложных структур связи, состоящие из предположений о существовании связей внутри каждой из нескольких групп признаков одновременно. Принципы логлинейного анализа описаны в литературе достаточно подробно31.

В основе традиционных подходов к измерению связей между номинальны­ми признаками лежит представление о последней как об «интегральной», т. е. о связи между рассматриваемыми признаками «в целом» (при расчете меры связи учитываются одновременно все те значения, которые эти признаки мо­гут принимать). Однако такое понимание связи не является единственно возможным. Она может пониматься и как «локальная», т. е. как связь между отдельными значениями (одним или несколькими рассматриваемыми призна­ками). Наличие «интегральной» связи отнюдь не означает наличия «локаль­ной», и наоборот. Так, вывод об отсутствии «интегральной» связи между полом и курением (например, основанный на малой величине c2) может не под­твердиться на основе «локального» анализа той же таблицы данных: т. е. можно предположить, что свойство респондента «быть мужчиной» довольно жестко определяет то, что этот человек курит (свойство «быть женщиной» в этом смысле может быть не связано с курением).

В настоящее время разработан довольно широкий круг методов анализа описанных «локальных» связей. В литературе они часто называются метода­ми поиска детерминирующих комбинаций значений переменных (или взаимо­действий последних)32. Прежде чем подробнее пояснить суть задачи и подхо­ды к ее решению, введем некоторые обозначения.

Пусть изучается влияние каких-то I признаков (переменных), обозначае­мых ниже х1, х2, ..., xi, па некоторый интересующий исследователя признак у. Признаки x2, хг, ..,, xi будем называть независимыми переменными, а при­знак у — зависимой переменной. Поясним, что имеется в виду под задачей поиска детерминирующих комбинаций значений переменных.

Исследователь полагает,  что  рассматриваемые независимые   признаки   в определенной   степени   обусловливают   тип   поведения   изучаемых   объектов, проявляющийся в том, какие значения для того, или иного объекта может принимать зависимая переменная. Другими словами, выдвигается гипотеза о соответствующей детерминации (типа поведения сочетаниями значений не зависимых переменных).

Упомянутый тип поведения может пониматься по-разному. Например, его можно определить как указание вероятностей, с которыми объект, обладающий заданным сочетанием значений ж, имеет то или иное значение. В та­ком случае тип поведения фактически отождествляется с распределением зна­чений зависимого признака для объектов, имеющих рассматриваемый набор значений независимых признаков. Например, если при решении упомянутого (выше вопроса о связи пола респондента с привычкой к курению придем к выводу, что для мужчин вероятность иметь такую привычку равна 0,8, а не иметь ее — 0,2 и что для женщин аналогичные вероятности равны соответ­ственно 0,3 и 0,7, то будем иметь основания говорить о двух типах поведения респондентов, каждый из которых определяется полом последних.

Можно тип поведения отождествить со средним арифметическим множе­ства значений зависимой переменной для рассматриваемой совокупности объектов (в таком случае естественно предполагать, что значения у получены по интервальной шкале). Пусть, например, у — это время, затрачиваемое рес­пондентом в течение дня на чтение газет, х — пол респондента, х2его обра­зование. Если в процессе исследования мы обнаружим, что мужчины с высшим образованием тратят на чтение газет в среднем 1,5 часа в день, а жен­щины с начальным образованием — 0,01 часа, то можно будет говорить о двух типах поведения респондентов, каждый из которых соответствующим образом связан с рассматриваемыми независимыми признаками.

Тип поведения объекта можно отождествить и с тем, что для этого объ­екта у принимает определенное значение. Подчеркнем, что в любом случав упомянутая выше гипотеза о детерминации не может означать предположе­ния о «жестком» определении значения по сочетанию значений х.

В соответствии с выдвинутой гипотезой исследователь ставит перед собой задачу выяснить, какие именно сочетания значений независимых признаков являются в интересующем его смысле детерминирующими (определяющими тип поведения объектов). Иногда к этому добавляется и задача выделения и числа независимых переменных подсовокупности признаков, наиболее инфор­мативных в том смысле, что по сочетанию именно их значений с наибольшей степенью уверенности можно судить о типе поведения объектов. В едином. Комплексе с этими задачами может решаться и задача выявления самих ти­пов поведения, свойственных объектам изучаемой совокупности. Именно соче­тание названных трех задач (может быть, без второй или третьей) и называ­ется задачей поиска детерминирующих комбинаций значений переменных.

В соответствии с тем, как понимается тип поведения объектов, должен формироваться критерий, является ли тот или иной набор сочетаний значений х детерминирующим это поведение. Многообразие" методов поиска детермини­рующих  характеристик и объясняется в основном различием таких критериев.

Например, первому описанному выше пониманию типа поведения отвечает поиск такого разбиения исходной совокупности объектов (соответствующего определенному набору сочетаний значений х), что каждой выделенной подсо­вокупности будет соответствовать свое распределение значений у (степень различия распределений определяется в соответствии с известными статисти­ческими критериями). Искомые детерминирующие комбинации — это те на­боры сочетаний значений х, которые соответствуют выделенным подсовокупностям33.

Второму пониманию типа поведения отвечает такое разбиение исход­ной совокупности объектов, при котором каждая подсовокупность будет иметь свое среднее арифметическое значение у (т. е. разница между соответствующими средними значениями будет статистически значима)34. Отметим тесную связь такого подхода с, методами дисперсионного анализа, с помощью которого мож­но изучать влияние совокупности качественных признаков на некоторый количественный признак35. Однако дисперсионный анализ предназначен для изучения «интегральных» связей. Он исходит из априори заданных групп объектов — каждая группа соответствует одному возможному сочетанию значений независимых переменных и позволяет проверить гипотезу о совпадении типов поведения этих групп (тип поведения в дисперсионном анализе пони­мается именно рассматриваемым образом). Описываемые же нами методы решают более широкую задачу — они позволяют проанализировать с той же точки зрения все возможные группы объектов, соответствующие тому или иному набору сочетаний значений независимых переменных.

Подчеркнем, что при использовании описанных подходов ищутся не толь­ко  сочетания  значений  независимых  переменных,  определяющих  некоторые    типы поведения, но и сами эти типы.

Для иллюстрации одного из возможных подходов к поиску детерминирую­щих комбинаций значений переменных при третьем упомянутом выше пони­мании типа поведения дадим некоторые определения, введенные С. В. Чесноковым36, и приведем пример из его же работы. Привлекательность методики поиска детерминирующих характеристик, предложенной этим автором, в том, что она по существу является формализацией рассуждений, наиболее часто использующихся социологом при практическом решении задач о статистиче­ской зависимости.

Рассмотрим случай, когда данные представлены таблицей 2 X 2, изучае­мые объекты — респонденты, признак х принимает значения а и b, а признак у — значения с и d. Назовем типом поведения респондента соответствующее ему значение у и ниже будем говорить о детерминации значением а тина поведения с. Очевидно, считать, что такая детерминация действительно имеет место, можно только в том случае, если достаточно велика «степень уверен­ности» в реализации поведения с для объекта со значением а независимой переменной. Уточним смысл такой уверенности.

Назовем интенсивностью детерминации а®с величину I(а®с), равную доле респондентов, для которых у = с в группе респондентов, удовлетво­ряющих условию: х=а. Интенсивность детерминации означает точность вы­сказывания если а, то с. Назовем емкостью детерминации а®с величину с(а®с), равную доле респондентов, для которых х = а, в группе респондентов, удовлетворяющих условию у = с. Емкость детерминации измеряет долю случаев реализации поведения с, которая «объясняется» высказыванием «из а следует с». Емкость с(а®с) отражает, насколько всеобъемлюще объяснение, по­строенное на детерминации а®с, т. е. полноту этой детерминации.

Для обоснованности выводов о том, что «а влечет с», недостаточно знать, необходимо оценить и С.

Пример. Пусть х — пол (а — мужчина, bженщина), а у — величина зарплаты (с — высокая, dнизкая). Предположим, что частотная таблица имеет вид

На основании того, что 70% мужчин имеют высокую зарплату, мы не можем говорить, что под детерминирует величину зарплаты. Для этого выво­да необходимо еще оценить, какова доля мужчин среди лиц с высокой зар­платой. Например, если этот процент равен /, то сформулированный вывод вряд ли можно считать справедливым. Полученные же в рассматриваемом примере 40% могут способствовать обоснованию этого вывода, если исследо­ватель сочтёт этот процент достаточно высоким.

Показатели, аналогичные введенным величинам I и С, легко можно оп­ределить и для того случая, когда количество независимых признаков более одного.

Очевидно, в отличие от тех ситуаций, когда тип понимается одним из двух описанных выше способов, в данном случае мы не выявляем типы по­ведения в процессе нахождения детерминирующих сочетаний. Такая задача решается отдельно для каждого значения зависимой, .переменной: фиксируя это значение (т.е. тип поведения), мы ищем такие сочетания значений не­зависимых переменных, которые определяют его с достаточно высокими зна­чениями I и С (смысл выражения «достаточно высокие» определяется иссле­дователем).

Наряду с методами поиска детерминирующих комбинаций значений пе­ременных разработаны подходы к выявлению связей между номинальными признаками, аналогичные методам регрессионного анализа. В последнее деся­тилетие был предложен ряд подходов к решению этого вопроса37. Опишем один из них.

Прежде всего заметим, что если все рассматриваемые переменные ди­хотомические, то, применяя к исходным данным технику обычного регрес­сионного анализа, будем получать содержательно интерпретируемые резуль­таты38. Это связано с тем, что дихотомическую шкалу можно считать частным случаем интервальной. Приведем пример вычисления регрессионной зависимости между номинальными переменными, в котором реализуется метод, основанный на сделанном замечании.

Сначала каждая переменная, принимающая I значений, заменяется на I фиктивных дихотомических переменных: каждому исходному значению соответствует своя дихотомическая переменная.

Пусть X1 и Х2—исходные независимые номинальные переменные, при­нимающие каждая три значения — 1, 2, 3. Через х1, х2,  x3, x4, x5, x6  обозначим вводимые фиктивные переменные (x1, х2, х3 соответствуют переменной Х1 а х4, х5, х6Х2). Значения, принимаемые фиктивными переменными, можно понять из следующей таблицы, где приведены значения X1 и X2 для некото­рых трех объектов.

К  полученным   фиктивным   переменным   применяется   обычная  техника регрессионного анализа. Причем, поскольку зависимая переменная также заменена на k фиктивных переменных (если она принимает k значений), вме­сто одного уравнения рассчитывается k уравнений: для каждой упомянутой фиктивной переменной строится свое уравнение регрессии. Для оценивания влияния независимых переменных на зависимую в целом (а не на отдельные соответствующие ей фиктивные переменные) служит комплекс различных коэффициентов.

Аналогичный подход можно использовать и в случае, если зависимая

переменная получена по интервальной шкале39. Как уже отмечалось, помимо задачи анализа связей между переменными, довольно актуальными для социологии являются также задачи нахождения латентных переменных и классификации объектов. Правда, эти задачи очень часто можно рассматривать как частный случай задачи изучения связей: ла­тентные факторы обычно находятся именно на основе анализа связей между наблюдаемыми признаками, а для осуществления классификации, как пра­вило, анализируются связи между объектами. Но тем не менее названные задачи имеют и свою специфику, обусловленную их ролью в изучении инте­ресующих социолога вопросов. Это обусловливает и определенную специфику соответствующих математических методов. Поэтому имеет смысл сказать несколько слов о путях решения обеих задач, когда изучаемые объекты харак­теризуются значениями номинальных или порядковых признаков40.

Поиск латентных переменных может осуществляться с помощью методов латентно-структурного анализа. Кроме того, возможны различные подходы к использованию традиционных методов факторного анализа для анализа данных, полученных по порядковой и номинальной шкалам41.

Основная проблема, встающая перед исследователем, желающим приме­нить математические методы классификации к объектам, заданным значения­ми номинальных и порядковых признаков,— это проблема выбора меры бли­зости между этими объектами. Большинство традиционных мер рассчитано на признаки, измеренные по интервальной шкале. Однако известны и такие меры, которые могут быть применены в интересующем нас случае. Выбор  подходящей меры близости обеспечивает возможность использования многих методов классификации42.

Далее рассмотрим несколько разработанных советскими авторами общих подходов к задаче анализа качественных данных.

Первый подход предложен Г. С. Лбовым43. Автор предполагает, что ис­ходные признаки могут быть измерены по любой шкале, и следующим обра­зом вводит понятие логического высказывания, являющегося основным во всех предложенных им алгоритмах.

Если признак Хi измерен по номинальной шкале и а1i, а2i, ..., ali— его значения, то назовем элементарным высказыванием выражение вида xi= = аji (j=1, ..., р). Если признак xi измерен по шкале, тип которой не ниже порядковой шкалы, b и с — произвольные его возможные значения и b < с, то назовем элементарным высказыванием выражение вида b < хi < с.

Приведем пример логической закономерности. Пусть х1пол, принимаю­щий два значения: 0 (мужчина) и 1 (женщина); хгудовлетворенность респондента своей работой, измеренная по порядковой шкале с градациями 1 ..., 5; x3 — зарплата респондента, измеренная по шкале отношений (в руб.). Примером логического высказывания может служить выражение (х1 = 0) Ç (3 < х2 <= 5) Ç (100 < x3 <=120). Ясно, что каждое логическое вы­сказывание задает определенную область рассматриваемого признакового пространства.

Разработанный Г. С. Лбовым подход к анализу исходных данных, полу­ченных по разным шкалам, с успехом позволяет решать задачи, подобные описанным выше задачам поиска детерминирующих комбинаций значений признаков. А именно автор предлагает алгоритм, согласно которому при лю­бом разбиении исходной совокупности объектов па классы (это разбиение может быть осуществлено, в частности, в соответствии со значениями не­которого зависимого признака) для каждого такого класса может быть осу­ществлен поиск логических высказываний, выполняющихся (т. е. истинных) на принадлежащих ему объектах. Выполнение понимается в некотором статистическом смысле. Грубо говоря, выполнение высказывания для объектов какого-либо класса означает, что это высказывание истинно для большинства объектов этого класса.

Но тот же подход позволяет решать и гораздо более широкий круг встаю­щих перед социологом задач: задачу автоматической классификации исход­ных объектов (грубо говоря, в разные классы попадают объекты, для кото­рых выполняются разные логические высказывания); задачу построения ло­гических решающих правил, т. е. «границ» между классами, если задано, в какой класс каждый объект входит (такие правила также определяются в терминах логических высказываний); задачу динамического прогнозирования (алгоритм использует логические решающие правила), и т. д.

Второй подход разработан группой исследователей под руководством Б. Г. Миркина44. Авторы этого подхода предлагают рассматривать каждый признак как некоторое отношение на множестве изучаемых объектов и зада­вать его в виде булевой матрицы, т. е. матрицы, элементы которой могут принимать только два значения, например 0 и 1. Приведем пример.

Пусть для некоторых четырех респондентов заданы значения признаков; пол (0 — мужчина, 1 — женщина) и профессия (принимающая значения 1, 2, 3, 4) и пусть соответствующая матрица «объект — признак» имеет вид

Тогда   рассматриваемым   признакам   будут   соответствовать   следующие булевы матрицы:

 

На пересечении i-го столбца и j-й строки стоит единица, если значения рас­сматриваемых признаков для i-го и j-го объектов совпадают, и 0 — в проти­воположном случае.

Авторы рассматриваемого подхода предлагают основанные на использо­вании описанного способа представления исходных данных методы решения широкого круга задач, в том числе и социологических: классификация объ­ектов, изучение связей между признаками, выявление латентных переменных и т. д. Например, в качестве латентного фактора, объясняющего связи между несколькими исходными признаками, заданными матрицами, подобны­ми описанным выше, будет выступать признак, заданный матрицей, в опре­деленном смысле близкой ко всем исходным матрицам одновременно (пер­вым шагом решения соответствующей задачи будет поиск таких групп ис­ходных матриц, для каждой из которых подобную «среднюю» матрицу можно найти).

Интересный подход к анализу структуры связей между рассматривае­мыми переменными в тех случаях, когда эти переменные измерены по произ­вольным шкалам, предложен Ю. Н. Гаврильцом45. Этот подход позволяет учи­тывать, что связь может быть прямой и опосредованной, тесной и слабой и т. д., что изменение значений части признаков может менять характер распределения у другой части признаков, в то время, как распределение третьей части признаков остается прежним. Основные принципы представле­ния исходной информации, лежащие в основе этого подхода, являются слиш­ком сложными для того, чтобы их можно было сформулировать в настоя­щем параграфе.

Последний подход к анализу информации, полученной по номинальной или порядковой шкале, о котором нам хотелось бы упомянуть,— это так называемая метризация используемых шкал («Оцифровка» значений признаков). Это — приписывание исходным шкальным значениям таких «меток», чисел, что отношения между получающимися интервалами начинают иметь содержательный смысл. К настоящему времени разработано довольно много способов такого превращения номинально» либо порядковой шкалы в интер­вальную46. Однако использовать их надо с большой осторожностью, по­скольку каждый из этих способов предполагает довольно сильные и часто трудно проверяемые свойства исходных шкальных значений (эти предполо­жения могут быть как содержательными, так и формальными).

В заключение настоящего раздела отметим, что большинство описанных в этой главе методов реализовано в имеющихся в различных научных цен­трах нашей страны комплексах программ для ЕС ЭВМ. Методы дискриптивной статистики, вычисления всевозможных мер связи, методы регрессионного анализа и другие методы многомерного статистического анализа, в том числе методы поиска детерминирующих характеристик значений независимых при­знаков, реализованы в системе «Социолог», применяемой в ИСИ АН СССР. Алгоритм поиска детерминационных характеристик, основанный на методе С. В. Чеснокова, представлен в системе, разработанной во ВНИИ системных исследований ГКНТ и АН СССР. Упомянутые выше алгоритмы, предложен­ные Г. С. Лбовым, реализованы в пакете программ ОТЕКС Института мате­матики СО АН СССР.

 

Литература для дополнительного чтения

Вайнберг Дж.,Шумекер Дж. Статистика. М.: Статистика,1979.389 с.

Гласе Дж., Стэнли Дж.  Статистические методы в педагогике и психологии. М.: Прогресс, 1976. 495 с.

Крамер Г. Математические методы статистики. М.: Мир, 1975.648 с.

Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Но­восибирск: Наука, 1981. 160 с.

 Математические методы в социологическом исследовании Отв. ред. Т. В. Рябушкин и др. М.: Наука, 1981. 332 с.

Миркин Б. Г.  Анализ качественных  признаков  и  структур.  М.:  Статистика, 1980. 166 с.

Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов. М.: Статистика, 1977. 144 с.

Рунион Р. Справочник по непараметрической статистике. М.: Финансы и ста­тистика, 1982. 198 с. 

Рябушкин Т, В. Теория и методы экономической, статистики. М.: Наука, 1977. 511 с.

Статистические  методы  анализа   информации   в  социологических   исследованиях Отв. ред. Г. В. Осипов и др. М.: Наука, 1979. 319 с.

Типология   и   классификация   в   социологических . исследованиях  Отв.   ред.

В. Г. Андреенков, Ю. Н. Толстова, М.: Наука, 1982. 296 с.

Тюрин Ю. Н. Непараметрические методы статистики. М.: Знание, 1978. 62 с. 



» Нет комментариев
Пока комментариев нет
» Написать комментарий
Email (не публикуется)
Имя
Фамилия
Комментарий
 осталось символов
Captcha Image Regenerate code when it's unreadable
 
« Пред.   След. »