РАБОЧАЯ КНИГА СОЦИОЛОГА II-VI глава |
12.12.2006 г. | ||||||||
Страница 5 из 6
Глава пятая Методы статистики в социологическом исследовании.
1. Понятие измерения в социологии. Уровни измерения
Определение измерения. Измерением называется процедура, с помощью которой объекты измерения, рассматриваемые как носители определенных соотношений, отображаются в некоторую математическую систему с соответствующими отношениями между элементами этой системы. В качестве объектов измерения могут выступать респонденты, производственные коллективы, условия труда и быта и т. д. В отношения, которые моделируются при измерении, объекты вступают как носители определенных свойств. Так, мы можем рассматривать респондентов изучаемой совокупности как носителей такого свойства, как удовлетворенность своим трудом, и рассматривать отношение равенства между ними, считая каких-то респондентов «равными» или «неравными» в зависимости от степени рассматриваемой удовлетворенности. Те же респонденты могут выступать как носители такого свойства, как «возраст». Ясно, что между ними может быть определено отношение равенства, однако респонденты, «равные» друг другу и первом случае, могут оказаться «неравными» во втором. Каждому объекту при измерении приписывается определенный элемент используемой математической системы. В социологии чаще всего используются числовые математические системы, т. е. такие системы, элементами которых являются действительные числа. Однако возможно аффективное использование и нечисловых математических систем1: частично упорядоченных множеств, графов, матриц и т. д. Адекватное измерение предполагает наличие общего представления о наблюдаемых объектах, об их изучаемых сторонах. Такое, представление даст возможность выделить отношения между объектами, которые должны отображаться в соответствующие отношения между элементами использующейся математической системы2. Поскольку при практическом осуществлении измерения социологи в подавляющем большинстве случаев используют числовые системы, остановимся на принципах их применения в социологии. Будем называть шкалой тот алгоритм, с помощью которого каждому наблюдаемому объекту ставится в соответствие некоторое число. Приписываемые же объектам числа назовем шкальными значениями этих объектов. Элементы используемых в социологии числовых систем, как правило, нельзя считать «полноценными» числами. Приведем пример. Предположим, что нас интересует отношение порядка между респондентами по их удовлетворенности своим трудом. Пусть процесс измерения состоит в следующем. Мы задаем каждому респонденту вопрос: «Удовлетворены ли Вы своим трудом?» с традиционным веером из пяти ответов (от «совершенно не удовлетворен» до «вполне удовлетворен»). Каждому ответу присвоим соответственно числа от 1. до 5. Ясно, что реальным отношениям между респондентами в таком случае отвечает лишь отношение порядка между числами. Другие же операции под этими числами, например их сложение, не имеют эмпирически интерпретируемого смысла. Другими словами, полученные шкальные значения не являются числами в обыденном значении этого понятия. Встает естественный вопрос: какими известными соотношениями между числами мы в подобных ситуациях можем пользоваться, чтобы, анализируя шкальные значения, можно было получать содержательные выводы? Для ответа на этот допрос необходимо в первую очередь четко представить себе характер числовых систем, использующихся в процессе измерения в социологии.
Неоднозначность шкальных значений. Допустимые преобразования и типы шкал. Единственное требование, предъявляемое к числам, служащим шкальными значениями, состоит в том, что рассматриваемые эмпирические отношения должны переходить в соответствующие им числовые отношения. Этого требования, как правило, бывает недостаточно для однозначного определения множества шкальных значений. Совокупности величин, полученных по используемым в социологии шкалам, обычно бывают определены лишь с точностью до некоторых преобразований этих величин, которые называются допустимыми преобразованиями соответствующих шкал; В соответствии со сложившейся в литературе традицией тип шкалы определяется соответствующим этой шкале множеством допустимых преобразований. Чтобы пояснить введенные определения, опишем типы наиболее часто использующихся в социологии шкал. Шкалы наименований (номинальные, классификационные). При использовании шкалы наименований объекты измерения распадаются на множество взаимно исключающих и исчерпывающих классов. Каждому классу даётся наименование, числовое обозначение которого является одним из шкальных значений. Шкала наименований получается, если в качестве моделируемых в процессе измерения эмпирических отношений выступают лишь отношения равенства и неравенства между объектами. Требования, предъявляемые к шкальным значениям, состоят в том, что равным объектам должно соответствовать одно и то же число, а неравным — разные числа. Поэтому номинальная шкала фактически задает некоторую классификацию исходных объектов. Один класс — это совокупность объектов, имеющих одно и то же шкальное значение. Номинальные шкалы можно определить как шкалы, допустимыми преобразованиями которых являются произвольные взаимно однозначные преобразования3, т. е. преобразования, сохраняющие отношения равенства и неравенства между числами. Изучаемые эмпирические отношения одинаково хорошо будут отражать, например, следующие совокупности шкальных значений: (1, 1, 2, 3, 4) и (15, 15, 14, 13, 12). Каждая из этих совокупностей получена из другой с помощью некоторого однозначного преобразования. Отметим, что даже при таком простейшем измерении к построению шкалы надо подходить с большой осторожностью. Получаемые классы должны иметь социологическую значимость. Ясно, что сначала исследователь должен решить, что он будет классифицировать, какие категории будут при этом исследоваться. Например, если изучаются респонденты как носители определенной профессии, то классифицировать их нужно по принадлежности к той или иной профессии. Предполагается, что каждой профессии произвольно приписывается число, причем разным профессиям соответствуют разные числа. Однако уже здесь проблема измерения (т. е. приписывания респондентам определенных чисел) не столь проста. Нельзя с предельной четкостью выделить всевозможные профессии или, по крайней мере, считать, что все профессии взаимно исключают друг друга. Например, неизбежно придется столкнуться с таким частным случаем, когда профессия будет комбинацией нескольких. И тогда встанет вопрос о соотнесении респондента, имеющего такую профессию, с некоторой группой профессий и обозначении ее числовым знаком. Порядковые шкалы (шкалы порядка). Порядковая шкала получается, если при осуществлении измерения моделируются не только эмпирические отношения равенства и неравенства между изучаемыми объектами, по и отношения порядка между ними. Порядковая шкала не только задает некоторую классификацию на множестве объектов, но и устанавливает определенный порядок между классами. Порядковые шкалы можно определить как шкалы, в качестве допустимых преобразований которых выступают произвольные монотонно возрастающие преобразования4. Последние образуют подсовокупность всех взаимно однозначных преобразований, включающую те из них, которые сохраняют отношение порядка между числами. Примером совокупностей шкальных значений, получающихся друг из друга с помощью некоторого монотонно возрастающего преобразования, могут служить совокупности (1, 3, 5, 4, 2) и (18, 20, 28, 24, 19). Интересующие нас отношения равенства, неравенства и порядка между объектами с одинаковым успехом отражены в любой из этих совокупностей. Ясно, что порядковые шкалы образуют подмножество номинальных шкал. Пример порядковой шкалы мы получим, если будем различать людей данной профессии по квалификации (сложности труда и т.д.). На практике часто не удается полностью упорядочить объекты изучаемой совокупности относительно того или иного интересующего исследователя свойства. Предположим, например, что изучается совокупность людей носителей свойства - «удовлетворенность специальностью», а более узко — свойства, содержащегося в вопросе «Удовлетворены ли Вы своей специальностью?» и пяти ответах на него от «полностью удовлетворен» до «совсем не удовлетворен». Обычно считается, что любую совокупность людей можно упорядочить в отношении данного свойства, т. е. что ответившие «специальностью полностью удовлетворен» выше по измеряемому качеству, чем те, кто ответил, что «специальностью удовлетворен» и т. д. Зачастую предполагаемого четкого различения оценок не наблюдается и респонденты не могут однозначно выбрать тот или иной ответ. В этом случае на помощь могут прийти частично упорядоченные множества. Шкальные значения, полученные по порядковой шкале, часто называют рангами. Интервальные шкалы (шкалы интервалов). Интервальные шкалы получаются, если в процессе измерения мы моделируем не только те отношения, которые моделируются при использовании порядковой шкалы, но и отношение равенства (или, что одно и то же, порядка) для разностей (интервалов) между изучаемыми объектами. Далеко не всегда в тех случаях, когда удается построить порядковую шкалу, удается построить и интервальную. Например, возьмем классификацию рабочих по разрядам. Известно, что первый разряд ниже второго, второй — третьего и т. д. (и это соответствует определенному эмпирическому отношению порядка между респондентами), т. е. разряды отвечают порядковой шкале. Однако сопоставлять дистанции между каждой парой разрядов все же нельзя. Интервальным шкалам соответствуют положительные линейные преобразования5, т. е. такие преобразования, которые, наряду с отношениями равенства, неравенства и порядка между числами сохраняют и отношения равенства и порядка между их разностями, (или, что то же самое, частное от деления любой такой разности на любую другую). Примером совокупности чисел, получающихся друг из друга с помощью положительного линейного преобразования (У = 3Х + 9), служат совокупности (5, 5, 2, 1, 2) и (24, 24, 15, 12, 15). Нетрудно проверить, что в этих совокупностях отражаются одни и те же отношения равенства, неравенства и порядка, как для чисел, так и для интервалов между ними (так, для первой совокупности 5 — 2 > 2 — 1, а для соответствующих шкальных значений из второй совокупности 24 — 15 > 15 — 12). Легко видеть также, что частные от деления величины одного интервала между шкальными значениями на величину другого не зависят от того, какую из рассматриваемых шкал мы выбираем (так, верно соотношение (5 – 2):(2-1)=(24-15):(15-12)=3). Это справедливо для любых интервальных шкал. Ясно, что положительные линейные преобразования являются под совокупностью монотонно возрастающих преобразований, а совокупность интервальных шкал — подмножеством шкал порядка. Главная трудность при построении интервальных шкал в социологии состоит в обосновании равенства или разности дистанций между объектами. Процедуры, позволяющие таким образом преобразовать шкальные значения порядковой шкалы, что равенство (порядок) расстояний между полученными числами можно будет трактовать как отражение соответствующего равенства (порядка) «расстояний», между изучаемыми объектами, носят название метризации шкалы (или «оцифровки» шкальных значений.)6. На практике известно много методов шкалирования, позволяющих получать интервальную шкалу «косвенным» образом, без отображения указанного отношения непосредственно в процессе измерения7. Шкалам отношений соответствуют положительные преобразования подобия8, составляющие подсовокупность положительных линейных преобразований, оставляющих без изменения отношения между числами (под отношением здесь понимается частное от деления одного числа на другое). Шкалу отношений получим, если будем требовать, чтобы в процессе измерения не только отношения между эмпирическими объектами отображались в соответствующие; числовые отношения, но и один и тот же объект отображался в 0. Подобная возможность иногда возникает в социологических исследованиях. Так, при изучении удовлетворенности респондентов своим трудом, вероятно, в качестве такого объекта имеет, смысл выбрать респондента, равнодушного к своей работе. Фиксацию такого нулевого объекта можно рассматривать как задание начала отсчета; шкальных значений. Поэтому можно сказать, что шкалы отношений образуют подмножество интервальных шкал, характеризующееся фиксацией начала отсчета. Неоднозначность совокупности шкальных; значений, полученных с помощью измерения по шкале отношений, иллюстрируется примером следующих двух совокупностей, отражающих одни и те же эмпирические отношения равенства, неравенства и порядка как между респондентами, так и между соответствующими интервалами и, кроме того, отвечающих одному и тому же началу отсчета (один и тот же объект (второй) в обоих случаях отображается в: (2, 0,—1,4, 1) и (3, 6,—3/2, 6, 3/2). Легко видеть также, что для обеих совокупностей частные от деления между шкальными значениями любых пар объектов одни и те же (2:4 = 3: 6 и т. д.). Ясно, что рассматриваемые совокупности получаются друг из друга с помощью некоторого положительного преобразования подобия (у = 3/2х). Шкалы разностей — это шкалы, которым соответствуют преобразования сдвига9. Ясно, что такие преобразования образуют подсовокупность положительных линейных преобразований. Шкалы разностей получаются из интервальных шкал при фиксации единицы измерения. Для большинства социологических шкал трудно задать естественным образом такую единицу (исключение составляют шкалы типа «возраст», «стаж работы», «доход» и некоторые другие). Однако шкалу разностей можно получить, например, при отыскании шкальных значений рассматриваемых объектов с помощью некоторых методов парных сравнений (см. гл. 7), Сказанное подытожено в схеме 1, где указаны допустимые преобразования описанных шкал и отражено соотношение их типов. Признаки, значения которых получены по порядковой или номинальной шкале, обычно называют качественными, а признаки, для получения значений которых использовалась шкала, тип которой ниже типа интервальной шкалы — количественными. В соответствии с имеющейся традицией будем говорить, что две шкалы позволяют достичь одного и того же уровня измерения, если эти шкалы являются шкалами одного типа (т. е. если соответствующие этим шкалам совокупности допустимых преобразований совпадают)10. Адекватность математических методов. Одним из основных вопросов, встающих перед исследователем после осуществления измерения, является вопрос о том, какие математические методы он имеет право применять для анализа полученных чисел. Представляется целесообразным считать разрешенными (далее допустимыми, адекватными) только такие методы, результаты, применения которых не зависят от того, по какой из возможных шкал получены исходные данные. Необходимым условием такой независимости является инвариантность этих результатов относительно допустимых преобразований используемых шкал. Основанием для такого подхода служит то, что именно такие результаты в принципе поддаются содержательной интерпретации, только они могут отражать реальные закономерности. Отметим, однако, что одной независимости результатов применения какого-либо метода от выбора конкретных используемых шкал отнюдь не достаточно для того, чтобы попытка их содержательной интерпретации увенчалась успехом. Необходимо также содержательное осмысление соответствующих результатов хотя бы для одной из возможных шкал. Подчеркнем, что понятие допустимости или недопустимости той или иной статистики (различных мер средней тенденции, мер разброса, коэффициентов связи между признаками и т. д.) является относительным. Все зависит от того, в каком «контексте», значения этой статистики используются, какие именно соотношения между этими значениями значимы для получения содержательных выводов. Так, сопоставление средних тенденций двух совокупностей может осуществляться с помощью сравнения средних арифметических значений некоторого признака по их величине, с помощью оценки разности (отношения) этих средних и т. д. И возможность использования средних арифметических значений зависит от того, какие именно соотношения между ними подлежат содержательной интерпретации. Подчеркнем следующее. Если удалось показать, что некоторое числовое соотношение можно содержательно проинтерпретировать, то не имеет значения, удастся ли при этом найти эмпирические аналоги отдельных входящих в это соотношение операций над числами. Например, можно делать содержательные выводы на основе сравнения по величине двух средних арифметических значений некоторого признака, никак не интерпретируя при этом суммы шкальных значений, вычисляемые в процессе нахождения средних арифметических. Как отмечалось выше, для проверки разрешенное любого соотношения необходимо убедиться в том, что это соотношение инвариантно относительно допустимых преобразований использовавшейся при измерении шкалы (или нескольких шкал, если исходные данные получены по разным шкалам, но мы такой случай рассматривать не будем). Однако на практике такая проверка бывает довольно сложной. Соответствующая проблема в теории измерений называется проблемой адекватности рассматриваемого числового соотношения. Аналогично можно говорить о проблеме адекватности результатов применения какого-либо математического метода. Естественно, что чем уже круг допустимых преобразований, тел большее количество математических соотношений оставляют эти преобразования без изменения. Другими словами, чем выше тип шкалы, чем выше уровень измерения, тем большее количество математических методов можно применять к шкальным значениям, получая при этом интерпретируемые результаты. Вопрос об адекватности используемых в социологии математических методов, как правило, является весьма сложным. Полученные к настоящему времени результаты касаются лишь небольшого числа методов. Рассмотрим некоторые из них. Прежде всего, остановимся на вопросе о корректности использования различного рода средних и коэффициентов связи между признаками. Ясно, что любую статистику можно использовать в произвольном «контексте» только в том случае, если ее значение остается инвариантным относительно применения к исходным данным любого допустимого преобразования соответствующей шкалы. Нетрудно показать, что для номинальной шкалы, удовлетворяющей такому условию, средней будет мода, для порядковой шкалы — медиана и другие квантили. Значение среднего арифметического остается без изменения лишь для абсолютных шкал. Поэтому обращение с ним требует известной осторожности. Однако можно показать11, что сравнивать по величине средние арифметические значения какого-либо признака можно уже в том случае, когда исходные данные получены по интервальной шкале (другими словами, результаты такого сравнения не изменяются при применении к исходным данным произвольного положительного линейного преобразования). Относительно коэффициентов связи можно сказать следующее, Инвариантными относительно допустимых преобразований рассматриваемых шкал являются значения коэффициентов связи, рекомендуемых в § 6 настоящей главы для соответствующего уровня измерения. Так, значение коэффициента корреляции не изменяется при применении к исходным данным произвольного положительного линейного преобразования; значения коэффициентов Кендалла t и Спирмена r, инвариантны относительно произвольного монотонно возрастающего преобразования входящих в них величин; значения коэффициентов х2> Ф Р, К, Т инвариантны относительно произвольного взаимно однозначного преобразования исходных данных12.
2. Группировка материала статистических наблюдений Измеряя характеристики объекта, исследователь собирает первичный статистический материал. Дальнейшая его задача состоит в систематизации и обобщении результатов измерения для выявления характерных черт, существенных свойств тех или иных типов Явлений, обнаружения закономерностей изучаемых процессов и проверки гипотез, лежащих в основе исследования. В основе используемых методов обработки полученных материалов исследования лежит предварительное упорядочение первичных данных главным образом при помощи статистической группировки и составления статистических таблиц.
Статистическая группировка. Распределение изучаемой совокупности на однородные группы по существенным для нее признакам (характеристикам) называется статистической группировкой. Основное назначение группировки состоит, во-первых, в установлении численности каждой отдельно взятой части совокупности, расчленённой в соответствии со значениями определенного признака (или нескольких признаков), и, во-вторых, в изучении влияния причин и зависимости явлений. Главным вопросом метода группировки является правильный выбор группировочных признаков. Могут быть получены превосходные данные, по эти сведения пропадут совсем, если их группировка будет произведена неправильно. Поэтому при выборе признаков для отграничения явлений одного типа от явлений других типов необходимо руководствоваться не субъективными построениями, а содержательным анализом особенностей социальных явлений, задачами исследования, а также видом признаков, с которыми имеет дело исследователь. Основные группировки должны тщательно разрабатываться уже при составлении программы социологического исследования с необходимостью отражать ключевые гипотезы. Ряды распределения. Результат группировки единиц наблюдения по какому-либо признаку называется статистическим рядом. Обозначим группировочный признак х. Пусть это будет уровень образования каждого человека в данном списке лиц. Получим неупорядоченный ряд результатов отдельных наблюдений: 10, 5, 7, 8, 10, 10 10 (классы). Если отдельные наблюдения расположить в порядке возрастания указанных выше значений признака, то получим вариационный ряд: 5, 7, 8, 10, 10, 10, 10. По вариационному ряду количественного признака можно подсчитать, как часто каждое значение этого признака встречается в совокупности. В результате получим частотное распределение для данного признака. Иногда его называют эмпирическим или статистическим распределением. Для вышеприведенного примера частотное распределение выглядит так: Условимся каждое, отдельное значение признака х обозначать х1, х2,… , xk (в данном примере это 5, 7, 8, 9 и 10 классов). Абсолютное число, показывающее, сколько раз встречается то или иное значение признака х, называется частотой и обозначается соответственно n1, n2, ..., nk. Относительной частотой называется доля значений признака в общем числе наблюдений и обозначается m1, .,., mk. Например, для приведенного частотного ряда частота наибольшего значения признака (10 классов) равна 4, а относительная частота m5 = 4/8 = 0,5. Относительную частоту обычно выражают в процентах (mk = 50%). Сгруппированные данные. Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значения признаков объединяются в группы (интервалы). В этом случае частоты соотносят уже не с каждым отдельным значением признака, как это делалось в предыдущем примере, а с рядом значений, попадающих в определенный интервал. Например, распределение уровня образования в вышеприведенном примере может быть представлено в виде интервального ряда следующим образом: Частотное распределение с не сгруппированными значениями иногда называют дискретным рядом распределения. При построении интервальных рядов большое значение имеет выбор типа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, что группировка должна наиболее полно выявлять существенные свойства рядов распределения. Существующие формальные правила выбора оптимальной величины интервалов редко оказываются полезными при работе с социологическими данными13. Как правило, приходится делать выбор между двумя крайностями: слишком крупные интервалы для данного объема выборки скрадывают многие нюансы в описании явления, а слишком дробные ведут к статистически незначимым малым частотам внутри интервала. Интервальные ряды распределения могут строиться с равными и неравными интервалами. Неравные интервалы применяются при неравномерном распределении частот значений группировочного признака — для выделения качественно отличных типов явлений. Например, выбор интервалов при группировке данных распределения совокупности опрошенных по возрасту можно основываться на этапах жизненного цикла. При группировке семей по признаку «число книг в семье», опираясь на информацию ранее проведенных исследований о том, что чаще всего встречаются библиотеки с числом книг по 500 и реже — библиотеки, насчитывающие 10000 книг, целесообразно установить неравные интервалы группировки, например такие: 1—50, 51—100, 101—200, 201—300, 301—500, 501—700, 701-1000, 1001-2000, 2001—5000, 5001-10000. Если у исследователя нет предварительной информации, о характере распределения по тому или иному признаку, то следует задавать равные интервалы. Равные интервалы также наиболее удобны при использовании методов математической статистики. Опыт показывает, что по каждому из признаков не следует брать более 20 группировочных интервалов. При образовании интервалов необходимо точно обозначить количественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы. Поэтому, как правило, необходимы дополнительные указания о том, считать ли граничные значения интервалов «включительно» или «исключительно». Довольно часто социологу приходится сталкиваться с ситуацией, когда необходимо провести перегруппировку материала, задав другие интервалы, но нет возможности при этом обратиться к первоначальным статистическим данным. При расщеплении интервала на несколько частей приходится вводить априорное предположение о частотном распределении внутри интервала, поскольку истинное распределение неизвестно. Самым простым является предположение о равномерности частотного распределения по отдельным значениям признака. Другие формы распределения требуют достаточно громоздких вычислений14. Статистические таблицы. Предусмотренные программой исследования и методиками обработки группировки объектов по каждому из признаков кладутся в основу статистических таблиц, обобщающих исходные данные. В дальнейшем составляют более сложные таблицы, позволяющие сопоставлять ряды распределений, и, наконец, комбинационные таблицы, в которых три или более признака перекрещиваются, комбинируются. По таким таблицам устанавливаются, измеряются и анализируются связи между признаками исследуемой совокупности объектов. Построение таблицы подчинено определенным правилам. Основное содержание таблицы должно быть отражено в названии (круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы измерения). Таблицы бывают простые, групповые и комбинационные. Простые таблицы представляют собой перечень, список, отдельных единиц совокупности о количественной (или качественной) характеристикой каждой из них в отдельности. В групповых таблицах содержится группировка единиц совокупности по одному признаку, а в комбинационных — по двум и более признакам. Примером комбинационной разработки статистической таблицы может служить табл. 1. Такая таблица представляет собой нечто гораздо большее, чем простой перечень данных, она является способом и вместе с тем результатом определенной организации данных. Хорошо сконструированная таблица позволяет исследователю более четко представить и описать смысл и сущность изучаемого им социального явления. Таким образом, метод группировки и представление материала в виде статистических таблиц уже дают определенные возможности для изучения социологических данных. С другой стороны, он является совершенно необходимым средством для дальнейшего анализа и применения более тонких статистических методов.
3. Графическая интерпретация эмпирических зависимостей
Частотные распределения изображаются также в виде диаграмм и графиков. Главным достоинством графического изображения является его наглядность. Графическая интерпретация эмпирических зависимостей основана на знании технических правил построения рядов, типов и свойств теоретических распределений. Здесь мы рассмотрим графика вариационных рядов: гистограмму, полигон и кумуляту распределения. Гистограмма. Гистограмма — это графическое изображение интервального ряда. По оси абсцисс откладывают границы интервалов, на которых строят прямоугольники с высотой, пропорциональной плотностям распределения соответствующих интервалов (пропорциональной числу единиц совокупности, приходящейся на единицу длины интервала). При равных интервалах плотности распределения пропорциональны частотам, которые и откладываются по оси ординат (рис. 1, табл. 2). На гистограмме общее число лиц в каждой категории выражается площадью соответствующего прямоугольника, а общая площадь равна численности совокупности (так как гистограмма на рис. 1 строится по относительным частотам, то площадь равна единице (100%). Поэтому для интервалов 4—6, 6—8, 8—10 в табл. 2, которые в 2 раза больше предыдущих, нужно брать высоты прямоугольников в 2 раза меньшие. При нанесении на графике последнего открытого интервала
«10 лет и более» условно будем считать верхней его границей 40 лет. Тогда ширина интервала равна 30годам, а плотность распределения — около 0,5% (15,7 : 30 ~ 0,5). Полигон распределения. Для построения полигона величина признака откладывается на оси абсцисс, а частоты или относительные частоты — на оси ординат. Из точек, соответствующих значениям признака, восстанавливаются перпендикуляры, равные по высоте частотам. Вершины перпендикуляров соединяются прямыми линиями. Для интервального ряда ординаты, пропорциональные частоте (или относительной частоте) интервала, восстанавливаются перпендикулярно оси абсцисс в точке, соответствующей середине данного интервала. Следующие данные распределения рабочих в возрасте до 24 лет по тарифным разрядам (высококвалифицированные рабочие сельхоз-машиностроения)15 дают возможность построить полигон распределения (рис. 2):
Условно принято крайние ординаты признака соединять с серединами примыкающих интервалов (на рис. 2 эти замыкающие линии нанесены пунктиром). Однако для распределения, где концентрация событий увеличивается на концах полигона, такое изображение может привести к ложным представлениям о существе явления. Кумулята. Для графического изображения вариационных рядов используются также кумулятивные кривые. При построении кумуляты, как и гистограммы, на оси абсцисс откладываются границы интервалов (либо значения дискретного признака), а на оси ординат — накопленные частоты (либо относительные частоты), соответствующие верхним границам интервалов. Таким образом, отличие кумуляты от гистограммы в том, что на графике кумуляты столбики, пропорциональные частотам, последовательно накладываются один на другой, так что высота последнего столбика является суммой высот столбиков гистограммы. Кумулята округляет индивидуальные значения признака в пределах интервала и представляет собой возрастающую ломаную линию. Кумулята позволяет быстро определить процент лиц, находящихся ниже или выше заданной величины признака. Например, по данным табл. 3, процент семейств, в которых муж старше cyпруги не более чем на 5 лет, равен 65 (рис. 3, точка А).
Вид (форма) кривых распределений. Кривые, полученные в результате графического представления эмпирических данных, могут иметь разнообразную форму. Среди них можно выделить относительно небольшое количество простых типов, Некоторые возможные формы распределений приведены на рис. 4, Анализ формы кривых иногда помогает в выявлении внутренней, скрытой структуры исследуемой совокупности. Например, можно предположить, что форма кривой обусловлена наложением двух кривых: а и б, иначе говоря, предположить, что существует третья скрытая переменная (или группа переменных), детерминирующая расчленение совокупности на две группы. Существует множество конкретных примеров того, как графический анализ стимулирует дальнейшее развитие исследовательской мысли. Теоретическое распределение. Сбор эмпирической информации может быть осуществлен двумя путями: исследованием всей совокупности социальных объектов, которые являются предметом изучения в пределах, очерченных программой социологического исследования, и изучением лишь части этих объектов. В первом случае исследование называется сплошным, а множество социальных объектов — генеральной совокупностью, во втором исследование называется выборочным, а выделенная часть объектов — выборкой16. Одна из основных задач статистики состоит в том, чтобы по данным выборки оценить параметры генеральной совокупности. Гистограмма и полигон распределения, построенные на основу эмпирических данных выборки, позволяют выявить лишь приближенную картину реального распределения в генеральной совокупности. При увеличении выборочной совокупности и все большем дроблении величины интервалов эмпирическое распределение в виде гистограммы или полигона все более приближается к некоторой кривой, называемой кривой распределения. Если группировочный признак является непрерывной величиной, тo в предельном случае при, постепенном уменьшении величины интервала полигону и гистограмме будет соответствовать некоторая гладкая кривая (рис. 5). Эта кривая распределения, являющаяся предельным случаем полигона данного эмпирического распределения, называется по установившейся терминологии кривой плотности распределения. Обозначим соответствующую функцию f(z). В терминах теории вероятностей плотность распределения можно трактовать следующим образом: вероятность (р) того, что случайная величина (x) примет значение из достаточно малого интервала (XiXi+1), равна произведению длины интервала на высоту прямоугольника (f(xi)), т. е. Для интервала произвольной длины суммированием этих значений получим, что Отсюда приходим к определению фундаментального понятия теории вероятностей — функции распределения (F) случайной величины (x), которая по определению есть
Знание функции распределения дает исчерпывающее представление о поведении совокупности в отношении изучаемого признака, поэтому определение типа распределения признаков представляет одну из задач исследования массовых явлений.
4. Средние величины и характеристики рассеяния значений признака Группировка и построение частотного распределения — лишь первый этап статистического анализа полученных данных. Следующим шагом обработки является получение некоторых обобщающих характеристик, позволяющих глубже понять особенности объекта наблюдения. Сюда относится, прежде всего, среднее значение признака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математической статистике различают несколько видов средних величин: среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т. п.17 Среднее значение признака. Среднее есть абстрактная типическая характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индивидуальных особенностей и позволяет представить в одной величине, некоторую общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наиболее часто используемой считается среднее арифметическое. Среднее арифметическое. Среднее арифметическое есть частное от деления суммы всех значений признака на их число. Обозначается оно х. Формула для вычисления имеет вид
По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке, из 10 человек: Формула (1) для сгруппированных данных преобразуется в следующую: где nt — частота для i-го значения признака. Если находят среднюю для интервального ряда .распределения, то в качестве значения признака для каждого интервала условно принимают его середину. Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3). Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля. Пример. Вышеприведенные данные о количестве прочитанных газет (см. с. 159) сгруппируем следующим образом: Медиана. Медианой называется значение признака у той единицы совокупности, которая расположена в середине ряда частотного распределения. Если в ряду четное число членов (2k), то медиана равна среднему арифметическому из двух серединных значений признака. При нечетном числе членов (2k+ 1) медианным будет значение признака у (k + 1) объекта. Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы на данном предприятии:
Серединные ранги 5 и 6, поэтому медиана равна В интервальном ряду с различными значениями частот вычисление медианы распадается на два этапа: сначала находят медианный интервал, которому соответствует первая из накопленных частот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле где Х0 — начало (нижняя граница) медианного интервала; d — величина медианного интервала; n = Snt — сумма частот (относительных частот) интервалов; nн — частота (относительная), накопленная до медианного интервала; nмe — частота (относительная) медианного интервала. Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них, превышающая половину совокупности (100/2 = 50%), равна 57,9%. Следовательно, медиана принадлежит интервалу 3—4 года. Поэтому Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньшее этой величины, а другие 50%—большее. Медиана может быть легко определена графически по кумуляте распределения (см. рис. 3). Медиана может быть применена для дискретных переменных, хотя дробные значения часто не имеют непосредственной содержательной интерпретации. По данным распределения рабочих по тарифным разрядам см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу18. Получим Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50%—больший. Медиана, как уже отмечалось, делит упорядоченный вариационный ряд на две равные по численности группы. Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д. Квантили, которые делят ряд на 4 равные по объему совокупности, называются квартилями. Различают нижний Q1/4 и верхний квартили (рис. 6). Величина Q1/2 является медианой. Вычисление квартилей совершенно аналогично вычислению медианы: где х0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nн — частота (относительная частота), накопленная до квартального интервала; nQ — частота (относительная частота) квартального интервала; d — величина квартального интервала. Процентили делят множество наблюдений на 100 частей с равным числом наблюдений в каждой. Децили делят множество наблюдений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте). Мода. Модой в статистике называется наиболее часто встречающееся значение признака, т. е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений. В дискретном ряду мода (Мо) — это значение с наибольшей частотой. В интервальном ряду (с равными интервалами) модальным является класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле где х0 — нижняя граница модального интервала; d — величина интервала; n- — частота интервала, предшествующего модальному; nМо — частота модального класса; n+ — частота интервала, следующего за модальным. В совокупностях, в которых может быть произведена лишь операция классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственный способом указать некий центр тяжести совокупности. К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величины от интервала группировки; возможность существования в ряду распределения нескольких модальных значений признака (см., например, рис. 4, в). Сравнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следующих условий: цели усреднения, вида распределения, уровня измерения признака, вычислительных соображений. Цель усреднения связана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней может повлиять и вид распределения. Например, для ряда с открытыми конечными интервалами нельзя вычислять среднее арифметическое, но если распределение близко к симметричному, можно подсчитать тождественную ему в этом случае медиану. Показатели колеблемости (вариации) значений признаков. Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметические, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характеристикой такого разброса служат показатели колеблемости — разность между максимальным и минимальным значениями признака в некоторой совокупности (вариационный размах), а также другие показатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п. Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется но формуле, Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается s. Геометрически среднее квадратическое отклонение является показателем того, насколько в среднем кривая распределения размыта относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак. При ручном счете для упрощения вычислений дисперсию Ы рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел (аi) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; —1, —2 и т, д. (табл. 4). В качестве промежуточного результата по формуле (7) получаем среднее арифметическое. Величина дисперсии получается подстановкой промежуточных величин из табл. 4 в формулу (8). Среднее арифметическое находится по формуле19 Приведенные вычисления показывают, что при среднем возрасте» 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%. Среднее абсолютное отклонение. Эта мера вариации представляет собой среднее арифметическое из абсолютных величин отклонений отдельных значений признака от их среднего арифметического, нения часто выражаются через соотнесение в процентах к среднему арифметическому, т. е. в виде относительных величин. Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициентом, вариации (V): Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше. Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низших уровней, строго говоря, некорректно и требует тщательной интерпретации полученных результатов. Вариации качественных признаков. Если признак имеет k взаимоисключающих градаций, то для вычисления индекса качественной вариации применяется процедура, поясняемая следующим примером. Пусть получено следующее распределение ответов (взаимоисключающих) па вопросы А, В и С (колонка 1): Во вторую колонку запишем такие частоты, которые получились бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то j = 0, что означало бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы. Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно подсчитывается по формуле (14). Она отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обозначается s2: Другой мерой вариации признака (независимо от уровня измерения) может служить так называемая энтропия — мера неопределенности, вычисляемая по формуле Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами: а) энтропия равна нулю лишь в том случае, если вероятность получения одного из значения xi признака х равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обладает неопределенностью, так как достоверно известно одно единственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной; б) наибольшей энтропией обладает признак, когда все значения xi равновероятны. Для признака с k градациями Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке.
5. Нормальное распределение. Статистические гипотезы
Адекватное применение количественных методов, вошедших в практику социологических исследований, в той или иной степени впирается на предположение, что изучаемый признак (или совокупность признаков) подчиняется определенному статистическому закону распределения. Таким наиболее часто встречающимся распределением является нормальный закон, представление о котором дано здесь в очень краткой форме. Вторая группа вопросов, рассмотренных в этом разделе, связана с проверкой гипотез. Можно выделить две функции статистических процедур: во-первых, это описание элементов совокупности, во-вторых, помощь исследователю в принятии некоторых решений о них. В предыдущих разделах этой главы их рассмотрение было связано с дескриптивной функцией статистики. Здесь же кратко описаны основные понятия и принципы статистического вывода. Нормальное распределение. Наиболее широко известным теоретическим распределением является нормальное, или гауссовское, распределение. Нормальное распределение признака наблюдается в тех случаях, когда на величину его значений действует множество случайных независимых или слабозависимых факторов, каждый из которых играет в общей сумме примерно одинаковую и малую роль (т. е. отсутствуют доминирующие факторы). Функция плотности гауссовского распределения имеет вид где s2 — дисперсия случайной величины (s2 — это теоретическая дисперсия, отличающаяся от s2, вычисляемой по выборочным данным); m — среднее значение (математическое ожидание) (рис. 7). В практических расчетах часто используется так называемое правило трех сигм, которое заключается в том, что лишь 0,26% всех значений нормально распределенного признака лежат вне интервала m± Зs, т. е. почти все значения признака укладываются в интервале из шести сигм (рис. 8). Статистические гипотезы. Статистической называют гипотезу о виде неизвестного распределения либо о параметрах известных распределений20. Так, статистической будет гипотеза о том, что переменная в генеральной совокупности распределена по нормальному закону. Проверяемую гипотезу называют нулевой (основной) гипотезой и обозначают Я0. Наряду с нулевой рассматривается конкурирующая гипотеза Я, (альтернативная), которая ей противоречит. Статистический критерий и проверка гипотез. Для проверки нулевой гипотезы (используется специально подобранная случайная величина, точное либо приближенное распределение которой известно и обычно сведено в таблицы. Эта величина называется статистическим критерием. Обозначим его пока К. Для критерия К фиксируется так называемая критическая область, т. е. совокупность значений критерия, при. которых нулевую гипотезу отвергают. Точка Ккрназывается критической, если она отделяет критическую область от области принятия гипотезы. Различают правостороннюю, левостороннюю и двустороннюю критические области. Принятие или отвержение гипотезы производится на основе соответствующего статистического критерия с определенной вероятностью. Считают, что нулевая гипотеза справедлива, если вероятность того, что критерий К примет значение, большее Ккр, т. е. попадет в критическую область, равна выбранному значению вероятности a т. е. Принятая вероятность а называется уровнем значимости. Практически принятие или отвержение нулевой гипотезы проводится следующим образом: выбирается соответствующий критерий (этот вопрос будет обсуждаться далее); вычисляется наблюдаемое значение критерия КИ, исходя из эмпирического распределения; выбирается уровень статистической значимости (обычно 0,05 или 0,01). По таблице распределения критерия К для данного уровня значимости находят критическую точку Ккр. Если Кя > КК1>, нулевую гипотезу отвергают, если же КИ< Кку, то ее отвергать нет основания. Делая такие выводы (т. е. принимая или отвергая гипотезу), можно совершить ошибки двух типов: отвергнуть гипотезу, когда она верна; принять ее, когда она неверна. Поэтому при принятии гипотезы было бы неверным считать, что она тем самым полностью доказана. Для большей уверенности необходимо ее проверять другими способами (например, увеличить объем выборки). Отвергают гипотезу более категорично, чем принимают. Примеры статистических гипотез: а) нормальное распределение имеет заданное среднее и дисперсию либо имеет заданное среднее (о дисперсии ничего не говорится); б) распределение нормальное либо два неизвестных распределения одинаковы. В качестве критериев чаще всего используются случайные величины, распределенные нормально (Z — критерий), по закону «Фишера (F — критерий Фишера), по закону Стьюдента (t — критерий Стьюдента), по закону хи-квадрат (критерий c2) и т. д. В качестве конкретного примера рассмотрим применение критерия хи-квадрат для проверки гипотезы о виде распределения изучаемого признака. Критерий хи-квадрат. Популярность критерия хи-квадрат обусловлена главным образом тем, что применение его не требует предварительного знания закона распределения изучаемого признака. Кроме того, признак может принимать как непрерывные, так и дискретные значения, причем измеренные хотя бы на номинальном уровне. Если закон распределения признака неизвестен, но есть основания предположить, что он имеет определенный вид А, то критерий X2 позволяет проверить гипотезу: исследуемая совокупность распределена по закону А. Для проверки такой гипотезы сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в предположении определенного распределения А) частоты. Выпишем эти частоты: Как правило, эмпирические и теоретические частоты будут различаться. Возможно, что наблюдаемое различие случайно (статистически незначимо) и объясняется либо малым числом наблюдений, либо способом их группировки, либо иными причинами. Но возможно, что расхождение частот значимо и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о характере распределения значений рассматриваемых признаков, генеральной совокупности. Критерий c2 отвечает на вопрос, случайно или пет такое расхождение частот. Как любой критерий, c2 не доказывает справедливость гипотезы, а лишь с определенной вероятностью а устанавливает ее согласие или несогласие с данными наблюдениями. , Критерий c2 имеет вид Критическая точка распределения c2 находится (см. табл. Б приложения} по заданному уровню значимости а и числу степеней свободы df. Число степеней свободы находят по формуле df=k – l – r, где k — число интервалов вариационного ряда; r— число параметров предполагаемого распределения, которые оценены по данным выборки (например, для нормального распределения оценивают два параметра: m и s2). Рассмотрим пример, когда признак оценивался в терминах «очень низкий», «средний», «очень высокий» и был получен следующий ряд распределения для этих трех категорий: Проверим гипотезу о том, что в генеральной совокупности значения этого признака распределены равномерно. Теоретическое распределение для этих групп получим, если предположим, что эти категории независимы, т. е. респондент с одинаковой вероятностью может попасть в любую группу. Очевидно, ожидаемая (теоретическая) частота будет равна 24/3 = 8 человек. Таким образом, имеем следующие эмпирические и теоретические частоты: Проверяется гипотеза, что число респондентов во всех трех категориях одинаково, т. е. отличие распределения от равномерного статистически незначимо.
По таблице распределения c2, например, для уровня значимости 0,05 и степени свободы, равной df = 3 — 1 = 2, находим критическую точку c2 кр = 5,991. Таким образом, наблюдаемое значение c2 меньше c2 кр следовательно, данные наблюдений согласуются с нулевой гипотезой и не дают оснований ее отвергнуть. Хи-квадрат критерий применим и для проверки нулевой гипотезы об отсутствии связей между признаками в случае, если эмпирические данные сгруппированы не по одному, как выше, а гкг нескольким признакам. Например, пусть имеется выборка в 190 человек, чье мнение относительно какого-то определенного вопроса исследовалось (табл. 5). Расчленим эту выборку на три независимых категории по возрасту. Рассмотрим следующие гипотезы: — не существует различия мнений относительно этого вопроса среди различных возрастных групп; Н—существует различие. Проверим гипотезу для уровня значимости а = 0,05. Для нахождения ожидаемой (теоретической) частоты в любой клетке таблицы необходимо просто перемножить соответствующие маргинальные частоты и разделить произведение на итоговую сумму. Например, ожидаемая частота для клетки (а) равна
Для нашего примера df= (4 — 1)(3 — 1) = 6. По табл. Б приложения находим, что c2 кр = 16,812. Следовательно, нужно отвергнуть гипотезу о том, что нет различий в мнении среди неодинаковых возрастных групп, т. е. можно предположить, что существует значимая статистическая взаимосвязь между тем, к какой возрастной группе принадлежит респондент, и тем мнением, которое он высказывает. Однако величина c2 не говорит о силе связи между переменными, а лишь указывает на вероятность существования такой связи. Для Определения интенсивности связи необходимо использовать Соответствующие меры связи. Для корректного применения методов, основанных на c2, исследователь должен обеспечить выполнение следующих условий. Выборку необходимо получить из независимых наблюдений. Данные могут быть измерены на любом уровне, но ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если же частоты оказываются менее 5, то необходимо либо уменьшить степень дробности группировки признаков, объединив соседние категории, либо обратиться к другому критерию21.
6. Статистические взаимосвязи и их анализ
Понятие о статистической зависимости. Исходя из известного положения исторического материализма о всеобщей взаимозависимости и взаимообусловленности явлений общественной жизни, социолог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, относящихся к тому или иному социальному процессу и изучить существующие между ними зависимости. Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические. Закономерности массовых общественных явлений складываются под влиянием Множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в статистике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотрены очень кратко. В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тесноте (плотности) взаимосвязи. В табл. 7 приведено эмпирическое распределение заработной платы рабочих в зависимости от общего стажа работы (условные данные) для выборки в 25 человек, а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, существует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в изменении значений признаков и направление связи между изучаемыми признаками. Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается с помощью уравнений регрессии. Рассмотрим две величины х и у, такие, например, как на рис. 9. Зафиксируем какое-либо значение переменной х, тогда у принимает целый ряд значений. Обозначим у среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины ух от x называется уравнением регрессии у по х: Аналогичным образом можно дать геометрическую интерпретацию регрессионному уравнению22 Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убывании) другой. Эта тенденция проявляется на основе некоторого числа наблюдений, когда из общей, массы выделяются, контролируются, измеряются главные, решающие факторы. Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелинейную регрессии. На рис. 10, 11 приведены графики линейной и криволинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величин. Направление и плотность (теснота) линейной связи между двумя переменными измеряются с помощью коэффициента корреляции. Меры взаимозависимости для интервального уровня измерения. Наиболее широко известной мерой связи служит коэффициент корреляций Пирсона (или, как его иногда называют, коэффициент корреляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента г, состоит в том, что регрессионные уравнения для изучаемых переменных имеют линейную форму23, т. е. где у — среднее арифметическое для переменной у; х — среднее арифметическое для переменной х; b1 и b2 - некоторые коэффициенты. Поскольку вычисление коэффициента корреляции и коэффициентов регрессии b1 и b2 проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные регрессионные модели24.
Выборочные коэффициенты регрессии и корреляции вычисляются по формулам Здесь s2x —дисперсия признака х; s2x— дисперсия признака у. Величина sxy, называется ковариацией х и у. Расчет r для не с группированных данных. Для вычислительных целей эти выражения в случае не сгруппированных данных можно переписать в следующем виде: Рассчитаем коэффициент корреляции и коэффициенты регрессии для данных табл. 7: Тогда уравнение регрессии имеет вид Линии регрессии y = F(x) изображены на рис. 10-. Отсюда видно, что между заработной платой и общим стажем работы существует прямая зависимость: по мере увеличения общего стажа работы на предприятии растет и заработная плата. Величина коэффициента корреляции довольно большая и свидетельствует о положительной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профессионального опыта. Коэффициент корреляции по определению является симметричным показателем связи: rxy = ryx. Область возможного изменения коэффициента корреляции г лежит в пределах от +1 до —1. Вычисление r для сгруппированных данных. Для сгруппированных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем также начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз. Для условных данных, помещенных в табл. 8, за нулевую точку отсчета выберем значение у, равное 64, а по x — значение 134,5. Тогда коэффициент корреляции определяется по следующей формуле:
Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения Snijaxby вычислим последовательно все произведения частоты в каждой клетке таблицы на ее координаты. ТакВ соответствии с формулой вычисляем Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы. Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффициент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0. Если гипотеза H0 (r = 0) будет отвергнута, говорят, что величина коэффициента корреляции статистически значима (т. е. эта величина не обусловлена случайностью) при уровне значимости a. Для случая, когда п < 50, применяется критерий t, вычисляемый по формуле Распределение t дано в табл. В приложения. Если п > 50, то необходимо использовать Z-критерий В табл. А приложения приведены значения величины ZKp для соответствующих a. Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число наблюдений п — 25 и нужно применять критерий t). Величина r (см. табл. 7) равна 0,86. Тогда Для уровня значимости a = 0,01 ZKp = 2,33 (см. табл. А приложения). Поскольку Z > ZKp, мы должны констатировать, что коэффициент корреляции г = 0,86 значим и лишь в 1 % случаев может оказаться равным нулю. Аналогичный результат дает и проверка по критерию t для а = 0,01 (односторонняя область); tкр— 2,509, t выборочное равно 8,08. Другой часто встречающейся задачей, является проверка равенства на значимом уровне двух коэффициентов корреляции. i = г2 при заданном уровне а, т. е. различия между r1 и r2 обусловлены лишь колебаниями выборочной совокупности. Критерий для проверки значимости следующий: где значения zrj и zr находят по табл. Д приложения для r1 и r2. Значения ZКp определяют по табл. А. приложения аналогично вышеприведенному примеру. Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у = а + bх. Если исследователь изучает влияние нескольких переменных х1, х2, ..., хk результатирующий признак y, то возникает необходимость в умении строить регрессионное уравнение более общего вида, т. е. где a, b1,. b2, ..., bk — постоянные коэффициенты, коэффициенты регрессии. В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенту регрессии а, b1, b2…bк ; б)какую интерпретацию можно приписать этим коэффициентам; в) оценить тесноту связи между у и каждым из Xi в отдельности (при элиминировании действия остальных); г) оценить тесноту связи между у и всеми переменными х1, ..., xк в совокупности. Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образования (хi) и возраста (х2) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида: При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования п человек получены эмпирические значения, сведенные в следующую таблицу (в каждом столбце представлены не сгруппированные данные): Каждое значение переменной в таблице преобразуем по формулам Коэффициенты с1 и сгнаходятся по следующим формулам с1 и с2 называются стандартизированными коэффициентами регрессии. Следовательно, зная коэффициенты корреляции между изучаемыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения rij из следующей таблицы25; Коэффициенты исходного регрессионного уравнения b0, b1 и b2 находятся по формулам Подставляя сюда данные из вышеприведенной таблицы, получим b1= 3,13; b2= -0,17; b0= - 8,56. Как же следует интерпретировать это уравнение? Например, значение b2 показывает, что в среднем недельный бюджет свободного времени при увеличении возраста на один год и при фиксированном признаке Xi уменьшается на 0,17 час. Аналогично интерпретируется b1. (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве (у, xt, х2). Коэффициенты х1 и х2 можно в то же время рассматривать и как показатели тесноты связи между переменными у и, например, Xi при постоянстве хг. Аналогичную интерпретацию можно применять и к стандартизированным коэффициентам регрессии сi. Однако поскольку ci вычисляются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между переменными, измеряемыми в различных единицах. Например, в вышеприведенном примере Xi измеряется в классах, a x2 — в годах. C1 и с2 позволяют сравнить, насколько z1 теснее связан с у, чем хг26. Поскольку коэффициенты bi и сi измеряют частную одностороннюю связь, возникает необходимость иметь показатель, характеризующий связь в обоих направлениях. Таким показателем является частный коэффициент корреляции Для рассматриваемого примера ry1.2 = 0,558, rу2.1 i = —0,140. Для любых трех переменных x1, х2, х3 частный коэффициент корреляции между двумя из них при элиминировании третьей строится следующим образом: Аналогично можно определить и частные коэффициенты корреляции для большего числа переменных (r12, 34 ...). Однако ввиду громоздкости вычисления они применяются достаточно редко. Для характеристики степени связи результатирующего признака у с совокупностью независимых переменных служит множественный коэффициент корреляции R2y , который вычисляется по формуле (иногда он выражается в процентах) Так, для вышеприведенного примера он равен Множественный коэффициент корреляции показывает, что включение признаков х1 и х2 в уравнение на 32% объясняет изменчивость результатирующего фактора. Чем больше Rt, тем полнее независимые переменные х2 ..., xk описывают признак у. Обычно служит критерием включения или исключения новой переменпой в регрессионное уравнение. Если Л мало изменяется при включении новой переменной в уравнение, то такая переменная отбрасывается. Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными является корреляционное отношение h2. Корреляционное отношение h2у/х определяется через отношение межгрупповой дисперсии к общей дисперсии по признаку у: где уi — среднее значение i-ro y-сечения (среднее признака у для объектов, у которых x=xi, т. е. столбец «г»); xi —среднее значение i-го x-сечения т. е. строка «i» nyi —число наблюдений в y сечении; nXi — число наблюдений в x-сечении; у — среднее значение у. Величина h2у/х показывает, какая доля изменчивости значений у обусловлена изменением значения х. В отличие от коэффициента корреляции h2у/х не является симметричным показателем связи, т. е, h2у/х не равно h2х/y. Аналогично определяется корреляционное отношение х по у27. Пример. По данным таблицы сопряженности (табл. 9) найдем h2у/х. Вычислим общую среднюю Сравнение статистических показателей r и h2у/х. Приведем сравнительную характеристику коэффициента корреляции (будем сравнивать r2) и корреляционного отношения h2у/х. а) r2 = 0, если x и у независимы (обратное утверждение неверно); б) r2 =h2у/х =1 тогда и только тогда, когда имеется строгая линейная функциональная зависимость у от х. в) r2 = r\y/x<i тогда и только тогда, когда регрессия х и у строго линейна, но нет функциональной зависимости; г) r2 <h2у/х < 1 указывает на то, что нет функциональной зависимости и существует нелинейная кривая регрессии. Коэффициенты взаимозависимости для порядкового уровня измерения. К этой группе относятся коэффициенты ранговой корреляции Спирмена rа, Кендалла t и g. Коэффициенты ранговой корреляции используются для измерения взаимозависимости между качественными признаками, значения-которых могут быть упорядочены или проранжированы по степени убывания (или нарастания) данного качества у исследуемых социальных объектов. Коэффициент ранговой корреляции Спирмена rs. Этот коэффициент вычисляется по следующей формуле: где di = i — ki— разность между i-ми парами рангов; I — число сопоставляемых пар рангов. Величина rs может изменяться в пределах от +1 до — 1, когда два ряда проранжированы в одном порядке. При полном взаимном беспорядочном расположении рангов г, равен нулю. Пример. По данным табл. 10 выясним, в какой степени связаны жизненные планы детей, отличающихся по социальному происхождению. Для этого проранжируем значения процентных распределений для каждой из двух групп детей. В графе «из крестьян» (табл. 10) встречаются два одинаковых числа (51, 0). В подобных случаях обоим числам присваивают ранг, равный среднему арифметическому из этих рангов, т. е. (3 + 4)/2 = 3,5. Подставляя промежуточные величины, вычисленные в табл. 10, в формулу (34), находим28 Такую величину r, можно интерпретировать как высокую степень связи между жизненными планами детей рабочих и крестьян. Однако большая величина г, не должна скрывать тот факт, что жизненные планы молодежи в табл. 10 распадаются на две группы. Для одной группы (нижняя часть таблицы) ранги полностью совпадают, а для другой (верхняя часть) — нет. Если подсчитать rs, для каждой группы отдельно, то в первом случае, очевидно, rs= 1, а во втором rs=0,15, но статистически незначимо отличается от 0. Значимость коэффициента корреляции Спирмена для l < 100 можно определить по табл. Г приложения, где приведены критические величины rs. Если l> 100, то критические значения находятся по табл. А формуле Например, возвращаясь к данным табл. 10, где l< 100, по табл. Г приложения найдем, что для того, чтобы r был значим на уровне 0,01, он должен быть равен или превосходить 0,833. Эмпирическое значение r, = 0,9, и поэтому делается вывод, что имеется значимая связь между предпочтениями жизненных планов двух групп респондентов. Аналогичным образом легко убедиться, что rs, = 0,15 при l= 4 статистически незначим. Коэффициент ранговой корреляции t Кендалла. Подобно rs коэффициент Кендалла используется для измерения взаимосвязи между качественными признаками, характеризующими объекты одной и той же природы, ранжированные по одному и тому же критерию, т изменяется от +1 до —1. Для расчета t0 используется формула Как вычисляется S, поясним на примере данных табл. 10. Таблица упорядочена так, что в графе «Ранг I» ранги расположились в порядке возрастания их значений. Берем значение ранга, стоящего в графе «Ранг II» на первом месте, 3,5; из расположенных ниже данного ранга семи других четыре значения его превышают, а два — меньше его. Число 4 записывается в графу Si , a 2 в колонку Si. Аналогичный подсчет делается для второго ранга со значением 1. Число рангов, расположенных ниже данного значения и превышающих его, равно 6, а число рангов, меньших данного,— 0 и т. д. Остальные вычисления ясны из следующей таблицы: Тогда, подставив соответствующие значения в формулу (36), получим Таким образом, tа дает более осторожную оценку для степени связи двух признаков, чем rs. При расчете t не учитывались равные ранги. Например, в табл. 10 имеются два равных ранга со значением 3,5. Если число равных рангов велико, то необходимо вычислить т по следующей формуле: где Тх= i/2Ztx(tx—i) (tx—число равных рангов по первой переменной); Ту=i/2Zty(tv—i) (ty — число равных рангов по второй: переменной). Для предыдущего примера tx= 1, tv=2, тогда Тх = 0, Ty = 1. Значимость коэффициента корреляции Кендалла t при l > 10 определяется по формуле Гипотеза о том, что tа = 0, будет отвергнута для данного а, если |Z|>Zкр(a/2). Для вышеприведенного примера , По табл. А приложения для а = 0,05 находим ZKp(a/2), равное 1,96. Поскольку расчетное значение 2 = 2,84 и, следователыю, больше Zкр, заключаем с вероятностью 95%, что t не равно 0. Коэффициенты корреляции Спирмена и Кендалла используются как меры взаимозависимости между рядами рангов, а не как меры связи между самими переменными. Так, в табл. 10 ранги отражают иерархию жизненных планов, но совершенно не говорят о том, что дети рабочих почти в равной мере хотят получить как высшее образование, так и интересную работу (разница 0,2%), а дети крестьян в большей степени стремятся к высшему образованию (разница 8%). Кроме того, какая-нибудь из групп респондентов может считать, что выделенные категории вообще не отражают их жизненных планов, по проранжировали предложенные варианты. Если для целей исследования можно предположить эти моменты несущественными, то оправданно применение ранговой корреляции. Коэффициенты Спирмена и Кендалла обладают примерно одинаковыми свойствами, но в случае многих рангов, а также при введении дополнительных объектов в ходе исследования имеет определенные вычислительные преимущества29. Другая мера связи между двумя упорядоченными переменными — g. Она, так же как и предыдущие коэффициенты, изменяется от +1 до — 1 и может быть подсчитана при любом числе связанных рангов. Формула для вычисления g записывается в виде Для иллюстрации правил вычисления 5, по сгруппированным данным обратимся к примеру (табл. 11). Процесс вычисления S+ и S~ наглядно представлен на схеме (схема 2). Так: Подставляя эти величины в формулу для g, находим Проверку статистической значимости проводят по формуле Гипотеза Н0 оравенстве нулю коэффициента отвергается, если Z>ZKр(a/2). Для наших данных Для а = 0,05 по табл. А приложения ZKp(a/2) = 1,96. Таким образом, Z < ZKp, и, следовательно, у нас нет оснований отвергнуть гипотезу Н0 : g= 0, т. е. лишь в 5 % случаев следует ожидать, что g будет отличен от нуля. Множественный коэффициент корреляции W. Этот коэффициент, иногда называемый коэффициентом конкордации, используется для измерения степени согласованности двух или нескольких рядов проранжированных значений переменных. Коэффициент W вычисляется по формуле Значимость полученной величины W для и > 7 проверяется по критерию c2: со степенью свободы п — 1. Для примера c2 = 10,133, степень свободы (n— 1)=4. Для a = 0,05 из табл. Б приложения находим c2 = 9,488. Поскольку наблюдаемое значение c2 больше критической точки, отвергаем гипотезу о том, что не существует значимой связи между рассматриваемыми переменными30. Коэффициенты взаимозависимости для номинального уровня измерения. Связь в табл. 2 X 2. Простейшая задача о взаимозависимости возникает тогда, когда имеются два признака, каждый из которых принимает два значения (табл. 13). Представим данные о группировке по этим двум признакам так; Для характеристики степени связи двух признаков применяется коэффициент Ф, определяемый формулой Коэффициент Ф равен 0, если нет соответствия между двумя дихотомическими переменными, и равен 1 или —1, когда имеется полное соответствие между ними. В силу трудностей. с интерпретацией знака коэффициента для катетеризованных (поминальных) переменных часто используют в анализе лишь абсолютную величину—|Ф|. Ф легко интерпретируется, поскольку показано, что он представляет собой просто коэффициент корреляции r, если значения каждой дихотомической переменной обозначить 0 и 1. Как уже отмечалось, Ф вычисляется для катетеризованных данных, представляющих естественные дихотомии: пол, раса, и т. п. Приведение количественных переменных к дихотомическому виду связано .с выбором граничной точки разделения (например, мужчины до 30 лет и мужчины старше 30 лет). Искусственная дихотомизация, столь часто необходимая в конкретном исследовании при изучении взаимосвязи признаков, может привести к тому, что одна часть дихотомической переменной по своему воздействию будет более значима для одной связи, другая —для другой, а это даст ошибочный результат. Измерение связи в табл. с X k. Рассмотрим теперь более общую ситуацию, когда две переменные классифицированы па две или более категории. Запишем это таким образом: где nij частоты; ni— маргинальные суммы частот по строкам; nj — маргинальные суммы частот по столбцам. На с. 169—172 для выяснения отклонения от независимости распределения значений в подобном случае использовался критерий c2. Однако сама величина c2 не очень подходит в качестве меры связи, поскольку сильно зависит от числа категорий. Нормированным коэффициентом корреляции для таблицы c X k является коэффициент сопряженности Пирсона (P) Коэффициент Р = 0 при полной независимости признаков. Недостатком, его является зависимость максимальной величины Р от размера таблицы (максимум Р достигается при c = k, но сама граница изменяется с изменением числа категорий). В связи с этим возникают трудности сравнения таблиц разного размера. Чтобы исправить указанный недостаток, Чупров ввел другую величину: При с = kТ достигает +1 в случае полной связи, однако не обладает этим свойством при k не равно с. Коэффициент Крамера (К) может всегда достигать +1 независимо от вида таблицы: Для квадратной таблицы коэффициенты Крамера и Чупрова совпадают, а в остальных случаях К > Т. Величина c2 быстро вычисляется с помощью формулы Вычисление коэффициентов Р, Т и К связано с теми же ограничениями на х2, которые сформулированы на с. 172. Следующая группа коэффициентов связи для категоризованных данных основана на предположении, что если две переменные связаны, то информация об одной переменной может быть использована для предсказания другой. Так, если предположить, что связь между полом индивида и его отношением к правилам уличного движения абсолютно детерминирована, то согласно табл. 13 либо все мужчины были бы нарушителями, а женщины нет, либо наоборот. Поскольку это не так, то возникает несоответствие, или, как говорят, ошибка предположения абсолютной связи (обозначим величину этой ошибки 0А). С другой стороны, можно предположить, что два признака абсолютно не связаны, и нельзя на основе одной переменной предсказать другую. Поскольку это тоже не так, то возникает ошибка предположения об отсутствии связи (00). может служить мерой относительного уменьшения ошибки при- использовании информации об одной переменной для предсказания другой. Признак, на основе которого предсказывается другой признак, будем называть независимой переменной, а предсказываемый — зависимой. Тогда для случая, когда зависимая переменная расположена по строкам таблицы (т. е. Категории расположены по строкам), вычисляется коэффициент связи lг: где max n — наибольшая частота в столбце r; max n j — наибольшая маргинальная частота для строк j. Пример. Вычислим К2 для данных табл. 13 в предположении, что K1 независимая переменная, а отношение к правилам уличного движения — зависимая Таким образом, использование информации о поле обследованных для предсказания отношения к правилам движения не уменьшает относительной ошибки. Если зависимая переменная — это категории столбцов таблицы, то совершенно аналогично предыдущему вычисляется где mах nij — наибольшая частота в строке; max ni— наибольшая маргинальная частота для столбцов i. Для нашего примера, когда пол зависимая переменная, l = 0,4, т. е. получаем 40%-пое уменьшение в ошибке, если используем отношение к правилам в качестве предсказывающей пол нарушителя. Коэффициенты А и К имеют пределы изменения от 0 до 1. Чем ближе Кгили Кс к 1, тем больше относительное уменьшение в ошибке и большее соответствие (связь) между переменными. Эти коэффициенты могут быть использованы для таблиц любого размера. В ряде случаев удобно использовать симметричную l: Разнообразие корреляционных коэффициентов продиктовано стремлением отразить реально существующее разнообразие типов связей в природе и обществе. Поэтому данное обстоятельство следует рассматривать скорее как свидетельство достоинств статистического аппарата, заключающихся в гибкости и большой приспособленности его к анализу сложнейших взаимосвязей в социальной области. Каждый корреляционный коэффициент приспособлен дли измерения вполне определенного вида связи. Техника расчета и конструкция формулы одного и того же коэффициента могут измениться в зависимости от того, какие (например, сгруппированные или не сгруппированные) данные приходится анализировать. Сравните, например, различные варианты формул для парного коэффициента корреляции r. Таким образом, применение того или иного показателя определяется природой данных и формой их представления. Требуемая степень точности также может существенно повлиять на выбор способа расчета связи в каждом конкретном случае. Обычно оценка пригодности той или иной формулы производится с учетом следующих факторов: 1) природы данных (качественные или количественные признаки); 2) формы и типа зависимости (линейная или нелинейная, положительная или отрицательная связь); 3) требуемой точности расчетов (например, коэффициенты корреляции рангов r и t иногда могут использоваться вместо более точных мер r и t2); 4) удобства при вычислении и сравнительной простоты интерпретации; 5) трудностей технического порядка (имеется ли счетная техника или нужно вести расчеты вручную); 6) распространенности использования того или иного коэффициента корреляции; 7) возможности сравнения различных коэффициентов. Обычно предпочитают использовать наиболее распространенные в практике социологических исследований коэффициенты, так как тем самым достигается возможность сравнения полученных результатов с материалами других исследований.
7. Новые подходы к анализу данных, измеренных по порядковым и номинальным шкалам В последние годы как у нас в стране, так и за рубежом разработано довольно много математических методов, предназначенных для анализа данных, полученных с помощью измерения по номинальным п порядковым шкалам. Однако многие из них малознакомы широкому кругу социологов. В настоящем параграфе представлен краткий обзор таких методов. К сожалению, в силу сложности и большого объема материала нет возможности подробно изложить суть каждого метода и тем более описать конкретную методику его применения. Поэтому все излагаемое ниже можно рассматривать лишь как некоторое указание на то, к какой литературе необходимо обратиться для решения соответствующей задачи и какого рода вопросы необходимо поста; вить в этой связи перед математиком. Наиболее распространенными задачами, при решении которых исследователь прибегает к помощи математических методов, являются задачи изучения связей между признаками, нахождения латентных переменных, классификации объектов. Рассмотрим задачу изучения связей между признаками. В предыдущем разделе этой главы уже рассматривались меры связи между номинальными признаками, основанные на анализе таблиц сопряженности. Определенного рода обобщением способов измерения таких связей с помощью критерия c2 можно считать метод логлинейного анализа частотных таблиц. В отличие от упомянутых мер связи логлинейный анализ позволяет анализировать таблицы сопряженности любой размерности и проверять гипотезы о наличии сложных структур связи, состоящие из предположений о существовании связей внутри каждой из нескольких групп признаков одновременно. Принципы логлинейного анализа описаны в литературе достаточно подробно31. В основе традиционных подходов к измерению связей между номинальными признаками лежит представление о последней как об «интегральной», т. е. о связи между рассматриваемыми признаками «в целом» (при расчете меры связи учитываются одновременно все те значения, которые эти признаки могут принимать). Однако такое понимание связи не является единственно возможным. Она может пониматься и как «локальная», т. е. как связь между отдельными значениями (одним или несколькими рассматриваемыми признаками). Наличие «интегральной» связи отнюдь не означает наличия «локальной», и наоборот. Так, вывод об отсутствии «интегральной» связи между полом и курением (например, основанный на малой величине c2) может не подтвердиться на основе «локального» анализа той же таблицы данных: т. е. можно предположить, что свойство респондента «быть мужчиной» довольно жестко определяет то, что этот человек курит (свойство «быть женщиной» в этом смысле может быть не связано с курением). В настоящее время разработан довольно широкий круг методов анализа описанных «локальных» связей. В литературе они часто называются методами поиска детерминирующих комбинаций значений переменных (или взаимодействий последних)32. Прежде чем подробнее пояснить суть задачи и подходы к ее решению, введем некоторые обозначения. Пусть изучается влияние каких-то I признаков (переменных), обозначаемых ниже х1, х2, ..., xi, па некоторый интересующий исследователя признак у. Признаки x2, хг, ..,, xi будем называть независимыми переменными, а признак у — зависимой переменной. Поясним, что имеется в виду под задачей поиска детерминирующих комбинаций значений переменных. Исследователь полагает, что рассматриваемые независимые признаки в определенной степени обусловливают тип поведения изучаемых объектов, проявляющийся в том, какие значения для того, или иного объекта может принимать зависимая переменная. Другими словами, выдвигается гипотеза о соответствующей детерминации (типа поведения сочетаниями значений не зависимых переменных). Упомянутый тип поведения может пониматься по-разному. Например, его можно определить как указание вероятностей, с которыми объект, обладающий заданным сочетанием значений ж, имеет то или иное значение. В таком случае тип поведения фактически отождествляется с распределением значений зависимого признака для объектов, имеющих рассматриваемый набор значений независимых признаков. Например, если при решении упомянутого (выше вопроса о связи пола респондента с привычкой к курению придем к выводу, что для мужчин вероятность иметь такую привычку равна 0,8, а не иметь ее — 0,2 и что для женщин аналогичные вероятности равны соответственно 0,3 и 0,7, то будем иметь основания говорить о двух типах поведения респондентов, каждый из которых определяется полом последних. Можно тип поведения отождествить со средним арифметическим множества значений зависимой переменной для рассматриваемой совокупности объектов (в таком случае естественно предполагать, что значения у получены по интервальной шкале). Пусть, например, у — это время, затрачиваемое респондентом в течение дня на чтение газет, х — пол респондента, х2 — его образование. Если в процессе исследования мы обнаружим, что мужчины с высшим образованием тратят на чтение газет в среднем 1,5 часа в день, а женщины с начальным образованием — 0,01 часа, то можно будет говорить о двух типах поведения респондентов, каждый из которых соответствующим образом связан с рассматриваемыми независимыми признаками. Тип поведения объекта можно отождествить и с тем, что для этого объекта у принимает определенное значение. Подчеркнем, что в любом случав упомянутая выше гипотеза о детерминации не может означать предположения о «жестком» определении значения по сочетанию значений х. В соответствии с выдвинутой гипотезой исследователь ставит перед собой задачу выяснить, какие именно сочетания значений независимых признаков являются в интересующем его смысле детерминирующими (определяющими тип поведения объектов). Иногда к этому добавляется и задача выделения и числа независимых переменных подсовокупности признаков, наиболее информативных в том смысле, что по сочетанию именно их значений с наибольшей степенью уверенности можно судить о типе поведения объектов. В едином. Комплексе с этими задачами может решаться и задача выявления самих типов поведения, свойственных объектам изучаемой совокупности. Именно сочетание названных трех задач (может быть, без второй или третьей) и называется задачей поиска детерминирующих комбинаций значений переменных. В соответствии с тем, как понимается тип поведения объектов, должен формироваться критерий, является ли тот или иной набор сочетаний значений х детерминирующим это поведение. Многообразие" методов поиска детерминирующих характеристик и объясняется в основном различием таких критериев. Например, первому описанному выше пониманию типа поведения отвечает поиск такого разбиения исходной совокупности объектов (соответствующего определенному набору сочетаний значений х), что каждой выделенной подсовокупности будет соответствовать свое распределение значений у (степень различия распределений определяется в соответствии с известными статистическими критериями). Искомые детерминирующие комбинации — это те наборы сочетаний значений х, которые соответствуют выделенным подсовокупностям33. Второму пониманию типа поведения отвечает такое разбиение исходной совокупности объектов, при котором каждая подсовокупность будет иметь свое среднее арифметическое значение у (т. е. разница между соответствующими средними значениями будет статистически значима)34. Отметим тесную связь такого подхода с, методами дисперсионного анализа, с помощью которого можно изучать влияние совокупности качественных признаков на некоторый количественный признак35. Однако дисперсионный анализ предназначен для изучения «интегральных» связей. Он исходит из априори заданных групп объектов — каждая группа соответствует одному возможному сочетанию значений независимых переменных и позволяет проверить гипотезу о совпадении типов поведения этих групп (тип поведения в дисперсионном анализе понимается именно рассматриваемым образом). Описываемые же нами методы решают более широкую задачу — они позволяют проанализировать с той же точки зрения все возможные группы объектов, соответствующие тому или иному набору сочетаний значений независимых переменных. Подчеркнем, что при использовании описанных подходов ищутся не только сочетания значений независимых переменных, определяющих некоторые типы поведения, но и сами эти типы. Для иллюстрации одного из возможных подходов к поиску детерминирующих комбинаций значений переменных при третьем упомянутом выше понимании типа поведения дадим некоторые определения, введенные С. В. Чесноковым36, и приведем пример из его же работы. Привлекательность методики поиска детерминирующих характеристик, предложенной этим автором, в том, что она по существу является формализацией рассуждений, наиболее часто использующихся социологом при практическом решении задач о статистической зависимости. Рассмотрим случай, когда данные представлены таблицей 2 X 2, изучаемые объекты — респонденты, признак х принимает значения а и b, а признак у — значения с и d. Назовем типом поведения респондента соответствующее ему значение у и ниже будем говорить о детерминации значением а тина поведения с. Очевидно, считать, что такая детерминация действительно имеет место, можно только в том случае, если достаточно велика «степень уверенности» в реализации поведения с для объекта со значением а независимой переменной. Уточним смысл такой уверенности. Назовем интенсивностью детерминации а®с величину I(а®с), равную доле респондентов, для которых у = с в группе респондентов, удовлетворяющих условию: х=а. Интенсивность детерминации означает точность высказывания если а, то с. Назовем емкостью детерминации а®с величину с(а®с), равную доле респондентов, для которых х = а, в группе респондентов, удовлетворяющих условию у = с. Емкость детерминации измеряет долю случаев реализации поведения с, которая «объясняется» высказыванием «из а следует с». Емкость с(а®с) отражает, насколько всеобъемлюще объяснение, построенное на детерминации а®с, т. е. полноту этой детерминации. Для обоснованности выводов о том, что «а влечет с», недостаточно знать, необходимо оценить и С. Пример. Пусть х — пол (а — мужчина, b — женщина), а у — величина зарплаты (с — высокая, d — низкая). Предположим, что частотная таблица имеет вид На основании того, что 70% мужчин имеют высокую зарплату, мы не можем говорить, что под детерминирует величину зарплаты. Для этого вывода необходимо еще оценить, какова доля мужчин среди лиц с высокой зарплатой. Например, если этот процент равен /, то сформулированный вывод вряд ли можно считать справедливым. Полученные же в рассматриваемом примере 40% могут способствовать обоснованию этого вывода, если исследователь сочтёт этот процент достаточно высоким. Показатели, аналогичные введенным величинам I и С, легко можно определить и для того случая, когда количество независимых признаков более одного. Очевидно, в отличие от тех ситуаций, когда тип понимается одним из двух описанных выше способов, в данном случае мы не выявляем типы поведения в процессе нахождения детерминирующих сочетаний. Такая задача решается отдельно для каждого значения зависимой, .переменной: фиксируя это значение (т.е. тип поведения), мы ищем такие сочетания значений независимых переменных, которые определяют его с достаточно высокими значениями I и С (смысл выражения «достаточно высокие» определяется исследователем). Наряду с методами поиска детерминирующих комбинаций значений переменных разработаны подходы к выявлению связей между номинальными признаками, аналогичные методам регрессионного анализа. В последнее десятилетие был предложен ряд подходов к решению этого вопроса37. Опишем один из них. Прежде всего заметим, что если все рассматриваемые переменные дихотомические, то, применяя к исходным данным технику обычного регрессионного анализа, будем получать содержательно интерпретируемые результаты38. Это связано с тем, что дихотомическую шкалу можно считать частным случаем интервальной. Приведем пример вычисления регрессионной зависимости между номинальными переменными, в котором реализуется метод, основанный на сделанном замечании. Сначала каждая переменная, принимающая I значений, заменяется на I фиктивных дихотомических переменных: каждому исходному значению соответствует своя дихотомическая переменная. Пусть X1 и Х2—исходные независимые номинальные переменные, принимающие каждая три значения — 1, 2, 3. Через х1, х2, x3, x4, x5, x6 обозначим вводимые фиктивные переменные (x1, х2, х3 соответствуют переменной Х1 а х4, х5, х6 — Х2). Значения, принимаемые фиктивными переменными, можно понять из следующей таблицы, где приведены значения X1 и X2 для некоторых трех объектов. К полученным фиктивным переменным применяется обычная техника регрессионного анализа. Причем, поскольку зависимая переменная также заменена на k фиктивных переменных (если она принимает k значений), вместо одного уравнения рассчитывается k уравнений: для каждой упомянутой фиктивной переменной строится свое уравнение регрессии. Для оценивания влияния независимых переменных на зависимую в целом (а не на отдельные соответствующие ей фиктивные переменные) служит комплекс различных коэффициентов. Аналогичный подход можно использовать и в случае, если зависимая переменная получена по интервальной шкале39. Как уже отмечалось, помимо задачи анализа связей между переменными, довольно актуальными для социологии являются также задачи нахождения латентных переменных и классификации объектов. Правда, эти задачи очень часто можно рассматривать как частный случай задачи изучения связей: латентные факторы обычно находятся именно на основе анализа связей между наблюдаемыми признаками, а для осуществления классификации, как правило, анализируются связи между объектами. Но тем не менее названные задачи имеют и свою специфику, обусловленную их ролью в изучении интересующих социолога вопросов. Это обусловливает и определенную специфику соответствующих математических методов. Поэтому имеет смысл сказать несколько слов о путях решения обеих задач, когда изучаемые объекты характеризуются значениями номинальных или порядковых признаков40. Поиск латентных переменных может осуществляться с помощью методов латентно-структурного анализа. Кроме того, возможны различные подходы к использованию традиционных методов факторного анализа для анализа данных, полученных по порядковой и номинальной шкалам41. Основная проблема, встающая перед исследователем, желающим применить математические методы классификации к объектам, заданным значениями номинальных и порядковых признаков,— это проблема выбора меры близости между этими объектами. Большинство традиционных мер рассчитано на признаки, измеренные по интервальной шкале. Однако известны и такие меры, которые могут быть применены в интересующем нас случае. Выбор подходящей меры близости обеспечивает возможность использования многих методов классификации42. Далее рассмотрим несколько разработанных советскими авторами общих подходов к задаче анализа качественных данных. Первый подход предложен Г. С. Лбовым43. Автор предполагает, что исходные признаки могут быть измерены по любой шкале, и следующим образом вводит понятие логического высказывания, являющегося основным во всех предложенных им алгоритмах. Если признак Хi измерен по номинальной шкале и а1i, а2i, ..., ali— его значения, то назовем элементарным высказыванием выражение вида xi= = аji (j=1, ..., р). Если признак xi измерен по шкале, тип которой не ниже порядковой шкалы, b и с — произвольные его возможные значения и b < с, то назовем элементарным высказыванием выражение вида b < хi < с. Приведем пример логической закономерности. Пусть х1 — пол, принимающий два значения: 0 (мужчина) и 1 (женщина); хг — удовлетворенность респондента своей работой, измеренная по порядковой шкале с градациями 1 ..., 5; x3 — зарплата респондента, измеренная по шкале отношений (в руб.). Примером логического высказывания может служить выражение (х1 = 0) Ç (3 < х2 <= 5) Ç (100 < x3 <=120). Ясно, что каждое логическое высказывание задает определенную область рассматриваемого признакового пространства. Разработанный Г. С. Лбовым подход к анализу исходных данных, полученных по разным шкалам, с успехом позволяет решать задачи, подобные описанным выше задачам поиска детерминирующих комбинаций значений признаков. А именно автор предлагает алгоритм, согласно которому при любом разбиении исходной совокупности объектов па классы (это разбиение может быть осуществлено, в частности, в соответствии со значениями некоторого зависимого признака) для каждого такого класса может быть осуществлен поиск логических высказываний, выполняющихся (т. е. истинных) на принадлежащих ему объектах. Выполнение понимается в некотором статистическом смысле. Грубо говоря, выполнение высказывания для объектов какого-либо класса означает, что это высказывание истинно для большинства объектов этого класса. Но тот же подход позволяет решать и гораздо более широкий круг встающих перед социологом задач: задачу автоматической классификации исходных объектов (грубо говоря, в разные классы попадают объекты, для которых выполняются разные логические высказывания); задачу построения логических решающих правил, т. е. «границ» между классами, если задано, в какой класс каждый объект входит (такие правила также определяются в терминах логических высказываний); задачу динамического прогнозирования (алгоритм использует логические решающие правила), и т. д. Второй подход разработан группой исследователей под руководством Б. Г. Миркина44. Авторы этого подхода предлагают рассматривать каждый признак как некоторое отношение на множестве изучаемых объектов и задавать его в виде булевой матрицы, т. е. матрицы, элементы которой могут принимать только два значения, например 0 и 1. Приведем пример. Пусть для некоторых четырех респондентов заданы значения признаков; пол (0 — мужчина, 1 — женщина) и профессия (принимающая значения 1, 2, 3, 4) и пусть соответствующая матрица «объект — признак» имеет вид Тогда рассматриваемым признакам будут соответствовать следующие булевы матрицы:
На пересечении i-го столбца и j-й строки стоит единица, если значения рассматриваемых признаков для i-го и j-го объектов совпадают, и 0 — в противоположном случае. Авторы рассматриваемого подхода предлагают основанные на использовании описанного способа представления исходных данных методы решения широкого круга задач, в том числе и социологических: классификация объектов, изучение связей между признаками, выявление латентных переменных и т. д. Например, в качестве латентного фактора, объясняющего связи между несколькими исходными признаками, заданными матрицами, подобными описанным выше, будет выступать признак, заданный матрицей, в определенном смысле близкой ко всем исходным матрицам одновременно (первым шагом решения соответствующей задачи будет поиск таких групп исходных матриц, для каждой из которых подобную «среднюю» матрицу можно найти). Интересный подход к анализу структуры связей между рассматриваемыми переменными в тех случаях, когда эти переменные измерены по произвольным шкалам, предложен Ю. Н. Гаврильцом45. Этот подход позволяет учитывать, что связь может быть прямой и опосредованной, тесной и слабой и т. д., что изменение значений части признаков может менять характер распределения у другой части признаков, в то время, как распределение третьей части признаков остается прежним. Основные принципы представления исходной информации, лежащие в основе этого подхода, являются слишком сложными для того, чтобы их можно было сформулировать в настоящем параграфе. Последний подход к анализу информации, полученной по номинальной или порядковой шкале, о котором нам хотелось бы упомянуть,— это так называемая метризация используемых шкал («Оцифровка» значений признаков). Это — приписывание исходным шкальным значениям таких «меток», чисел, что отношения между получающимися интервалами начинают иметь содержательный смысл. К настоящему времени разработано довольно много способов такого превращения номинально» либо порядковой шкалы в интервальную46. Однако использовать их надо с большой осторожностью, поскольку каждый из этих способов предполагает довольно сильные и часто трудно проверяемые свойства исходных шкальных значений (эти предположения могут быть как содержательными, так и формальными). В заключение настоящего раздела отметим, что большинство описанных в этой главе методов реализовано в имеющихся в различных научных центрах нашей страны комплексах программ для ЕС ЭВМ. Методы дискриптивной статистики, вычисления всевозможных мер связи, методы регрессионного анализа и другие методы многомерного статистического анализа, в том числе методы поиска детерминирующих характеристик значений независимых признаков, реализованы в системе «Социолог», применяемой в ИСИ АН СССР. Алгоритм поиска детерминационных характеристик, основанный на методе С. В. Чеснокова, представлен в системе, разработанной во ВНИИ системных исследований ГКНТ и АН СССР. Упомянутые выше алгоритмы, предложенные Г. С. Лбовым, реализованы в пакете программ ОТЕКС Института математики СО АН СССР.
Литература для дополнительного чтенияВайнберг Дж.,Шумекер Дж. Статистика. М.: Статистика,1979.389 с. Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976. 495 с. Крамер Г. Математические методы статистики. М.: Мир, 1975.648 с. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981. 160 с. Математические методы в социологическом исследовании Отв. ред. Т. В. Рябушкин и др. М.: Наука, 1981. 332 с. Миркин Б. Г. Анализ качественных признаков и структур. М.: Статистика, 1980. 166 с. Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов. М.: Статистика, 1977. 144 с. Рунион Р. Справочник по непараметрической статистике. М.: Финансы и статистика, 1982. 198 с. Рябушкин Т, В. Теория и методы экономической, статистики. М.: Наука, 1977. 511 с. Статистические методы анализа информации в социологических исследованиях Отв. ред. Г. В. Осипов и др. М.: Наука, 1979. 319 с. Типология и классификация в социологических . исследованиях Отв. ред. В. Г. Андреенков, Ю. Н. Толстова, М.: Наука, 1982. 296 с. Тюрин Ю. Н. Непараметрические методы статистики. М.: Знание, 1978. 62 с.
» Нет комментариев
Пока комментариев нет
» Написать комментарий
|
« Пред. | След. » |
---|