Лекции Л.И. Бородкина - АНАЛИЗ ВЗАИМОСВЯЗЕЙ КАЧЕСТВЕННЫХ ПРИЗНАКОВ

ISKUNSTvo

[Материалы для студентов-историков]

Информатика и математика - материалы для экзамена

АНАЛИЗ ВЗАИМОСВЯЗЕЙ КАЧЕСТВЕННЫХ ПРИЗНАКОВ

Типы качественных признаков

l      Качественные признаки делятся на два типа: ранговые и номинальные.

l      Ранговые признаки представлены категориями, для которых можно указать порядок, т.е. они сравнимы по принципу "больше-меньше" или "лучше-хуже".

l      Номинальные признаки представлены категориями, для которых не определен никакой другой способ сравнения, кроме как буквальное совпадение или несовпадение. 

Взаимосвязь ранговых признаков

l      Меры взаимосвязи между парой ранговых признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции.

l      Эти коэффициенты строятся так, чтобы выполнялись следующие свойства:

  1. Если ранжированные ряды по обоим признакам полностью совпадают, то коэффициент ранговой корреляции равен +1, что означает полную положительную корреляцию.
  2. Если объекты в обоих рядах расположены в противоположном порядке, коэффициент равен –1, что означает полную отрицательную корреляцию. 
  3. Нулевое значение коэффициента означает отсутствие соответствия между ранжированными рядами.
  4. В остальных ситуациях значения коэффициента заключены в интервале [–1, +1]; при этом возрастание абсолютного значения коэффициента корреляции от 0 до 1 характеризует увеличение соответствия между двумя ранжированными рядами.

Ранжирование объектов

l      При ранжировании иногда возникает ситуация, когда два (или больше) объектов получают одинаковые ранги (такие объекты называют связанными). В этом случае ранг связанных объектов берется равным среднему значению тех рангов, которые имели бы эти объекты, если бы они были различны.

l      Например, если связанными оказались 3-й,
4-й и 5-й объекты в ранжированном ряду, то каждому из них приписывается ранг 4.

Коэффициены Спирмена и Кендалла. Значимость

l      Проверка значимости коэффициентов ранговой корреляции проходит по той же схеме, что и проверка значимости коэффициентов регрессии.

l      Вычисляется величина t-статистики (для коэффициента Кендалла она обозначена z) и соответствующий ей уровень значимости p (вероятность ошибки, т.е. получения в выборке таких коэффициентов при  отсутствии корреляции в генеральной совокупности).

l      Если значение t (или z) достаточно велико, а вероятность p, соответственно, достаточно мала, коэффициент ранговой корреляции можно считать статистически значимым, т.е. гипотеза об отсутствии корреляции (т.е. о независимости признаков) должна быть отклонена.

l      На практике чаще всего применяется уровень значимости 0,05 (или 5%). Этому уровню соответствуют значения t, которые по модулю больше 2.

Применение ранговой  корреляции

l      Коэффициенты ранговой корреляции могут использоваться не только для анализа взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками.

l      В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.

Взаимосвязь номинальных признаков

Таблицы сопряженности

l      В статистическом анализе существуют различные методы, позволяющие изучать взаимосвязи номинальных признаков.

l      Наиболее популярным из них  является метод построения таблиц сопряженности (кросс-табуляция).

l      Таблицей сопряженности называется прямоугольная таблица, по строкам которой указываются категории одного признака, а по столбцам – категории другого.

l      Каждый объект совокупности попадает в какую-либо из клеток этой таблицы в соответствии с тем, к какой  категории он относится по каждому из двух признаков.

l      Таким образом, в клетках таблицы стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков (например, число людей, принадлежащих конкретной социальной группе и при этом входящих в определенную партию).

l      В зависимости от характера распределения этих частот внутри таблицы можно судить о том, существует ли связь между признаками.

l      Что означает связь между признаками?

l      В данном примере: что означает связь между социальным статусом и партийной принадлежностью?

l      Видимо, в этом случае о существовании связи свидетельствовало бы наличие определенных политических пристрастий у членов разных социальных групп.

l      Формально говоря, связь номинальных признаков понимается как более частая (или наоборот, более редкая) совместная встречаемость отдельных комбинаций категорий по сравнению с ожидаемой встречаемостью – ситуацией чисто случайного распределения объектов по категориям двух признаков.

l      Например, о связи между социальным статусом и партийной принадлежностью может свидетельствовать более высокая доля крестьян в партии трудовиков по сравнению с долей крестьян среди всех депутатов Думы (или же  более высокая доля трудовиков среди крестьян по сравнению с долей трудовиков во всей Думе).

l      Аналогично: о связи между социальным статусом и партийной принадлежностью может свидетельствовать более высокая доля дворян в партии кадетов по сравнению с долей дворян среди всех депутатов Думы (или же  более высокая доля кадетов среди дворян по сравнению с долей кадетов во всей Думе).

l      В приведенной таблице представлены данные для 378 депутатов; среди них 80 человек (т.е. 21% – см. последнюю строку таблицы) принадлежат фракции трудовиков.

l      Если бы распределение по фракциям не зависело от социального происхождения, то доля фракции трудовиков среди крестьян, дворян и т.д. составляла бы 21% численности каждой из этих групп.

Например, из общего числа крестьян в Думе (187 человек ) 21% или  40 человек "должны были бы" принадлежать фракции трудовиков.

Если же взглянуть на реальное число трудовиков-крестьян в Думе, то окажется, что их 65 человек, то есть больше, чем ожидалось.

Если подсчитать, сколько дворян принадлежало бы партии трудовиков, то окажется, что это 28 человек (21% от общего числа дворян,  которых в Думе было 133).

Однако в действительности оказалось, что дворян–членов фракции трудовиков было всего трое, то есть значительно меньше, чем ожидалось бы.

Проверка гипотезы о независимости признаков

l      Итак, мы собираемся проверить гипотезу о независимости фракционной принадлежности депутатов от их социального происхождения.

l      Для этого надо сравнить в целом таблицу реальных частот с таблицей ожидаемых частот (т.е. частот, соответствующих гипотезе, что два изучаемых признака независимы).

l      Для подсчета суммарного расхождения между таблицами по всем клеткам таблиц суммируют разности (точнее – квадраты разностей) между реальными и ожидаемыми частотами.

l      Если суммарное расхождение равно нулю (таблицы совпадают), нет оснований отвергнуть гипотезу о независимости признаков.

l      Наоборот – чем больше суммарное расхождение между таблицами, тем меньше вероятность принятия нулевой гипотезы о независимости признаков.

l      Иначе говоря, чем больше суммарное расхождение между реальными и ожидаемыми частотами по всем клеткам таблицы сопряженности, тем менее вероятной является эта гипотеза.

l      Сумма квадратов разностей реальных и ожидаемых частот по всем клеткам таблицы обозначается Хи-квадрат (X2). Распределение этой величины (как и известной нам t-статистики) хорошо изучено.

l      То есть, для всех значений Хи-квадрат известна вероятность p того, что такие значения могут быть получены в выборке из генеральной совокупности, в которой величина Хи-квадрат равна нулю, т.е. признаки независимы.

l      Значит, если вероятность p, соответствующая величине Хи-квадрат, достаточно мала, это свидетельствует о том, что гипотеза о независимости признаков должна быть отклонена, т.е. связь между ними является статистически значимой.

l      Как известно, в пакете Statistica по умолчанию достаточно малыми считаются значения вероятности p, меньшие 0,05 или 5%.

l      В заголовке таблицы ожидаемых частот приводятся значение X2, которое равно 193,71, и соответствующее ему значение вероятности (p = 0,0000), которое практически равно нулю (и, очевидно, меньше чем 0,05).

l      Это свидетельствует о том, что гипотеза о независимости признаков должна быть отклонена, т.е. связь между признаками является статистически значимой.

l      В этом же заголовке  приводится величина
df = 63. Это так называемое число степеней свободы (degree of freedom), от которого зависит вероятность p.

l      Число степеней свободы для таблицы сопряженности равно произведению
(n – 1) (m – 1), где n и m – число строк и число столбцов этой таблицы.

Коэффициенты взаимосвязи номинальных признаков

l      Итак, значимая величина Хи-квадрат является свидетельством связи между двумя признаками. Как же измерить силу этой связи?

l      Ясно, что при отсутствии связи величина Хи-квадрат равна нулю, и это значение является минимальным.

l      Существует ли максимальное значение для Хи-квадрат?

l      К сожалению, даже тогда, когда связь между признаками является максимально сильной, т.е. когда каждому значению (категории) одного признака в точности соответствует определенная категория другого признака, нельзя заранее сказать, каким будет значение X2, т.к. эта величина не имеет общего для всех таблиц сопряженности максимального значения.

l      Более того, так как  Хи-квадрат зависит от числа степеней свободы, то невозможно сравнивать между собой значения этой величины для таблиц с разным числом строк и столбцов.

l      Значит необходим коэффициент, который, подобно коэффициенту корреляции, имел бы фиксированный максимум в случае максимальной связи и позволял бы сравнивать между собой разные таблицы

Коэффициент Крамера

l      Одним из коэффициентов, удовлетворяющих этим требованиям, является коэффициент Крамера V.

l      Базируясь на значении Хи-квадрат, коэффициент Крамера позволяет измерять силу связи между двумя номинальными признаками.

l      Коэффициент Крамера принимает значения от 0 до 1, т.е. от полного отсутствия связи до максимально сильной связи.

l      В нашем примере коэффициент Крамера равен 0,27, что говорит о наличии довольно слабой связи между признаками "сословное происхождение" и "партия".

l      Эта связь статистически значима, т.к. p<0,05.

l      Можно использовать значения коэффициента Крамера для сравнения силы связи одного признака с несколькими другими.

l      Оба результата показывают статистически значимые взаимосвязи признака "занятие" как с признаком "профиль образования", так и с признаком "сословное происхождение".

l      Однако можно сказать, что для определения рода занятий депутатов большую роль играло не их сословное происхождение, а профиль образования.

Уменьшение размеров таблицы сопряженности

l      Наличие большого числа категорий по каждому из признаков затрудняет анализ таблицы сопряженности, тем более, что большая часть клеток таблицы при этом содержит либо нулевые, либо близкие к нулевым частоты встречаемости.

l      Для того, чтобы устранить этот эффект, можно оставить в таблице только те категории, которые являются наиболее существенными по числу объектов, входящих в эти категории.

l      Чтобы найти эти категории, надо рассмотреть в исходной таблице сопряженности итоговые строку и столбец и в дальнейшем анализировать только те категории, которым соответствуют наиболее высокие значения итоговых частот.

l      В нашем примере это, с одной стороны, сословия "крестьяне" и "дворяне", а с другой – фракции "трудовики", "кадеты" и беспартийные депутаты.

l      Указав коды выбранных категорий, можно в дальнейшем работать с более удобной для анализа таблицей.

l      В данном случае снова получен статистически значимый коэффициент Крамера (так как вероятность p меньше 0,05), однако величина коэффициента существенно выше – он равен 0,65.

Заключение

  1. Методы измерения связи различаются для количественных, ранговых и номинальных признаков.
  2. Величины мер связи признаков различной природы не сравнимы между собой.
  3. Если требуется измерить связь между двумя признаками разной природы, то для этого обычно используют меры зависимости, пригодные для низшего (номинального) уровня измерения.

При этом следует учитывать, что возникают  потери исходной информации, ее "огрубление". Так, для ранговых признаков теряется информация о соответствующем упорядочении объектов, а значения количественных признаков группируются в интервалы, которые при переходе на номинальный уровень измерения также оказываются неупорядоченными.

l      Однако такое огрубление иногда полезно, поскольку позволяет количественные данные с грубыми ошибками трактовать как ранговые или даже номинальные. Уменьшение точности при этом компенсируется повышением надежности данных

Коэффициенты связи для признаков разной природы

 

Количест-венный

Ранговый

Номиналь-ный

Количест-венный

r

r и t

V

Ранговый

r и t

r и t

V

Номиналь-ный

V

V

V


Rambler's Top100 Рейтинг@Mail.ru