WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 || 3 | 4 |   ...   | 5 |

«Стентон Гланц Медико-биологическая Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. ...»

-- [ Страница 2 ] --

Разумеется, с не меньшим успехом можно было бы извлечь любую другую пару выборок, что и сделано на рис. 4.4Б. Как и следовало ожидать, две новые выборки отличаются как друг от друга, так и от извлеченных ранее (рис. 4.4А). Интересно, что на этот раз нам «повезло» — средний диурез довольно сильно раз личается. Соответствующее значение t равно –2,1. На рис. 4.4В изображена еще одна пара выборок. Они отличаются друг от друга и от выборок с рис. 4.4А и 4.4Б. Значение t для них равно 0.

Разных пар выборок можно извлечь более 1027. На рис. 4.5А приведено распределение значений t, вычисленных по 200 парам выборок. По нему уже можно судить о распределении t. Оно сим метрично относительно нуля, поскольку любую из пары выбо рок можно счесть «первой». Как мы и предполагали, чаще всего значения t близки к нулю, значения, меньшие –2 и большие +2, встречаются редко.

На рис. 4.5Б видно, что в 10 случаях из 200 (в 5% всех случаев) t меньше –2,1 или больше +2,1. Иначе говоря, если обе выборки извлечены из одной совокупности, вероятность того, что значение 90 ГЛАВА Рис. 4.4.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Рис. 4.4. Испытания предполагаемого диуретика. А. В действительности препа рат не обладает диуретическим действием, поэтому обе группы — просто две слу чайные выборки из совокупности, показанной в верхней части рисунка. Члены совокупности, которым посчастливилось принять участие в исследовании, поме чены штриховкой. В нижней части рисунка данные показаны такими, какими их видит исследователь. Вряд ли он решит, что препарат — диуретик: средний диу рез в группах различается очень незначительно. Б. Исследователю могла бы попа сться и такая пара выборок. В этом случае он наверняка бы счел препарат диуре тиком. В. Еще две выборки из той же совокупности.

t лежит вне интервала от –2,1 до +2,1, составляет 5%. Продолжая извлекать пары выборок, мы увидим, что распределение прини мает форму гладкой кривой, показанной на рис. 4.5В. Теперь 5% крайних значений соответствуют закрашенным областям графи ка левее –2,1 и правее +2,1. Итак, мы нашли, что если две выбор ки извлечены из одной и той же совокупности, то вероятность получить значение t, большее +2,1 или меньшее –2,1, составля ет всего 5%. Следовательно, если значение t находится вне B Г -3,0 -2,0 -1,0 0 1,0 2,0 3, t Рис. 4.5. А. Из совокупности, показанной на рис. 4.4, извлекли 200 пар случайных выборок по 10 членов в каждой, для каждой пары рассчитали значение t и нанесли его на график. Значения для t трех пар выборок с рис. 4.4 помечены черным. Боль шая часть значений сгруппирована вокруг нуля, однако некоторые значения по абсолютной величине превышают 1,5 и даже 2. Б. Число значений, по абсолютной величине превышающих 2,1 составляет 5%. В. Продолжая извлекать пары выбо рок, в конце концов мы получим гладкую кривую. 5% наибольших (по абсолют ной величине) значений образуют две заштрихованные области (сумма заштрихо ванных площадей как раз и составляет 5% всей площади под кривой). Следова тельно «большие» значения t начинаются там, где начинается заштрихованная область, то есть с t = ±2,1. Вероятность получить столь высокое значение t, извле кая случайные выборки из одной совокупности, не превышает 5%. Г. Описанный способ выбора критического значения t предопределяет возможность ошибки: в 5% случаев мы будем находить различия там, где их нет. Чтобь снизить вероят ность ошибочного заключения, мы можем выбрать более высокое критическое значение. Например, чтобы площадь заштрихованной области составляла 1% от обшей площади под кривой, критическое значение должно составлять 2,878.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА интервала от –2,1 до +2,1, нулевую гипотезу следует отклонить, а наблюдаемые различия признать статистически значимыми.

Обратите внимание, что таким образом мы выявляем отли чия экспериментальной группы от контрольной как в меньшую, так и в большую сторону — именно поэтому мы отвергаем ну левую гипотезу как при t < –2,1 так и при t > +2,1. Этот вариант критерия Стьюдента называется двусторонним, именно его обы чно и используют. Существует и односторонний вариант крите рия Стьюдента. Используется он гораздо реже, и в дальнейшем говоря о критерии Стьюдента, мы будем иметь в виду двусто ронний вариант.

Вернемся к рис. 4.4Б. На нем показаны две случайные вы борки из одной и той же совокупности при этом t – 2,2. Как = мы только что выяснили, нам следует отвергнуть нулевую ги потезу и признать исследуемый препарат диуретиком, что са мой собой неверно. Хотя все расчеты были выполнены правиль но, вывод ошибочен. Увы, такие случаи возможны.

Разберемся подробнее. Если значение t меньше –2,1 или боль ше +2,1, то при уровне значимости 0,05 мы сочтем различия статистически значимыми. Это означает, что если бы наши груп пы представляли собой две случайные выборки из одной и той же совокупности, то вероятность получить наблюдаемые раз личия (или более сильные) равна 0,05. Следовательно, ошибоч ный вывод о существовании различии мы будем делать в 5% случаев. Один из таких случаев и показан на рис. 4.4Б.

Чтобы застраховаться от подобных ошибок, можно принять уровень значимости не 0,05, а скажем 0,01. Тогда, как видно из рис. 4.5Г, мы должны отвергать нулевую гипотезу при t < –2, или t > +2,88. Теперь-то рис. 4.4Б нас не проведет — мы не при знаем подобные различия статистически значимыми. Однако во первых ошибочные выводы о существовании различий все же не исключены просто их вероятность снизилась до 1% и во вто рых вероятность не найти различии там где они есть теперь повысилась. О последней проблеме подробнее мы поговорим в гл. 6.

Критические значения t (подобно критическим значениям F они сведены в таблицу) зависят не только от уровня значимос ти, но и от числа степеней свободы. Если объем обеих выбо 94 ГЛАВА Таблица 4.1. Критические значения t (двусторонний вариант) Уровень значимости 0,5 0,2 0,1 0,05 0,02 0,01 0,005 0,002 0, 1 1,000 3,078 6,314 12,706 31,821 63,656 127,321 318,289 636, 2 0,816 1,886 2,920 4,303 6,965 9,925 14,089 22,328 31, 3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,214 12, 4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8, 5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6, 6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5, 7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5, 8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5, 9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4, 10 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4, 11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4, 12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4, 13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4, 14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4, 15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4, 16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4, 17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3, 18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3, 19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3, 20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3, 21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3, 22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3, 23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3, 24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3, 25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3, 26 0,684 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3, 27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3, 28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3, 29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3, 30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3, 31 0,682 1,309 1,696 2,040 2,453 2,744 3,022 3,375 3, 32 0,682 1,309 1,694 2,037 2,449 2,738 3,015 3,365 3, 33 0,682 1,308 1,692 2,035 2,445 2,733 3,008 3,356 3, 34 0,682 1,307 1,691 2,032 2,441 2,728 3,002 3,348 3, 35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3, 36 0,681 1,306 1,688 2,028 2,434 2,719 2,990 3,333 3, 37 0,681 1,305 1,687 2,026 2,431 2,715 2,985 3,326 3, 38 0,681 1,304 1,686 2,024 2,429 2,712 2,980 3,319 3, 39 0,681 1,304 1,685 2,023 2,426 2,708 2,976 3,313 3, 40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3, СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Таблица 4.1. Окончание Уровень значимости 0,5 0,2 0,1 0,05 0,02 0,01 0,005 0,002 0, 42 0,680 1,302 1,682 2,018 2,418 2,698 2,963 3,296 3, 44 0,680 1,301 1,680 2,015 2,414 2,692 2,956 3,286 3, 46 0,680 1,300 1,679 2,013 2,410 2,687 2,949 3,277 3, 48 0,680 1,299 1,677 2,011 2,407 2,682 2,943 3,269 3, 50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3, 52 0,679 1,298 1,675 2,007 2,400 2,674 2,932 3,255 3, 54 0,679 1,297 1,674 2,005 2,397 2,670 2,927 3,248 3, 56 0,679 1,297 1,673 2,003 2,395 2,667 2,923 3,242 3, 58 0,679 1,296 1,672 2,002 2,392 2,663 2,918 3,237 3, 60 0,679 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3, 62 0,678 1,295 1,670 1,999 2,388 2,657 2,911 3,227 3, 64 0,678 1,295 1,669 1,998 2,386 2,655 2,908 3,223 3, 66 0,678 1,295 1,668 1,997 2,384 2,652 2,904 3,218 3, 68 0,678 1,294 1,668 1,995 2,382 2,650 2,902 3,214 3, 70 0,678 1,294 1,667 1,994 2,381 2,648 2,899 3,211 3, 72 0,678 1,293 1,666 1,993 2,379 2,646 2,896 3,207 3, 74 0,678 1,293 1,666 1,993 2,378 2,644 2,894 3,204 3, 76 0,678 1,293 1,665 1,992 2,376 2,642 2,891 3,201 3, 78 0,678 1,292 1,665 1,991 2,375 2,640 2,889 3,198 3, 80 0,678 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3, 90 0,677 1,291 1,662 1,987 2,368 2,632 2,878 3,183 3, 100 0,677 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3, 120 0,677 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3, 140 0,676 1,288 1,656 1,977 2,353 2,611 2,852 3,149 3, 160 0,676 1,287 1,654 1,975 2,350 2,607 2,847 3,142 3, 180 0,676 1,286 1,653 1,973 2,347 2,603 2,842 3,136 3, 200 0,676 1,286 1,653 1,972 2,345 2,601 2,838 3,131 3, 0,675 1,282 1,645 1,960 2,327 2,576 2,808 3,091 3, J. H. Zar. Biostatistical analysis (2 ed.). Prentice-Hall, Englewood Cliffs, N. J., 1984.

рок — n, то число степеней свободы для критерия Стьюдента равно 2(n – 1). Чем больше объем выборок, тем меньше крити ческое значение t. Это и понятно — чем больше выборка, тем менее выборочные оценки зависят от случайных отклонении и тем точнее представляют исходную совокупность.

96 ГЛАВА ВЫБОРКИ ПРОИЗВОЛЬНОГО ОБЪЕМА Критерий Стьюдента легко обобщается на случай, когда выбор ки содержат неодинаковое число членов. Напомним, что по оп ределению X1 - X t =, 2 sX + sX 1 где sX и sX — стандартные ошибки средних для двух выбо 1 рок.

Если объем первой выборки равен n1, а объем второй — n2, то s1 2 s sX = sX =, и n n где s1 и s2 — стандартные отклонения выборок.

Перепишем определение t, используя выборочные стандарт ные отклонения:

X1 - X t =.

2 s1 s + n1 n Объединенная оценка дисперсии для выборок объема n1 и n равна n1 ( -1 s1 + n2 -1 s ) ( ) s2 =.

n1 + n2 - Тогда X1 - X t =.

s2 s + n1 n Это определение t для выборок произвольного объема. Чис ло степеней свободы = n1 + n2 – 2.

Заметим, что если объемы выборок равны, то есть n1 = n2 = n, то мы получим ранее использовавшуюся формулу для t.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА ПРОДОЛЖЕНИЕ ПРИМЕРОВ Применим теперь критерий Стьюдента к тем данным, которые рассматривались при изучении дисперсионного анализа. Выво ды, которые мы получим, не будут отличаться от прежних, по скольку как говорилось критерий Стьюдента есть частный слу чай дисперсионного анализа.

Позволяет ли правильное лечение сократить срок госпитализации?

Обратимся к рис. 3.7. Средняя продолжительность госпитализации 36 больных пиелонефритом, получавших правильное (соответ ствующее официальным рекомендациям) лечение, составила 4,51 сут, а 36 больных, получавших неправильное лечение 6, сут. Стандартные отклонения для этих групп — соответственно 1,98 сут и 2,54 сут. Так как численность групп одна и та же, s2 = 1,982 + 2,542 = 5,18.

объединенная оценка дисперсии () Под ставив эту величину в выражение для t, получим 4,51- 6, t == -3,30.

5,18 5, + 36 Число степеней свободы = 2 (n – 1) = 2 (36 – 1) = 70. По таблице 4.1 находим, что для 1% уровня значимости критичес кое значение t составляет 2,648, то есть меньше чем мы получи ли (по абсолютной величине). Следовательно, если бы наши группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые различия, была бы меньше 1%. Итак различия в сроках госпитализации статистически значимы.

Галотан и морфин при операциях на открытом сердце В исследовании Конахана и соавт. (рис. 3.8) минимальное АДсредн между началом анестезии и началом операции составляло в среднем: при галотановои анестезии 66,9 мм. рт. ст., при морфино 98 ГЛАВА Таблица 4.2. Показатели гемодинамики при галотановой и мор финовой анестезии.

Галотан (n = 9) Морфин (n = 16) Стандартное Стандартное Показатель Среднее отклонение Среднее отклонение Наилучший сердечный индекс 2,08 1,05 1,75 0, Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. 76,8 13,8 91,4 19, Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см-5 2210 1200 2830 T. J. Conahan et al. A prospective random comparison of halothane and morphine for open heart anesthesia one year experience. Anesthesiology, 38:528—535, 1973.

вой — 73,2 мм. рт. ст. Стандартные отклонения составляли со ответственно 12,2 и 14,4 мм. рт. ст. В каждой группе был больной.

Вычислим объединенную оценку дисперсии:

s2 = 12,22 +14,42 =178,1, () тогда 66,9 - 73, t == -2,607.

178,1 178, + 61 Число степеней свободы = 2(n – 1) = 2(61 – 1) = 120. По таблице 4.1 находим, что для 5% уровня значимости критичес кое значение t составляет 1,980, то есть меньше, чем мы полу чили. Заключаем, что морфин меньше снижает артериальное давление, чем галотан.

Конахан и соавт. измеряли еще один параметр гемодинамики — минутный объем сердца (объем крови, который левый желу дочек перекачивает за минуту). Поскольку этот объем зависит СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА от размеров тела, деятельность сердца (которая и интересовала исследователей) лучше характеризуется сердечным индексом — отношением минутного объема сердца к площади поверхности тела. В группе галотана сердечный индекс определили у 9 боль ных (табл. 4.2), он составил в среднем 2,08 л/мин/м2 (стандарт ное отклонение 1,05 л/мин/м2), у 16 больных в группе морфина — 1,75 л/мин/м2 (стандартное отклонение 0,88 л/мин/м2). Явля ется ли это различие статистически значимым?

Найдем объединенную оценку дисперсии ( -1 1,052 + 16 -1 0, ) ( ) s2 == 0,89, 9 +16 - и поэтому 2,08 -1, t == 0,84.

0,89 0, + 9 Число степеней свободы = 9 + 16 – 2 = 23. Критическое значение t при 5% уровне значимости составляет 2,069, что боль ше полученного нами. Итак, статистически значимых различий не найдено. Можно ли утверждать, что различий нет? Ответ на этот вопрос мы узнаем в гл. 6.

КРИТЕРИЙ СТЬЮДЕНТА С ТОЧКИ ЗРЕНИЯ ДИСПЕРСИОННОГО АНАЛИЗА* Хотя критерий Стьюдента является просто вариантом диспер сионного анализа, этот факт осознается очень немногими. По кажем, что в случае двух групп справедливо равенство F = t2.

Рассмотрим две выборки равного объема n и со средними X и и стандартными отклонениями s1 и s2.

X Как вы помните, отношение F есть отношение двух оценок дисперсии. Первая, внутригрупповая оценка есть среднее вы борочных дисперсий:

* Этот раздел посвящен сугубо математической стороне дела, и его можно пропустить без ущерба для понимания дальнейшего изложения.

100 ГЛАВА 2 2 sвну = s1 + s2.

( ) Вторая межгрупповая оценка вычисляется по выборочным средним:

X1 - X + X - X ( ) ( ) sX =, 2 - следовательно, sX = X1 - X + X2 - X, ( ) ( ) где — среднее двух выборочных средних:

X X = X1 + X.

() Исключим X из формулы для sX :

sX = X1 - X1 + X2 + X2 - X1 + X2 = () 1() 1 1 1 = X1 - X2 + X2 - X1.

2 2 2 Если разность возводится в квадрат все равно, что из чего вычитать (а – b)2 = (b – а)2. Поэтому 1 1 1 sX = X1 - X2 + X1 - X2 = 2 2 2 = 2 X1 - X2 = X1 - X2.

() 1() Таким образом, межгрупповая оценка дисперсии n 2 sмеж = nsX = X1 - X2.

() F есть отношение межгрупповой оценки к внутригрупповой и равно СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА n () () sмеж 2 X1 - X2 X1 - X F = = = = 2 2 sвну 1 s1 + s2 s1 s 2 ( )n n + X1 - X =.

2 s1 s + n n Но величина в скобках есть не что иное, как t. Тем самым, F = t2.

Межгрупповое число степеней свободы в F равно числу групп минус единица, то есть 2 – 1 = 1. Внутригрупповое число степе ней свободы равно произведению числа групп на число равное численности каждой группы минус единица, то есть 2(n – 1).

Но это как раз число степеней свободы в критерии Стьюдента.

Таким образом, можно сказать, что в случае сравнения двух групп критерии Стьюдента и дисперсионный анализ — вариан ты одного критерия. Конечно, если групп больше двух диспер сионный анализ в форме критерия Стьюдента неприменим и нужно воспользоваться общим вариантом дисперсионного ана лиза изложенным в гл. 3.

ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА Критерий Стьюдента предназначен для сравнения двух групп.

Однако на практике он широко (и неправильно — см. рис. 4.1) используется для оценки различии большего числа групп по средством попарного их сравнения. При этом вступает в силу эффект множественных сравнений который нам еще неоднок ратно встретится в разнообразных обличиях.

Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех груп пах — получавших препарат А, получавших препарат Б и полу чавших плацебо В. С помощью критерия Стьюдента проводят 102 ГЛАВА 3 парных сравнения: группу А сравнивают с группой В, груп пу Б — с группой В и наконец А с Б. Получив достаточно вы сокое значение t в каком либо из трех сравнении сообщают что «P < 0,05». Это означает, что вероятность ошибочного заклю чения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%.

Разберемся подробнее. В исследовании был принят 5% уро вень значимости. Значит вероятность ошибиться при сравнении групп А и В — 5%. Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И нако нец при сравнении групп А и Б ошибка возможна также в 5% случаев. Следовательно, вероятность ошибиться хотя бы в од ном из трех сравнении составит не 5%, а значительно больше. В общем случае эта вероятность равна k P =1-( ) 1- 0,05, где k — число сравнений.

При небольшом числе сравнений можно использовать при ближенную формулу P = 0,05k, то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений.

Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнении 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препа рат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.

Вернемся на минуту к нашим марсианам. Рассматривая в гл.

2 случайные выборки из населения этой планеты мы убедились, что у разных выборок из одной совокупности могут быть за метно разные средние значения и стандартные отклонения — СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА взять хоть три случайные выборки на рис. 2.6. Представим себе что это — результаты исследования влияния гормонов человека на рост марсиан. Одной группе дали тестостерон другой — эс традиол, а третьей — плацебо. Как известно гормоны человека не оказывают на марсиан никакого действия, поэтому три экс периментальные группы — это просто три случайные выборки из одной совокупности как мы это и знали с самого начала. Что хорошо известно нам то неизвестно исследователям. На рис. 4. результаты исследования представлены в виде принятом в ме дицинских публикациях. Столбиками изображены выборочные средние. Вертикальные черточки задают интервалы в плюс-ми нус одну стандартную ошибку среднего. Засучив рукава наши исследователи приступают к попарному сравнению групп с по мощью критерия Стьюдента и получают такие значения t пла цебо—тестостерон — 2,39, плацебо—эстрадиол — 0,93 и тес тостерон—эстрадиол — 1,34. Так как в каждом сравнении уча ствуют 2 группы по 10 марсиан в каждой число степеней свобо ды равно 2(10 – 1) = 18. По таблице 4.1 находим, что при 5% уровне значимости критическое значение t равно 2,101. Таким образом, пришлось бы заключить что марсиане, получавшие тестостерон стали меньше ростом чем марсиане, получавшие плацебо, в то время как эстрадиол по влиянию на рост суще ственно не отличается от плацебо, а тестостерон от эстрадиола.

Задумайтесь над этим результатом. Что в нем не так?

Если тестостерон дал результаты не отличающиеся от эстра диола, а эстрадиол действует неотличимо от плацебо то как те стостерон оказался отличным от плацебо? Столь странный вы вод обычно не смущает исследователей, а лишь вдохновляет их на создание изощренного «Обсуждения».

Дисперсионный анализ приведенных данных дает значение F = 2,74. Число степеней свободы = m – 1 = 3 – 1 = 2 и = меж вну m (n – 1) = 3 (10 – 1) = 27. Критическое значение F для 5% уровня значимости равно 3,35, то есть превышает полученное нами.

Итак, дисперсионный анализ говорит об отсутствии различий между группами.

В заключение приведем три правила:

• Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп.

104 ГЛАВА Плацебо Тестостерон Эстрадиол Рис. 4.6. Влияние гормонов человека на рост марсиан. Именно в таком виде результаты исследования увидели бы свет в каком-нибудь медицинском журнале. Высота столби ков соответствует средним, вертикальная черта на верхушке у каждого столбика соот ветствует интервалу плюс-минус одна стандартная ошибка среднего (а не стандартное отклонение).

• Если схема эксперимента предполагает большее число групп, воспользуйтесь дисперсионным анализом.

• Если критерии Стьюдента был использован для проверки раз личий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости, приводимый авторами на число возможных сравнений.

КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ МНОЖЕСТВЕННЫХ СРАВНЕНИЙ Только что мы познакомились со злостным вредителем науч ных исследований — эффектом множественных сравнений. Он состоит в том, что при многократном применении критерия ве роятность ошибочно найти различия там, где их нет возрастает.

Если исследуемых групп больше двух, то следует восполь зоваться дисперсионным анализом. Однако дисперсионный ана Рост, см СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА лиз позволяет проверить лишь гипотезу о равенстве всех сред них. Но если гипотеза не подтверждается, нельзя узнать какая именно группа отличается от других.

Это позволяют сделать методы множественного сравнения.

Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда на наш взгляд следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсион ного анализа проверить нулевую гипотезу о равенстве всех сред них, а уже затем если нулевая гипотеза отвергнута выделить среди них отличные от остальных, используя для этого методы множественного сравнения*. Простейший из методов множе ственного сравнения — введение поправки Бонферрони.

Как было показано в предыдущем разделе при трехкратном применении критерия Стьюдента, с 5% уровнем значимости, ве роятность обнаружить различия там, где их нет, составляет не 5%, а почти 3 5 = 15%. Этот результат является частным слу чаем неравенства Бонферрони, если k раз применить критерии с уровнем значимости, то вероятность хотя бы в одном случае найти различие там, где его нет не превышает произведения k на. Неравенство Бонферрони выглядит так:

< k, где — вероятность хотя бы один раз ошибочно выявить раз личия.

Можно сказать, что собственно и является истинным уров нем значимости многократно примененного критерия. Из нера венства Бонферрони следует, что если мы хотим обеспечить вероятность ошибки, то в каждом из сравнений мы должны принять уровень значимости /k — это и есть поправка Бон феррони. Например, при трехкратном сравнении уровень зна чимости должен быть 0,05/3 = 1,7%.

* Некоторые авторы считают этап дисперсионного анализа излишним и предлагают сразу применить методы множественного сравнения.

Этот подход изложен в В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction. Wiley, NewYork, 1977, chap. 10. Analysis of K samples problems.

106 ГЛАВА Поправка Бонферрони хорошо работает, если число сравне ний невелико. Если оно превышает 8, метод становится слиш ком «строгим и даже весьма большие различия приходится при знавать статистически незначимыми*. Существуют не столь же сткие методы множественного сравнения, например критерии Ньюмена-Кейлса (его мы рассмотрим в следующем разделе). Все методы множественного сравнения схожи с поправкой Бонфер рони в том что, будучи модификацией критерия Стьюдента, учи тывают многократность сравнений.

Один из способов смягчить строгость поправки Бонферро ни состоит в том, чтобы увеличить число степеней свободы, вос пользовавшись знакомой из дисперсионного анализа внутри групповой оценкой дисперсии. Вспомним что X1 - X t =, s2 s + n1 n где s2 – объединенная оценка дисперсии совокупности.

Используя в качестве такой оценки внутригрупповую дис персию sвну (гл. 3), получим:

X1 - X t =.

2 sвну sвну + n1 n Если объемы выборок одинаковы то X1 - X t =.

2sвну n Число степеней свободы = m(n – 1). Если число групп m больше 2, то число степеней свободы при таком расчете будет * Способность критерия выявлять различия называется чувствительностью, она обсуждается в гл. 6.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА больше 2(n – 1) благодаря чему критическое значение t умень шится.

Бег и менструации. Продолжение анализа В предыдущей главе мы выяснили, что различия в ежегодном числе менструальных циклов в группах спортсменок физкуль турниц и в контрольной группе статистически значимы. Одна ко осталось неясным, отличаются ли от контрольной группы и спортсменки и физкультурницы или только спортсменки? От личаются ли спортсменки от физкультурниц? Способа опреде лить межгрупповые различия у нас не было. Теперь, используя критерий Стьюдента с поправкой Бонферрони, мы можем по парно сравнить все три группы.

sвну Внутригрупповая оценка дисперсии = 3,95. Число групп m = 3, численность каждой группы n = 26. Следовательно, чис ло степеней свободы = m(n – 1) = 3(26 – 1) = 75. (Если бы мы оценивали дисперсию по двум группам, число степеней свобо ды было бы 2(n – 1) = 2(26 – 1) = 50). Произведем попарное срав нение трех групп.

При сравнении контрольной группы и группы физкультур ниц имеем:

X2 - X1 10,1-11, t == = -2,54, 2sвну 2 3, n при сравнении контрольной группы и группы спортсменок:

X3 - X1 9,1-11, t == = -4,35, 2sвну 2 3, n и при сравнении группы физкультурниц и группы спортсменок:

X2 - X3 10,1- 9, t == =1,81.

2sвну 23, n Мы провели 3 сравнения, поэтому уровень значимости в каж 108 ГЛАВА дом должен быть 0,05/3, то есть примерно 0,017. По таблице 4. находим*, что при 75 степенях свободы критическое значение составляет примерно 2,45.

Таким образом, мы можем заключить, что и у спортсменок и у физкультурниц частота менструации ниже, чем в контрольной группе при этом у спортсменок и физкультурниц она не отлича ется.

КРИТЕРИЙ НЬЮМЕНА-КЕЙЛСА** При большом числе сравнении поправка Бонферрони делает критерии Стьюдента излишне жестким. Более изощренный кри терий Ньюмена–Кейлса дает более точную оценку вероятности ;

чувствительность его выше, чем критерия Стьюдента с по правкой. Бонферрони.

Сначала нужно с помощью дисперсионного анализа прове рить нулевую гипотезу о равенстве всех средних. Если она от вергается, все средние упорядочивают по возрастанию и срав нивают попарно, каждый раз вычисляя значение критерия Нью мена–Кейлса:

X - X A B q =, sвну 1 + 2 nA nB * Собственно говоря, значения для = 0,017 в таблице нет. В таких случаях можно либо использовать ближайшее меньшее значение (в нашем при мере это 0,01) либо приблизительно рассчитать нужное критическое зна чение по соседним. Если нужное нам значение находится между 1 и н 2, которым соответствуют критические значения t1 и t2 то н - tн = t1 + t2 - t ( )( ), (2 - ) где tн — критическое значение для уровня значимости aн.

** Этот раздел важен для тех, кто использует нашу книгу как руководство по анализу данных. Его можно опустить без ущерба для пони мания осталь ного материала.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА где и — сравниваемые средние, sвну — внутригрупповая X XB A дисперсия, а nA и nB численность групп.

Вычисленное значение q сравнивается с критическим значе нием (табл. 4.3). Критическое значение зависит от (вероятность ошибочно обнаружить различия хотя бы в одной из всех сравни ваемых пар, то есть истинный уровень значимости) числа степе ней свободы = N – m (где N – сумма численностей всех групп, m – число групп) и величины l, которая называется интервалом срав нения. Интервал сравнения определятся так. Если сравниваются средние стоящие соответственно на j-м и i-м месте в упорядочен ном ряду, то интервал сравнения l = j – i + 1. Например, при срав нении 4-го и 1-го членов этого ряда l = 4 – 1 + 1 = 4, при сравнении 2-го и 1-го l = 2 – 1 + 1 = 2.

Результат применения критерия Ньюмена-Кейлса зависит от очередности сравнений, поэтому их следует проводить в опре деленном порядке. Этот порядок задается двумя правилами.

1. Если мы расположили средние от меньшего к большему (от 1 до m), то сначала нужно сравнить наибольшее с наимень шим, то есть m-оe с 1-ым, затем m-ое со 2-ым, 3-м и так далее вплоть до m – 1-го. Затем предпоследнее (m – 1-е) тем же поряд ком сравниваем с 1-м, 2-м и так далее до m – 2-го. Продолжаем эти «стягивающие сравнения» пока не переберем все пары. На пример, в случае 4 групп порядок сравнений такой: 4 – 1, 4 – 2, 4 – 3, 3 – 1, 3 – 2, 2 – 1.

2. Перебирать все пары впрочем, приходится не всегда. Если какие-либо средние не различаются, то все средние лежащие между ними тоже не различаются. Например, если не выявлено различий между 3-м и 1-м средним, не нужно сравнивать ни 3-е со 2-м, ни 2-е с 1-м.

Бег и менструации. Продолжение анализа Воспользуемся критерием Ньюмена-Кейлса для анализа связи частоты менструации с занятиями физкультурой и спортом. Сред негодовое число менструаций в контрольной группе составило 11,5 у физкультурниц — 10,1 и у спортсменок 9,1. Упорядочим эти средние по возрастанию 9,1, 10,1, 11,5 (спортсменки физкуль турницы контроль) и обозначим их,, соответственно.

X X1 X2 Оценка внутригрупповой дисперсии sвну = 3,95, число степе 110 ГЛАВА Таблица 4.3А. Критические значения q для = 0, Интервал сравнения l 2 3 4 5 6 7 8 9 1 17,97 26,98 32,82 37,08 40,41 43,12 45,40 47,36 49, 2 6,085 8,331 9,798 10,88 11,74 12,44 13,03 13,54 13, 3 4,501 5,910 6,825 7,502 8,037 8,478 8,853 9,177 9, 4 3,927 5,040 5,757 6,287 6,707 7,053 7,347 7,602 7, 5 3,635 4,602 5,218 5,673 6,033 6,330 6,582 6,802 6, 6 3,461 4,339 4,896 5,305 5,628 5,895 6,122 6,319 6, 7 3,344 4,165 4,681 5,060 5,359 5,606 5,815 5,998 6, 8 3,261 4,041 4,529 4,886 5,167 5,399 5,597 5,767 5, 9 3,199 3,949 4,415 4,756 5,024 5,244 5,432 5,595 5, 10 3,151 3,877 4,327 4,654 4,912 5,124 5,305 5,461 5, 11 3,113 3,82 4,256 4,574 4,823 5,028 5,202 5,353 5, 12 3,082 3,773 4,199 4,508 4,751 4,950 5,119 5,265 5, 13 3,055 3,735 4,151 4,453 4,690 4,885 5,049 5,192 5, 14 3,033 3,702 4,111 4,407 4,639 4,829 4,990 5,131 5, 15 3,014 3,674 4,076 4,367 4,595 4,782 4,940 5,077 5, 16 2,998 3,649 4,046 4,333 4,557 4,741 4,897 5,031 5, 17 2,984 3,628 4,020 4,303 4,524 4,705 4,858 4,991 5, 18 2,971 3,609 3,997 4,277 4,495 4,673 4,824 4,956 5, 19 2,960 3,593 3,977 4,253 4,469 4,645 4,794 4,924 5, 20 2,950 3,578 3,958 4,232 4,445 4,620 4,768 4,896 5, 24 2,919 3,532 3,901 4,166 4,373 4,541 4,684 4,807 4, 30 2,888 3,486 3,845 4,102 4,302 4,464 4,602 4,720 4, 40 2,858 3,442 3,791 4,039 4,232 4,389 4,521 4,635 4, 60 2,829 3,399 3,737 3,977 4,163 4,314 4,441 4,550 4, 120 2,800 3,356 3,685 3,917 4,096 4,241 4,363 4,468 4, 2,772 3,314 3,633 3,858 4,030 4,170 4,286 4,387 4, ней свободы n = 75, численность каждой группы 26 человек. Те перь мы можем воспользоваться критерием Ньюмена—Кейлса.

Сравним X3 и X1. Имеем:

X3 - X1 11, 5 - 9, q == = 6,157.

3, 95 1 sвну 1 + + 2 n3 n1 2 26 Интервал сравнения в данном случае l = 3 – 1 + 1 = 3. По таблице 4.ЗА находим, что для уровня значимости = 0,05 числа степеней свободы = 75 и интервала сравнения l = 3 критическое СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Таблица 4.3Б. Критические значения q для = 0, Интервал сравнения l 2 3 4 5 6 7 8 9 1 90,03 135 164,3 185,6 202,2 215,8 227,2 237 245, 2 14,04 19,02 22,29 24,72 26,63 28,2 29,53 30,68 31, 3 8,261 10,62 12,17 13,33 14,24 15 15,64 16,2 16, 4 6,512 8,12 9,173 9,958 10,58 11,1 11,55 11,93 12, 5 5,702 6,976 7,804 8,421 8,913 9,321 9,669 9,972 10, 6 5,243 6,331 7,033 7,556 7,973 8,318 8,613 8,869 9, 7 4,949 5,919 6,543 7,005 7,373 7,679 7,939 8,166 8, 8 4,746 5,635 6,204 6,625 6,96 7,237 7,474 7,681 7, 9 4,596 5,428 5,957 6,348 6,658 6,915 7,134 7,325 7, 10 4,482 5,27 5,769 6,136 6,428 6,669 6,875 7,055 7, 11 4,392 5,146 5,621 5,97 6,247 6,476 6,672 6,842 6, 12 4,32 5,046 5,502 5,836 6,101 6,321 6,507 6,67 6, 13 4,26 4,964 5,404 5,727 5,981 6,192 6,372 6,528 6, 14 4,21 4,895 5,322 5,634 5,881 6,085 6,258 6,409 6, 15 4,168 4,836 5,252 5,556 5,796 5,994 6,162 6,309 6, 16 4,131 4,786 5,192 5,489 5,722 5,915 6,079 6,222 6, 17 4,099 4,742 5,14 5,43 5,659 5,847 6,007 6,147 6, 18 4,071 4,703 5,094 5,379 5,603 5,788 5,944 6,081 6, 19 4,046 4,67 5,054 5,334 5,554 5,735 5,889 6,022 6, 20 4,024 4,639 5,018 5,294 5,51 5,688 5,839 5,97 6, 24 3,956 4,546 4,907 5,168 5,374 5,542 5,685 5,809 5, 30 3,889 4,455 4,799 5,048 5,242 5,401 5,536 5,653 5, 40 3,825 4,367 4,696 4,931 5,114 5,265 5,392 5,502 5, 60 3,762 4,282 4,595 4,818 4,991 5,133 5,253 5,356 5, 120 3,702 4,2 4,497 4,709 4,872 5,005 5,118 5,214 5, 3,643 4,12 4,403 4,603 4,757 4,882 4,987 5,078 5, H. I. Наrtег. Order statistics and their use in testing and estimation. Vol. 1: Tests based on range and studentized range of samples from a normal population. U.S. Government Printing Office, Washington, D.C., 1970.

значение q равно 3,385, то есть меньше чем поучилось у нас.

Следовательно, различие статистически значимо.

Теперь сравним и.

X3 X X3 - X2 11, 5 - 10, q == = 3, 592.

3, 95 1 sвну 1 + + 2 n3 n2 2 26 112 ГЛАВА Величины и те же, что и раньше, но теперь l = 3 – 2 + 1 = 2.

По таблице 4.3А находим критическое значение q = 2,822. Полу ченное нами значение снова превосходит критическое. Различие статистически значимо.

Для и имеем:

X2 X X2 - X1 10,1 - 9, q == = 2, 566.

3, 95 1 sвну 1 + + 2 n2 n1 2 26 Величины, и l = 2 – 1 + 1 = 2 те же, что и в предыдущем сравнении, соответственно то же и критическое значение. Оно больше вычисленного, следовательно, различие статистически не значимо.

В данном случае вывод не отличается от полученного при применении критерия Стьюдента с поправкой Бонферрони.

КРИТЕРИИ ТЬЮКИ Критерии Тьюки совпадает с критерием Ньюмена-Кейлса во всем кроме способа определения критического значения. В кри терии Ньюмена-Кейлса критическое значение q зависит от ин тервала сравнения l. В критерии Тьюки при всех сравнениях вместо l берут число групп m, таким образом, критическое зна чение q все время одно и то же. Критерий Ньюмена-Кейлса был разработан как усовершенствование критерия Тьюки.

Применяя критерии Тьюки к только что рассмотренной за даче о влиянии бега на частоту менструации нужно было бы приравнять l к числу групп m = 3. Соответствующее критичес кое значение равно 3,385 и неизменно при всех сравнениях. В нашем примере при двух последних сравнениях критические значения по Тьюки будут больше чем по Ньюмену-Кейлсу. Од нако в данном случае результат применения обоих критериев один и тот же. Разумеется, так будет не всегда. Поскольку в кри терии Тьюки при всех сравнениях используется максимальное критическое значение q, различия будут выявляться реже, чем при использовании критерия Ньюмена-Кейлса.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Критерий Тьюки слишком жесток и отвергает существование различий чаще, чем нужно, а критерий Ньюмена–Кейлса напро тив слишком мягок. В общем, выбор критерия определяется ско рее психологическим фактором, чего больше боится исследова тель найти отличия там, где их нет или пропустить их там, где они есть. Автор предпочитает критерий Ньюмена–Кейлса.

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ С КОНТРОЛЬНОЙ ГРУППОЙ* Иногда задача заключается в том, чтобы сравнить несколько групп с единственной — контрольной. Конечно, можно было бы использовать любой из описанных методов множественного сравнения (критерий Стьюдента с поправкой Бонферрони, Нью мена—Кейлса или Тьюки): попарно сравнить все группы, а за тем отобрать те сравнения, в которых участвовала контрольная группа. Однако в любом случае (особенно при применении по правки Бонферрони) из-за большого числа лишних сравнений критическое значение окажется неоправданно высоким. Ины ми словами мы слишком часто будем пропускать реально суще ствующие различия. Преодолеть эту трудность позволяют спе циальные методы сравнения, из которых мы разберем два. Это еще одна модификация критерия Стьюдента с поправкой Бон феррони и критерии Даннета. Как и другие методы множествен ного сравнения их следует применять только после того, как с помощью дисперсионного анализа отвергнута нулевая гипоте за о равенстве всех средних.

Поправка Бонферрони Применить поправку Бонферрони к сравнению нескольких групп с одной контрольной очень просто. Ход вычислений такой же что и при применении поправки Бонферрони в общем случае.

Надо только учесть, что число сравнений k составляет теперь * Этот материал важен для тех, кто использует нашу книгу как руко водство для анализа данных. Во вводном курсе этот раздел можно опустить.

Таблица 4.4А. Критические значения q для = 0, Интервал сравнения l 2 3 4 5 6 7 8 9 10 11 12 13 16 5 2,57 3,03 3,29 3,48 3,62 3,73 3,82 3,90 3,97 4,03 4,09 4,14 4,26 4, 6 2,45 2,86 3,10 3,26 3,39 3,49 3,57 3,64 3,71 3,76 3,81 3,86 3,97 4, 7 2,36 2,75 2,97 3,12 3,24 3,33 3,41 3,47 3,53 3,58 3,63 3,67 3,78 3, 8 2,31 2,67 2,88 3,02 3,13 3,22 3,29 3,35 3,41 3,46 3,50 3,54 3,64 3, 9 2,26 2,61 2,81 2,95 3,05 3,14 3,20 3,26 3,32 3,36 3,40 3,44 3,53 3, 10 2,23 2,57 2,76 2,89 2,99 3,07 3,14 3,19 3,24 3,29 3,33 3,36 3,45 3, 11 2,20 2,53 2,72 2,84 2,94 3,02 3,08 3,14 3,19 3,23 3,27 3,30 3,39 3, 12 2,18 2,50 2,68 2,81 2,90 2,98 3,04 3,09 3,14 3,18 3,22 3,25 3,34 3, 13 2,16 2,48 2,65 2,78 2,87 2,94 3,00 3,06 3,10 3,14 3,18 3,21 3,29 3, 14 2,14 2,46 2,63 2,75 2,84 2,91 2,97 3,02 3,07 3,11 3,14 3,18 3,26 3, 15 2,13 2,44 2,61 2,73 2,82 2,89 2,95 3,00 3,04 3,08 3,12 3,15 3,23 3, 16 2,12 2,42 2,59 2,71 2,80 2,87 2,92 2,97 3,02 3,06 3,09 3,12 3,20 3, 17 2,11 2,41 2,58 2,69 2,78 2,85 2,90 2,95 3,00 3,03 3,07 3,10 3,18 3, 18 2,10 2,40 2,56 2,68 2,76 2,83 2,89 2,94 2,98 3,01 3,05 3,08 3,16 3, 19 2,09 2,39 2,55 2,66 2,75 2,81 2,87 2,92 2,96 3,00 3,03 3,06 3,14 3, 20 2,09 2,38 2,54 2,65 2,73 2,80 2,86 2,90 2,95 2,98 3,02 3,05 3,12 3, 24 2,06 2,35 2,51 2,61 2,70 2,76 2,81 2,86 2,90 2,94 2,97 3,00 3,07 3, 30 2,04 2,32 2,47 2,58 2,66 2,72 2,77 2,82 2,86 2,89 2,92 2,95 3,02 3, 40 2,02 2,29 2,44 2,54 2,62 2,68 2,73 2,77 2,81 2,85 2,87 2,90 2,97 3, 60 2,00 2,27 2,41 2,51 2,58 2,64 2,69 2,73 2,77 2,80 2,83 2,86 2,92 3, 120 1,98 2,24 2,38 2,47 2,55 2,60 2,65 2,69 2,73 2,76 2,79 2,81 2,87 2, 1,96 2,21 2,35 2,44 2,51 2,57 2,61 2,65 2,69 2,72 2,74 2,77 2,83 2, Таблица 4.4Б. Критические значения q для = 0, Интервал сравнения l 2 3 4 5 6 7 8 9 10 11 12 13 16 5 4,03 4,63 4,98 5,22 5,41 5,56 5,69 5,80 5,89 5,98 6,05 6,12 6,30 6, 6 3,71 4,21 4,51 4,71 4,87 5,00 5,10 5,20 5,28 5,35 5,41 5,47 5,62 5, 7 3,50 3,95 4,21 4,39 4,53 4,64 4,74 4,82 4,89 4,95 5,01 5,06 5,19 5, 8 3,36 3,77 4,00 4,17 4,29 4,40 4,48 4,56 4,62 4,68 4,73 4,78 4,90 5, 9 3,25 3,63 3,85 4,01 4,12 4,22 4,30 4,37 4,43 4,48 4,53 4,57 4,68 4, 10 3,17 3,53 3,74 3,88 3,99 4,08 4,16 4,22 4,28 4,33 4,37 4,42 4,52 4, 11 3,11 3,45 3,65 3,79 3,89 3,98 4,05 4,11 4,16 4,21 4,25 4,29 4,30 4, 12 3,05 3,39 3,58 3,71 3,81 3,89 3,96 4,02 4,07 4,12 4,16 4,19 4,29 4, 13 3,01 3,33 3,52 3,65 3,74 3,82 3,89 3,94 3,99 4,04 4,08 4,11 4,20 4, 14 2,98 3,29 3,47 3,59 3,69 3,76 3,83 3,88 3,93 3,97 4,01 4,05 4,13 4, 15 2,95 3,25 3,43 3,55 3,64 3,71 3,78 3,83 3,88 3,92 3,95 3,99 4,07 4, 16 2,92 3,22 3,39 3,51 3,60 3,67 3,73 3,78 3,83 3,87 3,91 3,94 4,02 4, 17 2,90 3,19 3,36 3,47 3,56 3,63 3,69 3,74 3,79 3,83 3,86 3,90 3,98 4, 18 2,88 3,17 3,33 3,44 3,53 3,60 3,66 3,71 3,75 3,79 3,83 3,86 3,94 4, 19 2,86 3,15 3,31 3,42 3,50 3,57 3,63 3,68 3,72 3,76 3,79 3,83 3,90 4, 20 2,85 3,13 3,29 3,40 3,48 3,55 3,60 3,65 3,69 3,73 3,77 3,80 3,87 3, 24 2,80 3,07 3,22 3,32 3,40 3,47 3,52 3,57 3,61 3,64 3,68 3,70 3,78 3, 30 2,75 3,01 3,15 3,25 3,33 3,39 3,44 3,49 3,52 3,56 3,59 3,62 3,69 3, 40 2,70 2,95 3,09 3,19 3,26 3,32 3,37 3,41 3,44 3,48 3,51 3,53 3,60 3, 60 2,66 2,90 3,03 3,12 3,19 3,25 3,29 3,33 3,37 3,40 3,42 3,45 3,51 3, 120 2,62 2,85 2,97 3,06 3,12 3,18 3,22 3,26 3,29 3,32 3,35 3,37 3,43 3, 2,58 2,79 2,92 3,00 3,06 3,11 3,15 3,19 3,22 3,25 3,27 3,29 3,35 2, С. W, Dunnett. New tables for multiple comparisons with a control. Biometrics, 20:482—491, 1964.

116 ГЛАВА m – 1 и соответственно рассчитать уровень значимости в каж дом из сравнений = /k. Применим этот метод к исследо ванию частоты менструаций. Сравним спортсменок и физкуль турниц с контрольной группой. Число сравнений k – 2 (а не как при всех возможных сравнениях). Чтобы полная вероятность ошибочно обнаружить различия не превышала 0,05 при каж дом сравнении, уровень значимости должен быть 0,05/2 = 0, (вместо 0,05/3 = 0,017). Число степеней свободы — 75;

крити ческое значение t = 2,31 (при всех возможных сравнениях оно бы составило 2,45). Величину l для сравнения физкультурниц и спортсменок с контролем мы уже рассчитывали — 2,54 и 4, соответственно. Таким образом, и спортсменки и физкультур ницы статистически значимо отличаются от контрольной груп пы. В данном случае вывод получился тот же, что и при приме нении поправки Бонферрони в общем случае. Ясно, однако, что за счет снижения критического уровня t чувствительность ме тода повышается. Обратите внимание, что в данном случае мы не делаем никакого заключения о различии спортсменок и физ культурниц.

Критерии Даннета Критерии Даннета — это вариант критерия Ньюмена–Кей лса для сравнения нескольких групп с одной контрольной. Он вычисляется как Xкон - X A q =.

1 sвну + nкон nA Число сравнении равно числу групп не считая контрольной, и существенно меньше числа сравнений в исходном критерии Нью мена–Кейлса. Соответственно меньше и критические значения (табл. 4.4). Как и в критерии Ньюмена–Кейлса сначала средние значения для всех групп упорядочиваются только теперь — по аб солютной величине их отличия от контрольной группы. Затем кон трольную группу сравнивают с остальными начиная с наиболее отличной от контрольной. Если различия с очередной группой не найдены вычисления прекращают. Параметр l постоянен и равен СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА числу групп включая контрольную. Число степеней свободы вы числяют как в критерии Ньюмена–Кейлса: = N – m.

Применим критерий Даннета к анализу влияния бега на мен струации. Сначала сравним с контрольной наиболее от нее от личную группу спортсменок:

Xкон - X1 11, 5 - 9, q === 4, 35.

1 1 3, 95 + sвну + 26 nкон n Общее число средних равно трем, поэтому l = 3. Число степе ней свободы равно 75. По таблице 4.4 находим критическое зна чение для уровня значимости 0,05. Оно равно 2,28. Вычисленное значение больше критического. Тем самым различие между спорт сменками и контрольной группой статистически значимо и срав нения можно продолжать.

Теперь сравним с контрольной группу физкультурниц Xкон - X2 11, 5 - 10, q === 2, 54.

1 1 3, 95 + sвну + nкон n2 26 Критическое значение, q по-прежнему равно 2,28. Вычис ленное значение больше. Различие между физкультурницами и контрольной группой статистически значимо.

Критерии Даннета, как вариант критерия Ньюмена-Кейлса более чувствителен, чем критерий Стьюдента с поправкой Бон феррони, особенно при большом числе групп. Если бы групп было больше, мы убедились бы, что критерии Ньюмена-Кейлса обнаруживает те различия, которые упускает критерии Стью дента с поправкой Бонферрони завышающей критические значе ния t.

ЧТО ОЗНАЧАЕТ Р Поговорим еще раз о вероятности справедливости нулевой гипо тезы Р. Понимание смысла Р требует понимания логики провер ки статистической гипотезы. Например, исследователь хочет 118 ГЛАВА узнать, влияет ли некий препарат на температуру тела. Очевид ная схема эксперимента: взять две группы, одной дать препарат другой плацебо измерить температуру и вычислить для обеих групп среднюю температуру и стандартное отклонение. Сред ние температуры вряд ли совпадут, даже если препарат не обла дает никаким действием. Поэтому естественен вопрос сколь ве роятно, что наблюдаемое различие случайно?

Для ответа на этот вопрос, прежде всего, нужно выразить раз личия одним числом — критерием значимости. Со многими из них мы уже встречались — это критерии F, t, q и q. Значение критерия тем больше, чем больше различия. Если препарат не оказывает действия, то величина критерия будет мала, если ока зывает — велика. Но что значит «мала» и что значит «велика»?

Чтобы разграничить «большие» и «малые» значения крите рия, строится предположение, что препарат не оказывает влия ния на температуру. Это так называемая нулевая гипотеза. Если нулевая гипотеза верна, то обе группы можно считать просто случайными выборками из одной и той же совокупности. Далее эксперимент мысленно проводится на всех возможных выбор ках, и для каждой пары вычисляется значение критерия. Чаше всего оно будет небольшим, но какая-то часть выборок даст весь ма высокие значения. При этом мы сможем указать такое число (критическое значение), выше которого значение критерия, ока зывается, скажем, в 5% случаев.

Теперь вернемся к препарату и вычислим значение крите рия. Если оно превышает критическое значение, то мы можем утверждать следующее, если бы нулевая гипотеза была спра ведлива, то вероятность получить наблюдаемые различия была бы меньше 5%. В принятой системе обозначений это записыва ется как Р < 0,05. Отсюда мы заключаем, что гипотеза об отсут ствии влияния препарата на температуру вряд ли справедлива, то есть различия статистически значимы (при 5% уровне зна чимости). Разумеется, этот вывод по сути своей носит вероят ностный характер. Не исключено, что мы ошибочно признаем неэффективный препарат эффективным, то есть найдем разли чия там, где их нет. Однако мы можем утверждать, что вероят ность подобной ошибки не превышает 5%.

Дадим определение Р.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Р есть вероятность того, что значение критерия окажется не меньше критического значения при условии справедливости нулевой гипотезы об отсутствии различий между группами.

Определение можно сформулировать и по-другому.

Р есть вероятность ошибочно отвергнуть нулевую гипоте зу об отсутствии различий.

Упрощая, можно сказать, что Р — это вероятность справед ливости нулевой гипотезы. Часто говорят также, что Р — это ве роятность ошибки. В общем, и это верно, однако несколько не точно. Дело в том, что существует два рода ошибок. Ошибка I рода — это ошибочное заключение о существовании различий, которых в действительности нет. Вероятность именно этой оце нивает P. Возможна и противоположная ошибка — принять не верную нулевую гипотезу то есть не найти действительно суще ствующее различие. Это гак называемая ошибка II рода. О веро ятности этой ошибки P ничего не говорит, мы обсудим ее в гл. 6.

ЗАДАЧИ 4.1. Конахан и соавт. определили среднее артериальное дав ление и общее периферическое сосудистое сопротивление при операциях на открытом сердце с галотановой (9 больных) и мор финовой (16 больных) анестезией. Результаты приведены в табл.

4.2. Можно ли утверждать, что в группах галотановой и морфи новой анестезии эти гемодинамические показатели различают ся статистически значимо?

4.2. Кокаин чрезвычайно вреден для сердца, он может вызвать инфаркт миокарда даже у молодых людей без атеросклероза. Ко каин сужает коронарные сосуды что приводит к уменьшению притока крови к миокарду кроме того, он ухудшает насосную функцию сердца. Нифедипин (препарат из группы антагонистов кальция) обладает способностью расширять сосуды, его приме няют при ишемической болезни сердца. Ш. Хейл и соавт. (S. L.

Hale, К. J. Alker, S. H. Rezkalla et al. Nifedipine protects the heart from the acute deleterious effects of cocaine if administered before but not after cocaine. Circulation, 83:1437—1443, 1991) предположи ли, что нифедипин можно использовать и при поражении сердца, 120 ГЛАВА вызванном кокаином. Собакам вводили кокаин, а затем нифеди пин либо физиологический раствор. Показателем насосной фун кции сердца служило среднее артериальное давление. Были по лучены следующие данные.

Среднее артериальное давление после приема кокаина, мм рт. ст.

Плацебо Нифедипин 156 171 133 102 129 150 120 110 112 130 105 Влияет ли нифедипин на среднее артериальное давление пос ле приема кокаина?

4.3. Ш. Хейл и соавт. измеряли также диаметр коронарных артерии после приема нифедипина и плацебо. Позволяют ли при водимые ниже данные утверждать, что нифедипин влияет на диаметр коронарных артерий?

Диаметр коронарной артерии, мм Плацебо Нифедипин 2,5 2, 2,2 1, 2,6 1, 2,0 2, 2,1 1, 1,8 1, 2,4 2, 2,3 2, 2,7 2, 2,7 2, 1,9 2, СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА 4.4. Решите задачи 3.1 и 3.5 используя критерий Стьюдента.

4.5. В задаче 3.2 приведены данные, собранные Уайтом и Фре бом о проходимости дыхательных путей у некурящих работаю щих в помещении, где не курят у пассивных курильщиков и у курильщиков выкуривающих различное число сигарет. Диспер сионный анализ обнаружил, что приведенные данные не согла суются с гипотезой о том, что проходимость дыхательных пу тей во всех группах одинакова. Выделите группы с одинаковой функцией легких. Что означает полученный результат, с точки зрения первоначально поставленного вопроса влияет ли пассив ное курение на функцию легких?

4.6. Используя данные задачи 3.2, оцените статистическую значимость различий некурящих работающих в помещении, где не курят со всеми остальными группами. Воспользуйтесь кри терием Даннета.

4.7. Решив задачу 3.3, мы пришли к заключению, что уро вень холестерина липопротеидов высокой плотности (ХЛПВП) у бегунов марафонцев бегунов трусцой и лиц, не занимающих ся спортом неодинаков. Пользуясь критерием Стьюдента с по правкой Бонферрони, сравните эти группы попарно.

4.8. Используя данные задачи 3.3 и рассматривая группу не занимающихся спортом как контрольную сравните ее с осталь ными двумя группами. Используйте поправку Бонферрони.

4.9. Пользуясь данными задачи 3.4, найдите группы с близ кими показателями антибактериальной защиты.

4.10. По данным задачи 3.7 опишите различия групп. Исполь зуйте поправку Бонферрони.

4.11. Решите снова задачу 4.10, пользуясь критерием Нью мена—Кейлса. Сравните результат с решением задачи 4.10 и объясните различия, если они есть.

4.12. В задаче 3.6 мы установили, что существуют различия в степени опустошенности у медицинских сестер работающих с больными разной тяжести. В чем заключаются эти различия?

Глава Анализ качественных признаков Статистические процедуры, с которыми мы познакомились в пре дыдущих главах, предназначены для анализа количественных при знаков. Примером таких признаков служат артериальное давле ние диурез или продолжительность госпитализации. Единицей их измерения могут быть миллиметры ртутного столба, литры или дни. Над значениями количественных признаков можно про изводить арифметические действия. Можно, например, сказать, что диурез увеличился вдвое. Кроме того, их можно упорядочить, то есть расположить в порядке возрастания или убывания.

Однако очень многие признаки невозможно измерить чис лом. Например, можно быть либо мужчиной, либо женщиной, либо мертвым либо живым. Можно быть врачом, юристом, ра бочим и так далее. Здесь мы имеем дело с качественными при знаками. Эти признаки не связаны между собой никакими ариф метическими соотношениями, упорядочить их также нельзя.

Единственный способ описания качественных признаков состо ит в том, чтобы подсчитать число объектов, имеющих одно и АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.

Существует еще один вид признаков. Это порядковые при знаки. Их можно упорядочить, но производить над ними ариф метические действия нельзя. Пример порядкового признака — состояние больного тяжелое, средней тяжести, удовлетворитель ное. С такими признаками мы познакомимся в гл. 8 и 10, а сей час продолжим обсуждение работы Т. Конахана и соавт. по срав нению галотановой и морфиновой анестезии начатое в гл. 3.

Мы уже знаем, что галотан и морфин по-разному влияли на артериальное давление и что это различие статистически зна чимо. Однако для клинициста важнее знать, наблюдалось ли различие в операционной летальности? Из 61 больного, опери рованного под галотановой анестезией, умерли 8, то есть 13,1%.

При использовании морфина умерли 10 из 67, то есть 14,9%. (В гл. 4 мы для простоты считали размеры обеих групп одинако выми, теперь используются реальные данные). Летальность при использовании галотана оказалась примерно на 1% ниже, чем при использовании морфина. Можно ли считать, что морфин опаснее галотана, или такой результат мог быть результатом случайности?

Чтобы ответить на этот вопрос нам сначала нужно найти спо соб оценить точность, с которой доли вычисленные по выбор кам, соответствуют долям во всей совокупности. Однако преж де нам нужно понять, каким должно быть описание самой сово купности. Здесь нам пригодятся уже несколько подзабытые мар сиане.

НОВОСТИ С МАРСА В гл. 2 мы побывали на Марсе, где измерили всех его обитате лей. Хотя ранее мы не говорили об этом, но больше всего нас поразило различие в пигментации марсиан, 50 марсиан были розового, а остальные 150 — зеленого цвета (рис. 5.1).

Как описать совокупность марсиан по этому признаку? Ясно, что нужно указать долю, которую составляют марсиане каждого цвета во всей совокупности марсиан. В нашем случае доля розо вых марсиан pроз = 50/200 = 0,25 и зеленых pзел = 150/200 = 0,75.

124 ГЛАВА Рис. 5.1. Из 200 марсиан 150 имеют зеленую окраску, остальные 50 розовые. Если на угад извлечь марсианина, то вероятность, что он окажется розовым, составляет 50/ = 0,25, то есть 25%.

Поскольку марсиане бывают только розовые и зеленые, справед ливо тождество pроз + pзел = 1. Или, что то же самое, pроз = 1 – pзел.

То есть, зная pроз, мы легко определим и pзел. Таким образом, для характеристики совокупности, которая состоит из двух классов, достаточно указать численность одного из них если доля одного класса во всей совокупности равна р, то доля другого равна 1 – р. Заметим, что pроз есть еще и вероятность того, что случайно выбранный марсианин окажется розовым. Покажем, что доля р в некотором смысле аналогична среднему µ по совокупности.

Введем числовой признак X, который принимает только два зна чения 1 для розового и 0 для зеленого. Среднее значение призна ка X равно X 1+1+… +1+ 0 + 0 +… + µ = = = N 501+150 0 == = 0,25.

200 Как видим, полученное значение совпадает с долей розовых марсиан.

Повторим это рассуждение для общего случая. Пусть име ется совокупность из N членов. При этом М членов обладают каким-то качественным признаком, которого нет у остальных АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ N – M членов. Введем числовой признак X: у членов совокуп ности, обладающих качественным признаком, он будет равен 1, а у членов, не обладающих этим признаком, он будет равен 0. Тогда среднее значение X равно X M 1+ N - M ( ) M µ = = = = p, NN N то есть доле членов совокупности, обладающих качественным признаком.

Используя такой подход, легко рассчитать и показатель раз броса — стандартное отклонение. Не совсем ясно, однако, что понимать под разбросом, если значений признака всего два — и 1. На рис. 5.2 мы изобразили три совокупности по 200 членов в каждой. В первой из них (5.2А) все члены принадлежат к од ному классу. Разброс равен нулю. На рис. 5.2Б разброс уже име ется, но он невелик. На рис. 5.2В совокупность делится на два равные класса. В этом случае разброс максимален.

Итак, найдем стандартное отклонение. По определению оно равно (X - µ), = N где для М членов совокупности значение X = 1, а для остальных N – М членов X = 0. Величина µ = р. Таким образом, 22 2 1- p +… + 1- p + ( ) ( ) ( - p +… + 0 - p ) ( ) == N M 1- p + N - M p2 M 2 1- M ( ) ( ) == 1- p + p2.

( ) NN N Но так как M N = p, то = p 1- p + 1- p p2 = p 1- p + p2 1- p, ( ) ( ) ( ) ( ) или, после преобразования, = p 1- p.

( ) 126 ГЛАВА Рис. 5.2. Что такое разброс данных, если значений признака всего два? Возможно, это станет яснее, если вспомнить, что разброс — это отсутствие единства. Рассмотрим три совокупности из 200 марсиан. А. Все марсиане зеленые. Царит полное единство, раз брос отсутствует, = 0. Б. Среди стройных рядов зеленых марсиан появилось 10 розо вых. Единство немного нарушено, появился некоторый разброс, = 0,2. В. От единства марсиан не осталось и следа: они разделились поровну на зеленых и розовых. Разброс максимален, = 0,5.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Рис. 5.3. Стандартное отклонение доли полностью определяется самой этой долей р.

Когда доля равна 0 или 1, разброс отсутствует и = 0. Когда р = 0,5, разброс максима лен, = 0, Найденное стандартное отклонение полностью определя ется величиной р. Этим оно принципиально отличается от стан дартного отклонения для нормального распределения которое не зависит от µ. На рис. 5.3 показана зависимость от р. Она вполне согласуется с теми впечатлениями которые возникают при рассмотрении рис. 5.2: стандартное отклонение достигает максимума при р = 0,5 и равно 0 когда р равно 0 или 1.

Зная стандартное отклонение можно найти стандартную ошибку для выборочной оценки р. Посмотрим, как это делается.

ТОЧНОСТЬ ОЦЕНКИ ДОЛЕЙ Если бы в наших руках были данные по всем членам совокуп ности, то не было бы никаких проблем связанных с точностью оценок. Однако нам всегда приходится довольствоваться огра ниченной выборкой. Поэтому возникает вопрос, насколько точ но доли в выборке соответствуют долям в совокупности. Про делаем мысленный эксперимент наподобие того, который мы провели в гл. 2, когда рассматривали насколько хорошей оцен кой среднего по совокупности является выборочное среднее.

128 ГЛАВА Рис. 5.4. А. Из совокупности марсиан, среди которых 150 зеленых и 50 розовых, из влекли случайную выборку из 10 особей. В выборку попало 5 зеленых и 5 розовых марсиан, на рисунке они помечены черным. Б. В таком виде данные предстанут перед исследователем, который не может наблюдать всю совокупность и вынужден судить о ней по выборке. Оценка доли розовых марсиан = 5/10 = 0,5.

p Предположим, что из всех 200 марсиан случайным образом выбрали 10. Распределение розовых и зеленых марсиан во всей совокупности неизвестное исследователям изображено в верх ней части рис. 5.4. Закрашенные кружки соответствуют марси анам, попавшим в выборку. В нижней части рис. 5.4 показана информация, которой располагал бы исследователь, получив ший такую выборку. Как видим в выборке розовые, и зеленые марсиане поделились поровну. Основываясь на этих данных, мы решили бы, что розовых марсиан столько же, сколько и зеле ных, то есть их доля составляет 50%.

Исследователь мог бы извлечь другую выборку, например одну из представленных на рис. 5.5. Здесь выборочные доли розовых марсиан равны 30, 30, 10, и 20%. Как любая выборочная оценка, оценка доли (обозначим ее ) отражает долю р в сово p купности, но отклоняется от нее в силу случайности. Рассмот АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Рис. 5.5. Еще 4 случайные выборки из той же совокупности марсиан. Оценки доли ро зовых марсиан: 30, 30, 10 и 20%.

рим теперь не совокупность марсиан, а совокупность всех значе ний p, вычисленных по выборкам объемом 10 каждая. (Из сово купности в 200 членов можно получить более 106 таких выбо рок). На рис. 5.6 приведены пять значений p, вычисленных по пяти выборкам с рис. 5.4 и 5.5 и еще 20 значений полученных на других случайных выборках того же объема. Среднее этих значений составляет 30%. Это близко к истинной доле розовых марсиан — 25%. По аналогии со стандартной ошибкой среднего найдем стандартную ошибку доли. Для этого нужно охаракте ризовать разброс выборочных оценок доли, то есть рассчитать 130 ГЛАВА Рис. 5.6. Нанесем на график оценки доли розовых марсиан, полученные по выборке с рис. 5.4 и четырем выборкам с рис. 5.5. Добавим к ним еще 20 выборочных оценок.

Получилось распределение выборочных оценок p. Стандартное отклонение совокуп ности средних — это стандартная ошибка доли.

стандартное отклонение совокупности p. В данном случае оно равно примерно 14%, в общем случае =, p n где — стандартная ошибка доли, — стандартное отклоне p ние, n — объем выборки. Поскольку = p 1- p, то ( ) p 1- p ( ).

= p n Заменив в приведенной формуле истинное значение доли ее оценкой p, получим оценку стандартной ошибки доли:

p 1- p ( ).

sp = n Из центральной предельной теоремы (см. гл. 2) вытекает, что при достаточно большом объеме выборки выборочная оценка p приближенно подчиняется нормальному распределению, имею щему среднее р и стандартное отклонение. Однако при значе p ниях р, близких к 0 или 1, и при малом объеме выборки это не так. При какой численности выборки можно пользоваться приве денным способом оценки? Математическая статистика утвер ждает, что нормальное распределение служит хорошим при АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ ближением, если и np и n 1- p превосходят 5*. Напомним, что ( ) примерно 95% всех членов нормально распределенной совокуп ности находятся в пределах двух стандартных отклонений от среднего. Поэтому если перечисленные условия соблюдены, то с вероятностью 95% можно утверждать, что истинное значение р лежит в пределах от p.

2sp Вернемся на минуту к сравнению операционной летальности при галотановой и морфиновой анестезии. Напомним, что при использовании галотана летальность составила 13,1% (числен ность группы — 61 больной), а при использовании морфина — 14,9% (численность группы — 67 больных).

Стандартная ошибка доли для группы галотана 0,131 1- 0, () sp == 0,043 = 4,3%, гал для группы морфина 0,149 1- 0, () sp == 0,044 = 4,4%.

мор Если учесть, что различие в летальности составило лишь 2%, то маловероятно, чтобы оно было обусловлено чем-нибудь, кро ме случайного характера выборки.

Прежде чем двигаться дальше, перечислим те предпосылки, на которых основан излагаемый подход. Мы изучаем то, что в статистике принято называть независимыми испытаниями Бер нулли. Эти испытания обладают следующими свойствами.

• Каждое отдельное испытание имеет ровно два возможных взаимно исключающих исхода.

• Вероятность данного исхода одна и та же в любом испыта нии.

• Все испытания независимы друг от друга.

В терминах совокупности и выборок эти свойства формулиру ются так.

* Если объем выборки недостаточен для использования нормального рас пределения, можно прибегнуть к помощи биномиального распределения.

О биномиальном распределении см. J. H. Zar. Biostatistical analysis, 2nd ed. Prentice-Hall, Englewood Cliffs, N. J., 1984.

132 ГЛАВА • Каждый член совокупности принадлежит одному из двух классов.

• Доля членов совокупности принадлежащих одному классу неизменна.

• Каждый член выборки извлекается из совокупности незави симо от остальных.

СРАВНЕНИЕ ДОЛЕЙ В предыдущей главе мы рассмотрели критерий Стьюдента t. Он вычисляется на основе выборочных средних и стандартной ошибки:

Разность выборочных средних t =.

Стандартная ошибка разности выборочных средних Выборочная доля p аналогична выборочному среднему. Вы ражение для стандартной ошибки мы уже вывели. Теперь мы можем перейти к задаче сравнения долей, то есть к проверке нулевой гипотезы о равенстве долей. Для этого используется критерий z, аналогичный критерию Стьюдента t:

Разность выборочных долей z =.

Стандартная ошибка разности выборочных долей Пусть p и — выборочные доли. Поскольку стандартная p 1 ошибка — это стандартное отклонение всех возможных значе ний p, полученных по выборкам заданного объема, и посколь ку дисперсия разности равна сумме дисперсии стандартная ошибка разности долей равна p - p2 = 2 + 2.

p1 p Следовательно, p1 - p2 p1 - p z ==.

sp - p2 s2 + s p1 p Если n1 и n2 — объемы двух выборок, то АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ p1 1- p1 p2 1- p ( ) ( ).

sp = sp = n1 и 2 n Таким образом, p1 - p z =.

p1 1- p1 p2 1- p ( ) ( ) + n1 n Итак, мы вывели формулу для критерия z. Вообще этой бук вой обозначаются величины со стандартным нормальным рас пределением (то есть нормальным распределением со средним µ = 0 и стандартным отклонением = 1 см. табл. 6.4). С величи ной z мы встретимся еще неоднократно. В данном случае нор мальное распределение имеет место только при достаточно боль ших объемах выборок*.

Если при оценке дисперсии объединить наблюдения из обе их выборок, чувствительность критерия Стьюдента увеличит ся. Таким же способом можно повысить чувствительность кри терия z. Действительно если справедлива нулевая гипотеза то обе выборочные доли p = m1/n1 и p = m2/n2 — это две оценки 1 одной и той же доли p, которую мы, следовательно, можем оце нить как m1 + m p =.

n1 + n Тогда p = p 1- p.

( ) Отсюда имеем s2 s p p p - p2 = + = p 1- p + ( ) 1 1.

n1 n2 n1 n * Точнее говоря, когда значения n и n(1 – ) больше 5. Если хотя бы для p p одной выборки это условие не выполняется, то критерий z неприменим, и нужно воспользоваться точным критерием Фишера. Этот критерий мы рассмотрим чуть позже.

134 ГЛАВА Подставляя полученную объединенную оценку в формулу для критерия z, имеем:

p1 - p z =.

p 1- p + ( ) 1 n1 n О статистически значимом различии долей можно говорить, если значение z окажется «большим». С такой же ситуацией мы имели дело, рассматривая критерии Стьюдента. Отличие состо ит в том, что t подчиняется распределению Стьюдента, а z — стандартному нормальному распределению. Соответственно для нахождения «больших» значении z нужно воспользоваться стан дартным нормальным распределением (рис. 2.5). Однако, по скольку при увеличении числа степеней свободы распределе ние Стьюдента стремится к нормальному, критические значе ния z можно найти в последней строке табл. 4.1. Для 5% уровня значимости оно составляет 1,96, для 1% — 2,58.

Поправка Йейтса на непрерывность Нормальное распределение служит лишь приближением для распределения z. При этом оценка P оказывается заниженной, и нулевая гипотеза будет отвергаться слишком часто. Причина состоит в том, что z принимает только дискретные значения, тогда как приближающее его нормальное распределение непре рывно. Для компенсации излишнего «оптимизма» критерия z введена поправка Йеитса называемая также поправкой на не прерывность. С учетом этой поправки выражение для z имеет следующий вид:

1 1 p1 - p2 - + 2 n1 n z =.

p 1- p + ( ) 1 n1 n Поправка Йейтса слегка уменьшает значение z, уменьшая тем самым расхождение с нормальным распределением.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Галотан и морфин операционная летальность Теперь мы можем, наконец, сравнить операционную летальность при галотановой и морфиновой анестезии. Как вы помните Ко нахан и соавт. исходили из предположения о том, что морфин в меньшей степени угнетает кровообращение, чем галотан и по тому предпочтительнее для общей анестезии. Действительно при использовании морфина артериальное давление и сердеч ный индекс были выше, чем при использовании галотана и раз личия эти статистически значимы. Однако выводы делать рано — ведь до сих пор не проанализированы различия операцион ной летальности, а именно этот показатель наиболее значим с практической точки зрения.

Итак, среди получавших галотан (1-я группа) умерли 8 боль ных из 61 (13,1%), а среди получавших морфин (2-я группа) — 10 из 67 (14,9%). Объединенная оценка доли умерших 8 + p == 0,141.

61+ Величина np для каждой из выборок равна соответственно n1 p = 61 0,141 = 8,6 и n2 p = 67 0,149 = 9,4. Оба значения 1 больше 5*, поэтому можно воспользоваться критерием z. С уче том поправки Йейтса имеем:

1 1 p1 - p2 - + 2 n1 n z == p1 1- p1 + ( ) 1 n1 n 1 1 0,131- 0,149 - + 2 61 == 0,04.

0,141 1- 0,141 + () 1 61 Это очень маленькая величина. Она гораздо ниже 1,96 — кри.

* Больше 5 и n(1 – ) — нетрудно показать, что если < 0,5, то n(1 – ) > n p p p p 136 ГЛАВА тического значения для 5% уровня значимости. Следовательно, хотя галотан и морфин действуют на кровообращение по-раз ному, нет никаких оснований, говорить о различии операцион ной летальности.

Этот пример очень поучителен: мы убедились, сколь важно учитывать исход течения. Организм устроен сложно, действие любого препарата многообразно. Если препарат положительно влияет на сердечно-сосудистую систему, то не исключено, что он отрицательно влияет, к примеру, на органы дыхания. Какой из эффектов перевесит и как это скажется на конечном результате — предвидеть трудно. Вот почему влияние препарата на любой показатель будь то артериальное давление или сердечный индекс, нельзя считать доказательством его эффективности, пока не до казана клиническая эффективность. Иными словами следует чет ко различать показатели процесса — всевозможные изменения биохимических, физиологических и прочих параметров, которые, как мы полагаем, играют положительную или отрицательную роль, — и показатели результата, обладающие реальной кли нической значимостью. Так, изменения артериального давления и сердечного индекса под действием галотана и морфина — это показатели процесса, которые никак не сказались на показателе результата — операционной летальности. Если бы мы доволь ствовались наблюдением показателей процесса, то заключили бы что морфин лучше галотана, хотя, как оказалось, выбор анесте тика на летальность вообще не влияет.

Читая медицинские публикации или слушая аргументы сто ронника того или иного метода лечения, следует, прежде всего, уяснить, о каких показателях идет речь — процесса или резуль тата. Продемонстрировать воздействие некоторого фактора на процесс существенно легче, чем выяснить влияет ли он на ре зультат. Регистрация показателей процесса обычно проста и не занимает много времени. Напротив, выяснение результата, как правило, требует кропотливой длительной работы и нередко связано с субъективными проблемами измерений, особенно если речь идет о качестве жизни. И все же, решая необходим ли пред лагаемый метод лечения, нужно удостовериться, что, он положи тельно влияет именно на показатели результата. Поверьте, боль ного и его семью, прежде всего, волнует результат, а не процесс.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Тромбоз шунта у больных на гемодиализе Гемодиализ позволяет сохранить жизнь людям, страдающим хронической почечной недостаточностью. При гемодиализе кровь больного пропускают через искусственную почку — ап парат, удаляющий из крови продукты обмена веществ. Искус ственная почка подсоединяется к артерии и вене больного: кровь из артерии поступает в аппарат и оттуда, уже очищенная — в вену. Так как гемодиализ проводится регулярно, больному ус танавливают артериовенозный шунт. В артерию и вену на пред плечье вводят тефлоновые трубки;

их концы выводят наружу и соединяют друг с другом. При очередной процедуре гемодиа лиза трубки разъединяют между собой и присоединяют к аппа рату. После диализа трубки вновь соединяют, и кровь течет по шунту из артерии в вену. Завихрения тока крови в местах со единения трубок и сосудов приводят к тому, что шунт часто тром бируется. Тромбы приходится регулярно удалять, а в тяжелых случаях даже менять шунт. Руководствуясь тем, что аспирин препятствует образованию тромбов, Г. Хартер и соавт.* решили проверить, нельзя ли снизить риск тромбоза назначением не больших доз аспирина (160 мг/сут). Было проведено контроли руемое испытание. Все больные, согласившиеся на участие в испытании и не имевшие противопоказании к аспирину, были случайным образом разделены на две группы: 1-я получала пла цебо, 2-я — аспирин. Ни врач, дававший больному препарат, ни больной не знали, был это аспирин или плацебо. Такой способ проведения испытания (он называется двойным слепым) исклю чает «подсуживание» со стороны врача или больного и, хотя технически сложен, дает наиболее надежные результаты. Ис следование проводилось до тех пор, пока общее число больных с тромбозом шунта не достигло 24. Группы практически не раз личались по возрасту, полу и продолжительности лечения ге модиализом.

B 1-й группе тромбоз шунта произошел у 18 из 25 больных, во 2-й — у 6 из 19. Можно ли говорить о статистически значимом * Н. R. Harter, J. W. Burch, P. W. Majerus, N. Stanford, J. A. Delmez, С. В.

Anderson, С. A. Weerts. Prevention of thrombosis in patients in hemodialysis by low-dose aspirin. N. Engl. J. Med., 301:577—579, 1979.

138 ГЛАВА различии доли больных с тромбозом, а тем самым об эффектив ности аспирина?

Прежде всего, оценим долю больных с тромбозами в каждой из групп:

p1 = = 0,72, p2 = = 0,32.

Проверим можно ли применять критерии z: рассчитаем ве личины n p и n(1 – p ) в каждой из групп:

n1 p = 18, n1(1 – p ) = 1 и n2 p = 6, n2(1 – p ) = 13.

2 Как видим, все величины больше 5, поэтому критерии z при менить можно.

Объединенная оценка доли больных с тромбозом 6 + p == 0,55.

19 + Тогда p - p2 = p 1- p + = 0,55 1- 0,55 + = 0,15.

( ) 1 1 ( ) 1 n1 n2 25 Наконец вычислим значение z 1 1 p1 - p2 - + 0,72 - 0,32 - 0, 2 25 z == = 2,33.

sp - p2 0, По табл. 4.1 находим, что для 2% уровня значимости крити ческое значение z составляет 2,3263, то есть меньше, чем мы по лучили. А это значит что снижение риска тромбоза шунта при приеме аспирина статистически значимо. Иными словами если бы группы представляли собой две случайные выборки из одной АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ совокупности, то вероятность получить наблюдаемые (или боль шие) различия не превышала бы 2%.

ТАБЛИЦЫ СОПРЯЖЕННОСТИ: КРИТЕРИЙ Рассмотренный выше метод хорошо работает, если качественный признак, который нас интересует, принимает два значения (тром боз есть — нет, марсианин зеленый — розовый). Более того, по скольку метод является прямым аналогом критерия Стьюдента, число сравниваемых выборок также должно быть равно двум.

Понятно, что и число значений признака и число выборок может оказаться большим двух. Для анализа таких случаев нужен иной метод аналогичный дисперсионному анализу. С виду этот метод, который мы сейчас изложим, сильно отличается от критерия z, но на самом деле между ними много общего.

Чтоб не ходить далеко за примером начнем с только что разоб ранной задачи о тромбозе шунтов. Теперь мы будем рассматри вать не долю, а число больных с тромбозом. Занесем результаты испытания в таблицу (табл. 5.1). Для каждой из групп укажем число больных с тромбозом и без тромбоза. У нас два признака:

препарат (аспирин—плацебо) и тромбоз (есть—нет);

в таблице указаны все их возможные сочетания, поэтому такая таблица на зывается таблицей сопряженности. В данном случае размер таб лицы 22.

Посмотрим на клетки расположенные, на диагонали идущей из верхнего левого в нижний правый угол. Числа в них заметно больше чисел в других клетках таблицы. Это наводит на мысль о связи между приемом аспирина и риском тромбоза.

Теперь взглянем на табл. 5.2. Это таблица ожидаемых чисел, которые мы получили бы, если бы аспирин не влиял на риск тром боза. Как рассчитать ожидаемые числа, мы разберем чуть ниже, а пока обратим внимание на внешние особенности таблицы. Кро ме немного пугающих дробных чисел в клетках можно заметить еще одно отличие от табл. 5.1 — это суммарные данные по груп пам в правом столбце и по тромбозам — в нижней строке. В пра вом нижнем углу — общее число больных в испытании. Об 140 ГЛАВА Таблица 5.1. Тромбозы шунта при приеме плацебо и аспирина Тромбоз есть Тромбоза нет Плацебо 18 Аспирин ратите внимание, что, хотя числа в клетках на рис. 5.1 и 5.2 раз ные, суммы по строкам и по столбцам одинаковы.

Как же рассчитать ожидаемые числа? Плацебо получали человек, аспирин — 19. Тромбоз шунта произошел у 24 из обследованных, то есть в 54,55% случаев не произошел — у из 44, то есть в 45,45% случаев. Примем нулевую гипотезу о том, что аспирин не влияет на риск тромбоза. Тогда тромбоз должен с равной частотой 54,55% наблюдаться в группах пла цебо и аспирина. Рассчитав, сколько составляет 54,55% от 25 и 19, получим соответственно 13,64 и 10,36. Это и есть ожидае мые числа больных с тромбозом в группах плацебо и аспирина.

Таким же образом можно получить ожидаемые числа больных без тромбоза в группе плацебо — 45,45% от 25, то есть 11,36 в группе аспирина — 45,45% от 19, то есть 8,64. Обратите внима ние, что ожидаемые числа рассчитываются до второго знака после запятой — такая точность понадобится при дальнейших вычислениях.

Сравним табл. 5.1 и 5.2. Числа в клетках довольно сильно различаются. Следовательно, реальная картина отличается от той, которая наблюдалась бы, если бы аспирин не оказывал вли яния на риск тромбоза. Теперь осталось построить критерий, который бы характеризовал эти различия одним числом, и за тем найти его критическое значение, — то есть поступить, так как в случае критериев F, t или z.

Однако сначала вспомним еще один уже знакомый нам при Таблица 5.2. Тромбозы шунта при приеме плацебо и аспирина:

ожидаемые числа Тромбоз есть Тромбоза нет Всего Плацебо 13,64 11,36 Аспирин 10,36 8,64 Всего 24 20 АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Таблица 5.3. Операционная летальность при галотановой и мор финовой анестезии Живы Умерли Всего Галотан 53 8 Морфин 57 10 Всего 110 18 мер — работу Конахана по сравнению галотана и морфина, а именно ту часть, где сравнивалась операционная летальность.

Соответствующие данные приведены в табл. 5.3. Форма табли цы такая же, что и табл. 5.1. В свою очередь табл. 5.4 подобно табл. 5.2 содержит ожидаемые числа, то есть числа, вычислен ные исходя из предположения, что летальность не зависит от анестетика. Из всех 128 оперированных в живых осталось 110, то есть 85,94%. Если бы выбор анестезии не оказывал влияния на летальность то в обеих группах доля выживших была бы та кой же и число выживших составило бы в группе галотана — 85,94% от 61, то есть 52,42 в группе морфина — 85,94% от 67, то есть 57,58. Таким же образом можно получить и ожидаемые числа умерших. Сравним таблицы 5.3 и 5.4. В отличие от пре дыдущего примера, различия между ожидаемыми и наблюдае мыми значениями очень малы. Как мы выяснили раньше, раз личий в летальности нет. Похоже мы на правильном пути.

Критерии 2 для таблицы Критерий 2 (читается «хи-квадрат») не требует никаких пред положений относительно параметров совокупности, из которой извлечены выборки, — это первый из непараметрических кри териев, с которым мы знакомимся. Займемся его построением.

Во-первых, как и всегда, критерий должен давать одно число, Таблица. 5.4. Операционная летальность при галотановой и морфиновой анестезии: ожидаемые числа Живы Умерли Всего Галотан 52,42 8,58 Морфин 57,58 9,42 Всего 110 18 142 ГЛАВА которое служило бы мерой отличия наблюдаемых данных от ожидаемых, то есть в данном случае различия между таблицей наблюдаемых и ожидаемых чисел. Во-вторых критерий должен учитывать, что различие, скажем, в одного больного имеет боль шее значение при малом ожидаемом числе, чем при большом.

Определим критерий 2 следующим образом:

O ) ( - E =, E где О — наблюдаемое число в клетке таблицы сопряженности, Е — ожидаемое число в той же клетке. Суммирование прово дится по всем клеткам таблицы. Как видно из формулы, чем больше разница наблюдаемого и ожидаемого числа, тем боль ший вклад вносит клетка в величину 2. При этом клетки с ма лым ожидаемым числом вносят больший вклад. Таким обра зом, критерий удовлетворяет обоим требованиям — во-первых, измеряет различия и, во-вторых, учитывает их величину отно сительно ожидаемых чисел.

Применим критерии 2 к данным по тромбозам шунта. В табл.

5.1 приведены наблюдаемые числа, а в табл. 5.2 — ожидаемые.

2 == (O - E) E 18 )2 ( )2 ()2 ( ) ( -13,64 7 -11,36 6 -10,36 13-8, =+ + +, = 710.

13,64 11,36 10,36 8, Много это или мало? Испытаем наш новый критерий на дан ных по галотановой и морфиновой анестезии (табл. 5.3 и 5.4):

53-52,42 8-8,58 57 -57,58 10 -9, ()2 ( )2 ()2 ( ) 2 =+ ++, = 009.

52,42 8,58 57,58 9, Разница найденных значений 2 довольно велика: 7,10 в пер вом случае и 0,09 во втором, что соответствует тем впечатлени ям, которые мы получили, сравнивая табл. 5.1 с 5.2 и 5.3 с 5.4. В первом случае мы получили «большое» значение 2, «большим» бы АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Рис. 5.7. Распределение 2 с 1 степенью свободы. Заштрихованная зона — это 5% наи больших значений.

ло и значение z, полученное по тем же данным. Можно пока зать, что для таблиц сопряженности размером 22 выполняет ся равенство 2 = z2.

Критическое значение 2 можно найти хорошо знакомым нам способом. На рис. 5.7 показано распределение возможных значений 2 для таблиц сопряженности размером 22 для слу чая, когда между изучаемыми признаками нет никакой связи.

Величина 2 превышает 3,84 только в 5% случаев. Таким обра зом, 3,84 — критическое значение для 5% уровня значимости.

В примере с тромбозом шунта мы получили значение 7,10, по этому мы отклоняем гипотезу об отсутствии связи между при емом аспирина и образованием тромбов. Напротив, данные из табл. 5.3 хорошо согласуются с гипотезой об одинаковом вли янии галотана и морфина на послеоперационный уровень смер тности.

144 ГЛАВА Разумеется, как и все критерии значимости, 2 даёт вероят ностную оценку истинности той или иной гипотезы. На самом деле аспирин может и не оказывать влияния на риск тромбоза.

На самом деле галотан и морфин могут по-разному влиять на операционную летальность. Но, как показал критерий, и то и другое маловероятно.

Применение критерия 2 правомерно, если ожидаемое чис ло в любой из клеток больше или равно 5*. Это условие анало гично условию применимости критерия z.

Критическое значение 2 зависит от размеров таблицы со пряженности, то есть от числа сравниваемых методов лечения (строк таблицы) и числа возможных исходов (столбцов табли цы). Размер таблицы выражается числом степеней свободы :

= (r – 1)(c – 1), где r — число строк, а с — число столбцов. Для таблиц разме ром 22 имеем = (2 – l)(2 – l) = l. Критические значения 2 для разных приведены в табл. 5.7.

Приведенная ранее формула для 2 в случае таблицы 22 (то есть при 1 степени свободы) дает несколько завышенные значе ния (сходная ситуация была с критерием z). Это вызвано тем, что теоретическое распределение 2 непрерывно, тогда как на бор вычисленных значений 2 дискретен. На практике это при ведет к тому, что нулевая гипотеза будет отвергаться слишком часто. Чтобы компенсировать этот эффект, в формулу вводят поправку Йеитса:

O - E 2.

= E Заметим, поправка Йеитса применяется только при = 1, то есть для таблиц 22.

Применим поправку Йеитса к изучению связи между при емом аспирина и тромбозами шунта (табл. 5.1 и 5.2):

* В противном случае мы вынуждены использовать точный критерий Фишера.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 18 - 13, 64 - 7 - 11, 36 2 =+ + 13, 64 11, 6 - 10, 36 - 13 - 8, 64 += 5, 57.

10, 36 8, Как вы помните, без поправки Йеитса значение 2 равнялось 7,10. Исправленное значение 2 оказалось меньше 6,635 — кри тического значения для 1% уровня значимости, но по-прежне му превосходит 5,024 — критическое значение для 2,5% уровня значимости.

Критерий 2 для произвольной таблицы сопряженности Теперь рассмотрим случай, когда таблица сопряженности име ет число строк или столбцов, большее двух. Обратите внима ние, что критерий z в таких случаях неприменим.

В гл. 3 мы показали, что занятия бегом уменьшают число менструаций*. Побуждают ли эти изменения обращаться к вра чу? В табл. 5.5 приведены результаты опроса участниц иссле дования. Подтверждают ли эти данные гипотезу о том, что за нятия бегом не влияют на вероятность обращения к врачу по поводу нерегулярности менструации?

Из 165 обследованных женщин 69 (то есть 42%) обратились к врачу, остальные 96 (то есть 58%) к врачу не обращались. Если Таблица 5.5. Частота обращения к врачу по поводу менструаций Группа Обращались Не обращались Всего Контрольная 14 40 Физкультурницы 914 Спортсменки 46 42 Всего 69 96 * При этом мы для простоты вычислений размеры всех трех групп — конт рольной, физкультурниц и спортсменок — полагали одинаковыми. Теперь мы воспользуемся настоящими данными.

146 ГЛАВА Таблица 5.6. Частота обращения к врачу по поводу менструаций:

ожидаемые числа Группа Обращались Не обращались Всего Контрольная 22,58 31,48 Физкультурницы 9,62 13,38 Спортсменки 36,80 51,20 Всего 69 96 занятия бегом не влияют на вероятность обращения к врачу, то в каждой из групп к врачу должно было обратиться 42% жен щин. В табл. 5.6 приведены соответствующие ожидаемые зна чения. Сильно ли отличаются от них реальные данные?

Для ответа на этот вопрос вычислим 2:

14 )2 ()2 () ( - 22, 58 40 - 31, 42 9 - 9, =++ + 22, 58 31, 42 9, 14 )2 ()2 () ( - 13, 38 46 - 36,80 42 - 51, =+ + = 9, 63.

13, 38 36, 80 51, Число строк таблицы сопряженности равно трем, столбцов — двум, поэтому число степеней свободы = (3 – 1)(2 – 1) = 2. Если гипотеза об отсутствии межгрупповых различий верна, то, как видно из табл. 5.7 значение 2 превзойдет 9,21 не более чем в 1% случаев. Полученное значение больше. Тем самым, при уров не значимости 0,01 можно отклонить гипотезу об отсутствии связи между бегом и обращениями к врачу по поводу менстру ации. Однако, выяснив, что связь существует мы, тем не менее, не сможем указать какая (какие) именно группы отличаются от остальных.

Итак, мы познакомились с критерием 2. Вот порядок его применения.

• Постройте по имеющимся данным таблицу сопряженности.

• Подсчитайте число объектов в каждой строке и в каждом столбце и найдите, какую долю от общего числа объектов составляют эти величины.

• Зная эти доли, подсчитайте с точностью до двух знаков после запятой ожидаемые числа — количество объектов, которое АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ попало бы в каждую клетку таблицы, если бы связь между строками и столбцами отсутствовала • Найдите величину, характеризующую различия наблюдае мых и ожидаемых значений. Если таблица сопряженности имеет размер 22, примените поправку Йеитса • Вычислите число степеней свободы, выберите уровень зна чимости и по табл. 5.7, определите критическое значение 2.

Сравните его с полученным для вашей таблицы.

Как вы помните, для таблиц сопряженности размером критерий 2 применим только в случае, когда все ожидаемые числа больше 5. Как обстоит дело с таблицами большего разме ра? В этом случае критерии 2 применим, если все ожидаемые числа не меньше 1 и доля клеток с ожидаемыми числами мень ше 5 не превышает 20%. При невыполнении этих условии кри терии 2 может дать ложные результаты. В таком случае можно собрать дополнительные данные, однако это не всегда осуще ствимо. Есть и более простой путь — объединить несколько строк или столбцов. Ниже мы покажем, как это сделать.

Преобразование таблиц сопряженности В предыдущем разделе мы установили существование связи между занятием бегом и обращениями к врачу по поводу мен струаций или, что, то же самое, существование различий между группами по частоте обращения к врачу. Однако мы не могли определить, какие именно группы отличаются друг от друга, а какие нет. С похожей ситуацией мы сталкивались в дисперси онном анализе. При сравнении нескольких групп дисперсион ный анализ позволяет обнаружить сам факт существования раз личий, но не указывает выделяющиеся группы. Последнее по зволяют сделать процедуры множественного сравнения, о кото рых мы говорили в гл. 4. Нечто похожее можно проделать и с таблицами сопряженности.

Глядя на табл. 5.5, можно предположить, что физкультурни цы и спортсменки обращались к врачу чаще, чем женщины из контрольной группы. Различие между физкультурницами и спо ртсменками кажется незначительным.

Проверим гипотезу о том, что физкультурницы и спортсмен 148 ГЛАВА Таблица 5.7. Критические значения Уровень значимости 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0, 1 0,455 1,323 2,706 3,841 5,024 6,635 7,879 10, 2 1,386 2,773 4,605 5,991 7,378 9,210 10,597 13, 3 2,366 4,108 6,251 7,815 9,348 11,345 12,838 16, 4 3,357 5,385 7,779 9,488 11,143 13,277 14,860 18, 5 4,351 6,626 9,236 11,070 12,833 15,086 16,750 20, 6 5,348 7,841 10,645 12,592 14,449 16,812 18,548 22, 7 6,346 9,037 12,017 14,067 16,013 18,475 20,278 24, 8 7,344 10,219 13,362 15,507 17,535 20,090 21,955 26, 9 8,343 11,389 14,684 16,919 19,023 21,666 23,589 27, 10 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29, 11 10,341 13,701 17,275 19,675 21,920 24,725 26,757 31, 12 11,340 14,845 18,549 21,026 23,337 26,217 28,300 32, 13 12,340 15,984 19,812 22,362 24,736 27,688 29,819 34, 14 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36, 15 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37, 16 15,338 19,369 23,542 26,296 28,845 32,000 34,267 39, 17 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40, 18 17,338 21,605 25,989 28,869 31,526 34,805 37,156 42, 19 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43, 20 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45, 21 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46, 22 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48, 23 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49, 24 23,337 28,241 33,196 36,415 39,364 42,980 45,559 51, 25 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52, 26 25,336 30,435 35,563 38,885 41,923 45,642 48,290 54, 27 26,336 31,528 36,741 40,113 43,195 46,963 49,645 55, 28 27,336 32,020 37,916 41,337 44,461 48,278 50,993 56, 29 28,336 33,711 39,087 42,557 45,722 49,588 52,336 58, 30 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59, 31 30,336 35,887 41,422 44,985 48,232 52,191 55,003 61, 32 31,336 36,973 42,585 46,194 49,480 53,486 56,328 62, 33 32,336 38,058 43,745 47,400 50,725 54,776 57,648 63, 34 33,336 39,141 44,903 48,602 51,966 56,061 58,964 65, 35 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66, 36 35,336 41,304 47,212 50,998 54,437 58,619 61,581 67, 37 36,336 42,383 48,363 52,192 55,668 59,893 62,883 69, 38 37,335 43,462 49,513 53,384 56,896 61,162 64,181 70, 39 38,335 44,539 50,660 54,572 58,120 62,428 65,476 72, 40 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73, АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Таблица 5.7. Окончание Уровень значимости 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0, 41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74, 42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76, 43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77, 44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78, 45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80, 46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81, 47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82, 48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84, 49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85, 50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86, J. H. Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, N.J., 1984.

ки обращаются к врачу одинаково часто. Для этого выделим из исходной таблицы подтаблицу, содержащую данные по двум этим группам. В табл. 5.8 приведены наблюдаемые и ожидае мые числа;

они довольно близки.

Размер таблицы 22. Поэтому вычислим 2 с поправкой Йей тса:

O - E == E 9 - 11, 40 - 14 - 11, 60 =+ + 11, 49 11, 46 - 43, 60 - 42 - 44, 40 ++ = 0, 79.

43, 60 44, Полученная величина значительно меньше критического зна чения. Поэтому гипотеза об отсутствии межгрупповых различий не отклоняется. Следовательно, эти группы можно объединить в одну. Полученную объединенную группу бегуний сравним с кон трольной (табл. 5.9). На этот раз значение 2 равно 7,39, то 150 ГЛАВА Таблица 5.8. Частота обращения к врачу по поводу менструа ций (в скобках — ожидаемые числа) Группа Обращались Не обращались Всего Физкультурницы 9(11,40) 14(11,60) Спортсменки 46(43,60) 42(44,40) Всего 55 56 Таблица 5.8. Частота обращения к врачу по поводу менструа ций (в скобках — ожидаемые числа) Группа Обращались Не обращались Всего Контрольная 14(22,58) 40(30,42) Физкультурницы и 55(46,42) 56(64,58) спортсменки Всего 69 96 есть больше критического значения 6,63, соответствующего уровню значимости 0,01.

Заметьте, мы выполнили два сравнения, используя одни и те же данные. Поэтому нужно применить поправку Бонферрони, умножив уровень значимости на 2. Исправленное значение уров ня значимости 20,01 = 0,02. Итак, с уровнем значимости 0, мы заключаем, что физкультурницы не отличаются от спорт сменок, но обе эти группы отличаются от женщин, не занимаю щихся бегом.

ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА Критерий 2 годится для анализа таблиц сопряженности 22, если ожидаемые значения в любой из ее клеток не меньше 5. Когда число наблюдений невелико, это условие не выполняется и кри терий 2 неприменим. В этом случае используют точный крите рий Фишера. Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп, поэтому, чем она меньше, тем проще его применить.

Нулевая гипотеза состоит в том, что между лечением и исхо дом нет никакой связи. Тогда вероятность получить некоторую таблицу равна АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Таблица 5.10. Обозначения, используемые в точном критерии Фишера Суммы по строкам O11 O12 R O21 O22 R Суммы по столбцам C1 C2 N R1 ! R2 !C1 !C2 !

N !

P =, O11 !O12 !O21 !O22 !

где R1 и R2 — суммы по строкам (число больных, лечившихся первым и вторым способом), С1 и С2 — суммы по столбцам (чис ло больных с первым и вторым исходом). O11, O12, O21 и O22 — числа в клетках, N — общее число наблюдений (табл. 5.10). Вос клицательный знак, как и всегда в математике, обозначает факто риал*. Построив все остальные варианты заполнения таблицы, возможные при данных суммах по строкам и столбцам, по этой же формуле рассчитывают их вероятность. Вероятности, кото рые не превосходят вероятность исходной таблицы (включая саму эту вероятность), суммируют. Полученная сумма — это величи на P для двустороннего варианта точного критерия Фишера.

В отличие от критерия 2, существуют одно- и двусторонний варианты точного критерия Фишера. К сожалению, в большин стве учебников описан именно односторонний вариант, он же обычно используется в компьютерных программах и приводит ся в статьях. Оно и не удивительно — ведь односторонний ва риант дает меньшую величину P. Хуже то, что авторы не счита ют нужным хотя бы упомянуть, каким вариантом они пользова лись. В табл. 5.11 показаны данные, которые получили Мак-Кин ни и соавт.**, решив выяснить, насколько часто в статьях из двух * Факториал числа — произведение всех целых чисел от этого числа до единицы n! = n (n – l) (n – 2) 2 1. Например, 4! = 4 3 2 1 = 24.

Факториал нуля равен единице.

** W.. McKinney, M. J. Young,. Harta,.. Lee. The inexact use of Fichers exact test in six major medical journals. JAMA, 261:3430—3433, 152 ГЛАВА Таблица 5.11. Частота указания варианта точного критерия Фишера в двух медицинских журналах Вариант критерия Указан Не указан Всего New England Journal of Medicine 1 8 Lancet 10 4 Всего 11 12 самых известных медицинских журналов указан вариант кри терия. Выборка невелика, и критерии 2 применить нельзя. По этому для анализа использования точного критерия Фишера воспользуемся самим точным критерием Фишера. Из приведен ной выше формулы для Р следует что вероятность при тех же значениях сумм по строкам и столбцам таблицы получить та кой же набор чисел в клетках, что в табл. 5.11 равна 9 !14 !11!12 !

23!

P == 0, 00666.

1!8!10 ! 4!

Это небольшая вероятность. Теперь возьмем наименьшее из чисел в клетках (это единица на пересечении первой строки и первого столбца) и уменьшим его на 1. Числа в остальных клет ках изменим так, чтобы суммы по строкам и столбцам остались прежними. Мы получили табл. 5.12. Соответствующая вероят ность равна 9!14!11!12!

23!

P == 0, 00027.

0!9!11! 3!

(Заметим, что числитель можно заново не вычислять, так как его значение зависит только от сумм по строкам и столбцам, которые не изменились). Поскольку наименьшее число в клетке равно нулю, дальше уменьшать его невозможно. Таким обра зом односторонний вариант точного критерия Фишера дает Р = = 0,00666 + 0,00027 = 0,00695.

Чтобы рассчитать значение двустороннего варианта точного критерия Фишера нужно перебрать и все остальные возможные АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ Таблица 5.12.

Вариант критерия Указан Не указан Всего New England Journal of Medicine 0 9 Lancet 11 3 Всего 11 12 варианты заполнения таблицы при условии неизменности сумм по строкам и столбцам. Получить все эти варианты несложно — надо только заметить, что при постоянных суммах по строкам и столбцам значения во всех четырех клетках полностью опреде ляются значением в любой из них. Возьмем число, все в той же левой верхней клетке и будем увеличивать его на 1, пересчиты вая каждый раз числа в остальных клетках. В результате мы по лучим восемь вариантов заполнения (табл. 5.13). Для двух пос ледних вариантов вероятность не превышает вероятности ис ходного варианта заполнения (0,00666), составляя соответствен но 0,00242 и 0,00007. Таким образом кроме исходного у нас есть еще три варианта «маловероятного» заполнения таблицы, про суммировав соответствующие вероятности и прибавив к ним ве роятность исходного варианта получим Р = 0,00666 + 0,00027 + + 0,00242 + 0,00007 = 0,00944. Это и есть значение двусторон него варианта точного критерия Фишера. Итак, различие часто ты правильного использования точного критерия Фишера в жур налах New England Journal of Medicine и Lancet статистически значимо (Р = 0,009). В данном случае общий вывод при перехо де от одностороннего к двустороннему варианту не изменился, однако так бывает далеко не всегда. Еще более грубая ошибка происходит, когда автор рассчитывает только вероятность по лучения исходной таблицы, пренебрегая построением осталь ных вариантов заполнения. Естественно это приводит к сильно му занижению P, то есть к «выявлению» различий там, где их нет.

В заключение изложим правила пользования точным крите рием Фишера.

• Вычислите вероятность получить исходную таблицу.

• Построите остальные возможные варианты заполнения таб лицы при неизменных суммах по строкам и столбцам. Для 154 ГЛАВА Таблица 5.13.

Всего Всего 2 7 9 6 3 9 5 14 5 9 Всего 11 12 23 11 12 P = 0,05330 P = 0, 3 6 9 7 2 8 6 14 4 10 Всего 11 12 23 11 12 P = 0,18657 P = 0, 4 5 9 8 1 7 7 14 3 11 Всего 11 12 23 11 12 P = 0,31983 P = 0, 5 4 9 9 0 6 8 14 2 12 Всего 11 12 23 11 12 P = 0,27985 P = 0, этого в одной из клеток проставьте все целые числа от нуля до максимально возможного, пересчитывая числа в осталь ных клетках так, чтобы суммы по строкам и столбцам оста вались неизменными.

• Вычислите вероятности для всех полученных таблиц.

• Просуммируйте вероятность получить исходную таблицу и все вероятности, которые ее не превышают.

Итак, теперь мы умеем работать не только с количественны ми, но и с качественными признаками. Но вопрос, занимавший нас и в этой, и в предыдущих главах, был в сущности одним и тем же — как оценить статистическую значимость различий. В следующей главе мы взглянем на другую сторону медали. Имен но, мы попытаемся понять, что означает отсутствие статисти чески значимых различий.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ ЗАДАЧИ 5.1. Т. Бишоп (Т. Bishop. High frequency neural modulation in dentistry. J. Am. Dent. Assoc., 112:176—177, 1986) изучил эффек тивность высокочастотной стимуляции нерва в качестве обез боливающего средства при удалении зуба. Все больные подклю чались к прибору, но в одних случаях он работал, в других был выключен. Ни стоматолог, ни больной не знали, включен ли при бор. Позволяют ли следующие данные считать высокочастот ную стимуляцию нерва действенным анальгезируюшим сред ством?

Прибор включен Прибор выключен Боли нет 24 Боль есть 6 5.2. Синдром внезапной детской смерти — основная причи на смерти детей в возрасте от 1 недели до 1 года. Обычно смерть наступает на фоне полного здоровья незаметно, во сне, поэтому определение факторов риска имеет первостепенное значение.

Считается, что синдром внезапной детской смерти чаще случа ется у недоношенных детей, негров, а также в семьях с низкими доходами. Н. Левак и соавт. (N. Lewak et al. Sudden infant death syndrome risk factors: prospective data review. Clin. Pediatr., 18:

404—411, 1979) решили уточнить эти данные. Исследователи собрали сведения о 19047 детях, родившихся в одном из роддо мов Окленда, штат Калифорния, с 1960 по 1967 г. Судьбу детей проследили до 1 года. Данных о 48 детях получить не удалось.

От синдрома внезапной детской смерти умерли 44 ребенка. Дан ные о предполагаемых факторах риска представлены в табл. 5,14.

Найдите признаки, связанные с риском синдрома внезапной детской смерти.

5.3. Могло ли повлиять отсутствие данных о 48 детях на ре зультаты исследования? Если да, то как?

5.4. Р. Феннел и соавт. (R. Fennell et al. Urinary tract infections in children effect of short course antibiotic therapy on recurrence rate in children with previous infections. Clin. Pediatr., 19:121—124, 1980) сравнили эффективность трех антибиотиков при рецидивиру 156 ГЛАВА Таблица 5.14.

Синдром внезапной детской смерти Фактор +– Возраст матери До 25 лет 29 25 лет и старше 15 Время от окончания Менее 1 года 23 предыдущей беременности Более 1 года 11 Планировалась ли Нет 23 беременность Да 5 Повторная Нет 36 беременность Да 8 Курение во время Да 24 беременности Нет 10 Посещения врача во время Менее 11 раз 31 беременности 11 раз или более 11 Самый низкий гемоглобин во Менее 12 мг% 26 время беременности 12 мг% и более 7 Раса Белые 31 Негры 9 Другие 4 По некоторым признакам данные отсутствуют, поэтому сумма в третьем столбце может оказаться меньше 44, а в четвертом — меньше 18 955.

ющей инфекции мочевых путей у девочек 3—16 лет. После ко роткого курса одного из антибактериальных препаратов (назна ченного случайным образом) в течение года делали повторные посевы мочи. При выявлении бактериурии констатировали ре цидив. Были получены следующие результаты.

Рецидив Есть Нет Ампициллин 20 Триметоприм/сульфаметоксазол 24 Цефалексин 14 Есть ли основания говорить о разной эффективности препа ратов? Если да, то какой лучше?

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 5.5. А. О’Нил и соавт. (A. O’Neil et al. A waterborn epidemic of acute infectious non-bacterial gastroenteritis in Alberta, Canada. Can.

J. Public Health, 76:199—203, 1985) недавно сообщили о вспыш ке гастроэнтерита в маленьком канадском городке. Исследова тели предположили, что источником инфекции была водопро водная вода. Они исследовали зависимость между количеством выпитой воды и числом заболевших. Какие выводы можно сде лать из приводимых данных?

Количество выпитой воды, стаканов в день Число заболевших Число не заболевших Менее 1 39 От 1 до 4 264 5 и более 265 5.6. Как правило, качество исследования выше, а соответствие собираемых данных поставленному вопросу точнее, если дан ные собираются специально для этого исследования после его планирования. Р. и С. Флетчеры (R. Fletcher, S. Fletcher. Clinical research in general medical journals: а 30-year perspective. N. Engl.

J. Med., 301:180—183, 1979) исследовали 612 работ, случайным образом выбранных из журналов Journal of American Medical Association, Lancet и New England Journal of Medicine, чтобы определить, собирали ли их авторы свои данные до или после планирования исследования. Вот что удалось обнаружить:

1946 1956 1966 Число рассмотренных 151 149 157 работ Процент работ, где данные собирали после планирования 76 71 49 исследования до планирования 24 29 51 исследования Оцените статистическую значимость различия долей. Если различия есть, то можно ли сказать, что положение меняется к лучшему?

158 ГЛАВА 5.7. Одна из причин инсульта — окклюзия сонной артерии.

Чтобы выяснить, какое лечение — медикаментозное или хирур гическое — дает в этом случае лучшие результаты, У. Филдс и соавт. (W. Fields et al. Joint study of extracranial arterial occlusion, V: Progress report of prognosis following surgery or nonsurginal treatment for transient ishemic attacks and cervical carotid artery lesions. JAMA, 211:1993—2003, 1970) сравнили долгосрочный прогноз у леченных двумя методами.

Повторный инсульт или смерть Лечение Да Нет Хирургическое 43 Медикаментозное 53 Можно ли говорить о превосходстве одного из видов лече ния?

5.8. В диагностике ишемической болезни сердца используют нагрузочную пробу, с помощью физической нагрузки вызывают ишемию миокарда, которую выявляют на ЭКГ. Существует дру гой метод, ишемию вызывают внутривенным введением дипири дамола, а выявляют с помощью эхокардиографии. Ф. Латтанци и соавт. (F. Lattanzi et al. Inhibition of dipyndamole-induced ishemia by antianginal therapy in humans: correlation with exercise electrocardiography. Circulation, 83:1256—1262, 1991) сравнили ре зультаты двух методов у больных, получавших и не получавших антиангинальную терапию. Результаты приведены в таблице.

Без антиангинальной терапии Дипиридамол + эхокардиография +– Нагрузка + ЭКГ + 38 – 14 На фоне антиангинальной терапии Дипиридамол + эхокардиография +– Нагрузка + ЭКГ + 21 – 16 Оцените различия между результатами двух методов.

АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 5.9. Д. Сакетт и М. Гент (D. Sackett, M. Gent. Controversy in counting and attributing events in clinical trials. N. Engl. J. Med., 301:1410—1412, 1979) сделали важное замечание относитель но методики сбора данных в исследовании результатов меди каментозного и хирургического лечения окклюзии сонной ар терии (задача 5.7). Так как изучался «долгосрочный прогноз», в исследование включали только тех больных, которые не умер ли и у которых не было повторного инсульта во время госпи тализации. В результате из рассмотрения были исключены оперированных (5 из них умерли, а у 10 инсульт произошел вскоре после операции) и только 1 больной, лечившийся ме дикаментозно. Если учесть и этих 16 больных, то данные при мут такой вид:

Повторный инсульт или смерть Лечение Да Нет Хирургическое 58 Медикаментозное 54 Что теперь можно сказать о предпочтительности одного из видов лечения? Какое сравнение более верно — с учетом этих 16 больных или без их учета (как в задаче 5.7)? Почему?

5.10. Распространенность болезни X равна 10%. Болезнью Y страдает 1000 человек, болезнью Z — также 1000 человек. Бо лезнь X с равной вероятностью поражает страдающих болезня ми Y и Z. Вероятность госпитализации при этих болезнях раз ная: для болезни X она составляет 40%, Y — 50%, Z — 20%.

Посмотрим, сколько больных с разными сочетаниями болезней окажется в больнице.

Из 1000 человек, страдающих болезнью Y, болезнь X имеют 10%, то есть 100 человек. Из них 50% (50 человек) будут госпи тализированы в связи с болезнью Y, из оставшихся 50 человек в связи с болезнью X госпитализируют 40%, то есть 20 человек.

Таким образом, в больнице окажется 70 больных с сочетанием болезней Y и X.

Из 900 человек, страдающих болезнью Y, но не X, будут гос питализированы 50%, то есть 450 человек.

Такой же расчет для болезни Z показывает, что в больницу 160 ГЛАВА попадет 52 человека с сочетанием болезней Z и X, а с болезнью Z, но не Х, — 180 человек.

Исследователь, работающий в больнице в которую попали все госпитализированные, обнаружил следующую связь.

С болезнью X Без болезни X Болезнь Y 70 Болезнь Z 52 Оцените статистическую значимость различий частоты бо лезни X среди страдающих болезнями Y и Z. Можно ли по этим данным судить о связи болезней Y и Z с болезнью X? (Приве денный пример заимствован из работы: D. Mainland. The risk of fallacious conclusions from autopsy data on the incidence of diseases with applications to heart disease. Am. Heart J., 45:644—654, 1953).

Глава Что значит «незначимо»:

чувствительность критерия До сих пор мы занимались оценкой вероятности нулевой гипо тезы, то есть предположения об отсутствии эффекта экспери ментального воздействия. Вероятность нулевой гипотезы (P) мы оценивали с помощью различных критериев значимости — F, t, q, q, z и 2. Если значение критерия превышало критическое, нулевую гипотезу отклоняли. При этом мы совершенно спра ведливо утверждали, что нашли статистически значимые раз личия. Если значение критерия оказывалось меньше критичес кого, говорили об отсутствии статистически значимых раз личий. И это тоже справедливо. К сожалению, обычно этим не ограничиваются. Не обнаружив различий, исследователь счи тает это доказательством их отсутствия. А это уже совершенно неверно. Прежде чем сделать вывод об отсутствии различий следует выяснить, была ли чувствительность критерия доста точной, чтобы их обнаружить.

Чувствительностью* называется способность критерия об наружить различия. Чувствительность зависит от величины раз * С этим понятием мы уже встречались в гл. 3 и 4;

другое название чувстви тельности — мощность.

162 ГЛАВА ГЛАВА личий, от разброса данных и от объема выборки. Наиболее ва жен объем выборок: чем он больше, тем чувствительнее крите рий. При достаточно больших выборках малейшее различие оказывается статистически значимым. И наоборот если выбор ки малы, даже большие различия статистически незначимы. Зная эти закономерности, можно заранее определить численность выборок, необходимую для выявления эффекта.

ЭФФЕКТИВНЫЙ ДИУРЕТИК Разбирая критерий Стьюдента, мы использовали пример, в ко тором препарат, предположительно обладавший диуретическим действием, в действительности не увеличивал диурез. Сейчас рассмотрим обратный пример. Исследуемый препарат на самом деле диуретик. Он увеличивает суточный диурез в среднем с 1200 до 1400 мл. На рис. 6.1А показано распределение суточно го диуреза для всех 200 членов совокупности при приеме пла цебо, а на рис. 6.1Б при приеме этого препарата.

Теперь представим себе исследователя, который, разумеет ся, не может наблюдать всю совокупность. Случайным образом он выбирает две группы, по 10 человек в каждой, дает 1-й груп пе плацебо, а 2-й — препарат (диуретик) после чего измеряет суточный диурез в обеих группах. На рис. 6.1В представлены результаты этих измерений. В 1-й группе средний суточный ди урез составил 1180 мл (стандартное отклонение 144 мл), а во 2 й группе — 1400 мл (стандартное отклонение 245 мл). Оценим различия по критерию Стьюдента.

Объединенная оценка дисперсии равна 2 s2 = s1 + s2 = 1442 + 2452 = 40381 = 2012.

( ) () Значение t равно X2 - X1 1400 - t == = 2,447, s2 s2 2012 ++ n2 n1 10 ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.1. Исследование диуретического эффекта нового препарата. А. Суточный диурез в совокупности из 200 человек после приема плацебо. Десять человек, попавшие в вы борку, помечены черным. Б. Суточный диурез в той же совокупности после приема препарата. Суточный диурез увеличился на 200 мл. Десять человек, попавшие в выбор ку, помечены штриховкой. В. Такими видит данные исследователь;

t = 2,447. Это боль ше критического значения t для 18 степеней свободы (2,101) и 5% уровня значимости, поэтому можно заключить, что различия статистически значимы, то есть препарат об ладает диуретическим действием.

164 ГЛАВА Рис. 6.2. А и Б. Та же совокупность, что и на рис. 6.1, но в выборку попали другие люди.

В. Изменился и результат, который наблюдает исследователь. Теперь t = 1,71, что мень ше критического значения. В данном случае исследователю не повезло — ему придется признать, что значимых различий не выявлено, то есть диуретическое действие препа рата не доказано, — тогда как в действительности оно есть.

ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.3. А. Такое распределение мы получим, извлекая пары случайных выборок по человек в каждой из одной и той же совокупности и каждый раз вычисляя t (см. рис.

4.5А). Только 5% значений по абсолютной величине превышают 2,1 (помечены чер ным). Таким образом, 2,1 — критическое значение для 5% уровня значимости. Б. Те перь будем извлекать пары выборок из разных совокупностей, средний диурез в кото рых различается на 200 мл (рис. 6.1А и Б). Распределение значений t сместилось впра во. Критическое значение превышено в 111 случаях из 200. Следовательно, вероятность получить правильное заключение об эффективности препарата составляет 55%.

что превышает 2,101 — критическое значение при уровне зна чимости 0,05 и числе степеней свободы 2(n – 1) = 18. Поэтому нулевая гипотеза будет отклонена, а препарат будет назван эф фективным диуретиком. Как это и есть на самом деле.

Конечно, исследователь мог бы набрать и другие две груп пы, например представленные на рис. 6.2. На этот раз средний суточный диурез — 1216 мл в контрольной группе и 1368 мл в группе получавшей препарат. Стандартное отклонение состав ляет соответственно 97 и 263 мл, а объединенная оценка дис персии 1/2(972 + 2632) = 1982. Теперь значение t:

1368 - t == 1,71, 1982 + 10 что меньше 2,101. Нулевую гипотезу отклонить нельзя, хотя мы то знаем, что она неверна! Какова вероятность такой ситуации?

166 ГЛАВА Для ответа на этот вопрос повторим мысленные эксперимен ты, подобные тем, что мы проделали в гл. 4 (см. рис. 4.5). Тогда мы строили распределение величины для случая, когда сравни ваемые группы представляли собой случайные выборки из од ной и той же совокупности. Это распределение показано на рис.

6.ЗА. Теперь построим распределение t для случая, когда вы борки извлекаются из разных совокупностей. Из двух совокуп ностей, показанных на рис. 6.2, можно извлечь более 1027 выбо рок объемом в 10 человек;

ограничимся пока двумястами. Ре зультат показан на рис. 6.3Б. В 111 случаях из 200 значение t оказалось не меньше критического значения 2,101. Итак, в этом случае (то есть при этих величине эффекта, дисперсии и чис ленности групп) вероятность отклонить нулевую гипотезу (то есть найти различие) составляет 111/200 = 0,55. Можно оценить и вероятность не отклонить нулевую гипотезу (то есть не най ти существующих различий). Это 1 — 0,55 = 0,45, то есть 45%.

Как видим, шансы обнаружить и не обнаружить диуретический эффект были примерно равны.

ДВА РОДА ОШИБОК В медицине для характеристики диагностических проб часто используют два показателя: чувствительность и специфичность.

Чувствительность — это вероятность положительного резуль тата у больного;

она характеризует способность пробы выяв лять болезнь. Специфичность — это вероятность отрицатель ного результата у здорового;

можно сказать, что она характери зует способность пробы выявлять отсутствие болезни.

Диагностические пробы и критерии значимости во многом схо жи. Диагностические пробы выявляют болезни, критерии значи мости выявляют различия. Можно сказать, что с третьей главы по пятую мы занимались специфичностью критериев значимос ти. В этой главе мы рассматриваем чувствительность, то есть спо собность критерия выявлять различия. Иногда свойства крите риев значимости описывают в несколько иных терминах: не ве роятностью правильного результата, а вероятностью ошибки.

Если мы ошибочно отклоняем нулевую гипотезу, то есть, на ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.1. Ошибки критериев значимости В действительности По результатам при- Различия Различий менения критерия есть нет Различия Истинноположитель- Ложноположитель выявлены ный результат, 1 – ный результат (ошибка I рода), Различий не Ложноотрицательный Истииноотрицатель выявлено результат (ошибка ный результат, 1 – II рода), ходим различия там, где их нет, то это называется ошибкой I рода.

Максимальная приемлемая вероятность ошибки I рода называется уровнем значимости и обозначается. С этой величиной мы уже много раз встречались;

обычно принимают равной 0,05 (то есть 5%), однако можно взять и какой-нибудь другой уровень значимо сти, например 0,1 или 0,01.

Если мы не отклоняем нулевую гипотезу, когда она не верна, то есть не находим различий там, где они есть, то это — ошибка II рода. Ее вероятность обозначается. Ясно, что вероятность обна ружить различия, то есть чувствительность критерия, равна 1 –.

В нашем примере с диуретиком = 0,45 и 1 – = 0,55, то есть чувствительность критерия при данных условиях составляет 55%.

Все, что мы узнали об ошибках критериев значимости, крат ко представлено в таблице 6.1.

ЧЕМ ОПРЕДЕЛЯЕТСЯ ЧУВСТВИТЕЛЬНОСТЬ?

Естественно, мы заинтересованы в том, чтобы по возможности уменьшить вероятность ошибки II рода, то есть повысить чув ствительность критерия. Для этого нужно знать, от чего она за висит. В принципе, эта задача похожа на ту, что решалась при менительно к ошибкам I рода, но за одним важным исключени ем. Чтобы оценить чувствительность критерия, нужно задать величину различий, которую он должен выявлять. Эта величина оп ределяется задачами исследования. В примере с диуретиком чув ствительность была невелика — 55%. Но, может быть, исследова 168 ГЛАВА тель просто не считал нужным выявлять прирост диуреза с до 1400 мл/сут, то есть всего на 17%?

С увеличением разброса данных повышается вероятность ошибок обоих типов. Как мы вскоре увидим, величину разли чий и разброс данных удобнее учитывать совместно, рассчитав отношение величины различий к стандартному отклонению.

Чувствительность диагностической пробы можно повысить, снизив ее специфичность — аналогичное соотношение суще ствует между уровнем значимости и чувствительностью крите рия. Чем выше уровень значимости (то есть чем меньше ), тем ниже чувствительность.

Как мы уже говорили, важнейший фактор, который влияет на вероятность ошибок как I, так и II рода, — это объем выбо рок. С ростом объема выборок вероятность ошибок уменьшает ся. Практически это очень важно, поскольку прямо связано с планированием эксперимента.

Прежде чем перейти к подробному рассмотрению факторов, влияющих на чувствительность критерия, перечислим их еще раз.

• Уровень значимости. Чем меньше, тем ниже чувстви тельность.

• Отношение величины различий к стандартному отклонению.

Чем больше это отношение, тем чувствительнее критерий.

• Объем выборок. Чем больше объем, тем выше чувствитель ность критерия.

Уровень значимости Чтобы получить наглядное представление о связи чувствитель ности критерия с уровнем значимости, вернемся к рис. 6.3. Вы бирая уровень значимости, мы тем самым задаем критичес кое значение t. Это значение мы выбираем так, чтобы доля пре восходящих его значений — при условии, что препарат не ока зывает эффекта, — была равна (рис. 6.3А). Чувствительность критерия есть доля тех значений критерия, которые превосхо дят критическое при условии, что лечение дает эффект (рис.

6.3Б). Как видно из рисунка, если изменить критическое значе ние, изменится и эта доля.

ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.4. Выбирая уровень значимости, мы тем самым определяем критический уровень t. Чем меньше, тем выше критический уровень и тем ниже чувствитель ность. А. Уровень значимости = 0,05, критическое значение t = 2,101, чувстви тельность 55%. Б. Теперь уровень значимости = 0,01, критическое значение t вы росло до 2,878 и чувствительность снизилась до 45%.

170 ГЛАВА Рассмотрим подробнее, как это происходит. На рис. 6.4А изо бизображено распределение значений критерия Стьюдента.

Отличие от рис. 6.3 состоит в том, что теперь это распределе ние, полученное для всех 1027 возможных пар выборок. Верх ний график — это распределение значений t для случая, когда препарат не обладает диуретическим действием. Предположим, мы выбрали уровень значимости 0,05, то есть приняли = 0,05.

В этом случае критическое значение равно 2,101, то есть мы отвергаем нулевую гипотезу и признаем различия статистичес ки значимыми при t > +2,101 или t < –2,101. Соответствующие области на графике заштрихованы, а критическое значение изоб ражено вертикальной пунктирной линией, спускающейся к ниж нему графику, на котором изображено распределение t для слу чая, когда препарат обладает диуретическим действием, а имен но увеличивает суточный диурез на 200 мл. По форме, нижний график такой же, как верхний, но сдвинут на 200 мл вправо.

Доля значений t, превышающих критическое значение 2, (заштрихованная область), составляет 0,55. Итак, чувствитель ность критерия в данном случае 55%;

а вероятность ошибки второго рода = 1 – 0,55 = 0,45, то есть 45%.

А теперь взглянем на рис. 6.4Б. На нем изображены те же самые распределения значений t. Отличие в выбранном уров не значимости — = 0,01. Критическое значение t повыси лось до 2,878, пунктирная линия сместилась вправо и отсека ет от нижнего графика только 45%. Таким образом, при пере ходе от 5% к 1% уровню значимости чувствительность снизи лась с 55 до 45%. Соответственно, вероятность ошибки II рода повысилась до 1 – 0,45 = 0,55.

Итак, снижая, мы снижаем риск отвергнуть верную нуле вую гипотезу, то есть найти различия (эффект) там, где их нет.

Но тем самым мы снижаем и чувствительность — вероятность выявить имеющиеся на самом деле различия.

Величина различий Рассматривая влияние уровня значимости, мы принимали ве личину различий постоянной: наш препарат увеличивал суточ ный диурез с 1200 до 1400 мл, то есть на 200 мл. Теперь примем ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.5. Чем больше величина различий, тем сильнее распределение t сдвигается впра во и тем выше чувствительность.

постоянным уровень значимости = 0,05 и посмотрим, как чув ствительность критерия зависит от величины различий. Понят но, что большие различия выявить легче, чем маленькие. Рас смотрим следующие примеры. На рис. 6.5А изображено рас пределение значений t для случая, когда исследуемый препарат не обладает диуретическим действием. Заштрихованы 5% наиболь ших по абсолютной величине значений t, расположенных левее – 2,101 или правее +2,101. На рис. 6.5Б изображено распределение значений t для случая, когда препарат увеличивает суточный 172 ГЛАВА 1, 0, 0, 0, 0, 100 200 Увеличение суточного диуреза, мл Рис. 6.6. Чувствительность критерия Стьюдента как функция от величины различий при объеме выборок 10 человек и уровне значимости = 0,05. Пунктирная линия пока зывает, как пользоваться графиком. Для величины различий 200 мл чувствительность составляет 0,55.

Чувствительность ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ диурез в среднем на 200 мл (эту ситуацию мы уже рассматрива ли). Выше правого критического значения лежит 55% возмож ных значений t: чувствительность равна 0,55. Далее, на рис. 6.5В представлено распределение значений t для случая, когда пре парат увеличивает диурез в среднем на 100 мл. Теперь только 17% значений t превышает 2,101. Тем самым, чувствительность критерия равна лишь 0,17. Иными словами, эффект будет обна ружен менее чем в одном из каждых пяти сравнений контрольной и экспериментальной групп. Наконец, рис. 6.5Г представляет случай увеличения диуреза на 400 мл. В критическую область попало 99% значений t. Чувствительность критерия равна 0,99:

различия будут выявлены почти наверняка.

Повторяя этот мысленный эксперимент, можно определить чувствительность критерия для всех возможных значений эф фекта, от нулевого до «бесконечного». Нанеся результаты на график, мы получим рис. 6.6, где чувствительность критерия показана как функция от величины различий. По этому графи ку можно определить, какой будет чувствительность при той или иной величине эффекта. Пользоваться графиком пока что не очень удобно, ведь он годится только для этих численности групп, стандартного отклонения и уровня значимости. Вскоре мы построим другой график, более подходящий для планирова ния исследования, но сначала нужно подробнее разобраться с ролью разброса значений и численности групп.

Разброс значений Чувствительность критерия возрастает с ростом наблюдаемых различий;

с ростом разброса значений чувствительность, напро тив, снижается.

Напомним, что критерий Стьюдента t определяется следую щим образом:

X1 - X t =, s2 s + n1 n где X1 и X2 — средние, s — объединенная оценка стандартного 174 ГЛАВА отклонения, n1 и n2 — объемы выборок. Заметьте, что и X X2 — это оценки двух (различных) средних — µ1 и µ2. Для про стоты допустим, что объемы обеих выборок равны, то есть n1 = n2. Тогда вычисленное значение t есть оценка величины µ1 - µ2 µ1 - µ t ==.

2 + n n n Обозначим (греческая буква «дельта») величину эффекта, то есть разность средних: = µ1 – µ2, тогда n t = =.

n Таким образом, t зависит от отношения величины эффекта к стандартному отклонению.

Рассмотрим несколько примеров. Стандартное отклонение в исследуемой нами совокупности составляет 200 мл (см. рис. 6.1).

В таком случае увеличение суточного диуреза на 200 или 400 мл равно соответственно одному или двум стандартным отклонени ям. Это очень заметные изменения. Если бы стандартное откло нение равнялось 50 мл, то те же самые изменения диуреза были бы еще более значительными, составляя соответственно 4 и стандартных отклонений. Наоборот, если бы стандартное откло нение равнялось, например, 500 мл, то изменение диуреза в мл составило бы 0,4 стандартного отклонения. Обнаружить та кой эффект было бы непросто да и вряд ли вообще стоило бы.

Итак, на чувствительность критерия влияет не абсолютная величина эффекта, а ее отношение к стандартному отклонению.

Обозначим его (греческая «фи»);

это отношение = / назы вается параметром нецентральности.

Объем выборки Мы узнали о двух факторах, которые влияют на чувствитель ность критерия: уровень значимости и параметр нецентраль ности. Чем больше и чем больше, тем больше чувстви ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ тельность. К сожалению, влиять на мы не можем вовсе, а что касается, то его увеличение повышает риск отвергнуть вер ную нулевую гипотезу, то есть найти различия там, где их нет.

Однако есть еще один фактор, который мы можем, в определен ных пределах, менять по своему усмотрению, не жертвуя уров нем значимости. Речь идет об объеме выборок (численности групп). С увеличением объема выборки чувствительность кри терия увеличивается.

Существуют две причины, в силу которых увеличение объе ма выборки увеличивает чувствительность критерия. Во-пер вых, увеличение объема выборки увеличивает число степеней свободы, что, в свою очередь, уменьшает критическое значе ние. Во-вторых, как видно из только что полученной формулы n t =, значение t растет с ростом объема выборки n (это справедливо и для многих других критериев).

На рис 6.7А воспроизведены распределения с рис. 6.4А. Вер хний график соответствует случаю, когда препарат не обладает диуретическим действием, нижний — когда препарат увеличи вает суточный диурез на 200 мл. Численность каждой из групп составляет 10 человек. На рис 6.7Б приведены аналогичные рас пределения. Отличие в том, что теперь в каждую группу входи ло не 10, а 20 человек. Раз объем каждой из групп равен 20, число степеней свободы равно = 2(20 – 1) = 38. Из таблицы 4. находим, что критическое значение t при 5% уровне значимос ти равно 2,024 (в случае выборок объемом 10 оно равнялось 2,101). С другой стороны, увеличение объема выборок привело к увеличению значений критерия. В результате уже не 55, а 87% значений t превышают критическое значение. Итак, увеличе ние численности групп с 10 до 20 человек привело к повыше нию чувствительности с 0,55 до 0,87.

Перебирая все возможные объемы выборок, можно постро ить график чувствительности критерия как функции от числен ности групп (рис. 6.8). С увеличением объема чувствительность 176 ГЛАВА Рис. 6.7. Увеличение объема выборки повышает чувствительность по двум при чинам. Во-первых, увеличивается число степеней свободы, и критическое зна чение t уменьшается. Во-вторых, при той же величине различий получаются бо лее высокие значения t.

ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ растет. Сначала она растет ускоренно, затем, начиная с некото рого объема выборки, рост замедляется.

Pages:     | 1 || 3 | 4 |   ...   | 5 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.