WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     || 2 | 3 | 4 | 5 |
-- [ Страница 1 ] --

Стентон Гланц Медико-биологическая Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D.

Professor of Medicine Member, Cardiovascular Reserch Institute Member, Institute for Health Policy Studies University of California, San Francisco McGRAW-HILL Health Professions Division New York St. Louis San Francisco Auckland Bogota Caracas Lisbon Madrid Mexico City Milan Montreal New Delhy San Juan Singapore Sydney Tokyo Toronto Стентон Гланц Медико-биологическая Перевод с английского доктора физ.-мат. наук Ю. А. Данилова под редакцией Н. Е. Бузикашвили и Д. В. Самойлова п р а к т и к а Москва 1999 ББК 28 Г52 Данное издание выпущено в рамках программы Центрально-Европей ского Университета «Books for Civil Society» при поддержке Центра по развитию издательской деятельности (OSI — Budapest) и Института «Открытое общество. Фонд Содействия» (OSIAF — Moskow).

Технический редактор А. В. Комельков Художники Е. Р. Гор, О. Л. Лозовская Корректоры Н.Н. Юдина, Е. М. Заглядимова Издательский дом «Практика», 119048, Москва, а/я Лицензия ЛР № 065635 от 19.01. Подписано в печать 19.10.1998. Формат 60 ґ 90/16. Объем 29 бум. л.

Тираж 5000 экз. Заказ № 1403.

Отпечатано в полном соответствии с качеством предоставленных диапозитивов в ОАО «Можайский полиграфический комбинат» 143200, Можайск, ул. Мира, д. 93.

С. Гланц. Медико-биологическая статистика.

Пер. с англ. — М., Практика, 1998. — 459 с.

В книге описаны все основные методы, которыми пользуется современная ста тистика, как параметрические, так и непараметрические: анализ различий, свя Г зей, планирование исследования, анализ выживаемости. Просто и наглядно — при этом вполне строго — автор описывает принцип каждого метода, дает чет кую схему применения, обязательно указывает на ограничения и возможные ошибки. Изящные иллюстрации и остроумный разбор примеров, взятых из ме дицинских публикаций, делают чтение легким и увлекательным. Врачам-прак тикам книга поможет грамотно, критически читать медицинскую литературу.

Для врачей-исследователей книга станет руководством по планированию, про ведению и обработке результатов исследований.

ISBN 0-07-024268-2 (англ.) © 1994 by McGraw-Hill, Inc ISBN 5-89816-009-4 (русск.) © Перевод на русский язык, Издательский дом «Практика», Посвящается Марше Гланц Оглавление Предисловие 1 Статистика и клиническая практика Ограничение финансирования и статистика Достоверность и статистическая значимость Доверяй, но проверяй Ошибки вечны? 2 Как описать данные Среднее Стандартное отклонение Нормальное распределение Медиана и процентили Выборочные оценки Насколько точны выборочные оценки Выводы Задачи 3 Сравнение нескольких групп:

дисперсионный анализ Случайные выборки из нормально распределенной совокупности Две оценки дисперсии Критическое значение F Три примера Задачи 4 Сравнение двух групп: критерий Стьюдента Принцип метода Стандартное отклонение разности Критическое значение t Выборки произвольного объема Продолжение примеров Критерий Стьюдента с точки зрения дисперсионного анализа Ошибки в использовании критерия Стьюдента Критерий Стьюдента дая множественных сравнений Критерий Ньюмена—Кейлса Критерий Тьюки Множественные сравнения с контрольной группой Что означает Р Задачи 5 Анализ качественных признаков Новости с Марса Точность оценки долей Сравнение долей Таблицы сопряженности: критерий 2 Точный критерий Фишера Задачи 6 Что значит «незначимо»:

чувствительность критерия Эффективный диуретик Два рода ошибок Чем определяется чувствительность? Чувствительность дисперсионного анализа Чувствительность таблиц сопряженности Практические трудности Зачем вычислять чувствительность? Задачи 7 Доверительные интервалы Доверительный интервал для разности средних Интервал шире—доверия больше Проверка гипотез с помощью доверительных интервалов Доверительный интервал для среднего Доверительный интервал для разности долей Доверительный интервал для доли Доверительный интервал для значений Задачи 8 Анализ зависимостей Уравнение регрессии Оценка параметров уравнения регрессии по выборке Сравнение двух линий регрессий Корреляция Коэффициент ранговой корреляции Спирмена Чувствительность коэффициента корреляции Сравнение двух способов измерения:

метод Блэнда—Алтмана Заключение Задачи 9 Анализ повторных измерений Парный критерий Стьюдента Новый подход к дисперсионному анализу Дисперсионный анализ повторных измерений Качественные признаки: критерий Мак-Нимара Задачи 10 Непараметрические критерии Параметрические и непараметрические методы.

Какой выбрать? Сравнение двух выборок: критерий Манна—Уитни Сравнение наблюдений до и после лечения:

критерий Уилкоксона Сравнение нескольких групп:

критерий Крускала—Уоллиса Повторные измерения: критерий Фридмана Выводы Задачи 11 Анализ выживаемости Пассивное курение на Плутоне Кривая выживаемости Сравнение двух кривых выживаемости Критерий Гехана Чувствительность и объем выборки Заключение Задачи 12 Как построить исследование Каким критерием воспользоваться Рандомизация и слепой метод Достаточно ли рандомизации? Кого мы изучаем Как улучшить положение Приложения A. Формулы для вычислений Б. Диаграммы чувствительности дисперсионного анализа B. Решения задач Предметный указатель ТАБЛИЦЫ КРИТИЧЕСКИХ ЗНАЧЕНИЙ 3.1. Критические значения F 4.1. Критические значения t 4.3. Критические значения q 4.4. Критические значения q 5.7. Критические значения 2 6.4. Процентили стандартного нормального распределения 8.6. Критические значения коэффициента ранговой корреляции Спирмена 10.7. Критические значения W 10.10. Критические значения Q для попарного сравнения групп 10.11. Критические значения Q для сравнения с контрольной группой 10.14. Критические значения критерия Фридмана УСЛОВНЫЕ ОБОЗНАЧЕНИЯ уровень значимости (вероятность ошибки I рода);

коэф фициент сдвига в уравнении регрессии уровень значимости при множественном сравнении а выборочная оценка коэффициента сдвига вероятность ошибки II рода;

коэффициент наклона в урав нении регрессии b выборочная оценка коэффициента наклона величина эффекта (изменение количественного признака) d выборочная оценка величины эффекта параметр нецентральности F критерий F Н критерий Крускала—Уоллиса k число сравнений l интервал сравнения т число групп µ среднее по совокупности N число членов совокупности п объем выборки (численность группы) Р вероятность справедливости нулевой гипотезы р доля p выборочная оценка доли Q критерий Данна q критерий Даннета q критерий Ньюмена—Кейлса;

критерий Тьюки r коэффициент корреляции Пирсона rs коэффициент ранговой корреляции Спирмена суммирование стандартное отклонение 2 дисперсия S вариация (сумма квадратов отклонений) S(t) выживаемость s выборочная оценка стандартного отклонения s2 выборочная оценка дисперсии sa стандартная ошибка коэффициента сдвига sb стандартная ошибка коэффициента наклона sp стандартная ошибка доли sy|x остаточное стандартное отклонение sX стандартная ошибка среднего Т критерий Манна—Уитни t критерий Стьюдента t критическое значение t при уровне значимости число степеней свободы внутригрупповое число степеней свободы (знаменателя) вну межгрупповое число степеней свободы (числителя) меж W критерий Уилкоксона 2 критерий r критерий Фридмана значение уравнения регрессии Х значение количественного признака выборочное среднее X z критерий z (величина со стандартным нормальным распределением) Предисловие После окончания докторантуры мне часто случалось помогать друзьям и коллегам разобраться с тем или иным статистичес ким вопросом. Постепенно потребность в кратких интуитивно понятных и в то же время достаточно строгих объяснениях при вела к появлению двухчасовой лекции включавшей даже демон страцию слайдов. Эта лекция охватывала использование ста тистических методов в медицине, ошибки в их применении и способы избежать этих ошибок. Лекции оказались настолько ус пешными, что теперь уже мне пришлось выслушать многочис ленные предложения написать вводный курс по статистике.

Так возникла эта книга. Адресована она студентам медикам, научным работникам, преподавателям и врачам практикам. Ее с равным успехом можно использовать и для самостоятельного изучения и в качестве учебного пособия. Например, она по служила основой курса медицинской статистики в Калифорний ском университете в Сан Франциско. Курс объемом 81 лекци онный час включал первые восемь глав книги. Кроме того, еже недельно проводился семинар. Книга также использовалась при чтении краткого курса статистики для студентов стоматологи ПРЕДИСЛОВИЕ ческого факультета. Этот курс охватывал материал первых трех глав. Кроме того книга пригодилась мне при чтении интенсив ного курса, который занимал полсеместра и был рассчитан на основательное усвоение всего материала. Среди многочислен ных слушателей были студенты старших курсов, аспиранты и научные сотрудники.

Эта книга имеет несколько отличий от других вводных кур сов статистики – именно эти отличия похоже и обусловили ее популярность.

Во-первых, в книге отчетливо проведена мысль, что резуль таты многих биологических и медицинских работ основаны на не правильном использовании статистических методов и спо собны только ввести в заблуждение. Большинство ошибок свя зано с неправомерным использованием критерия Стьюдента.

Причина такой концентрации, вероятно, кроется в том, что в пору учебы будущие исследователи не успели узнать о суще ствовании других статистических методов (в учебниках, по ко торым они учились, первая глава обычно посвящена критерию Стьюдента). Напротив, дисперсионный анализ, если и излага ется, то, как правило, в последней главе, до которой редко кто добирается. Между тем медицинские данные чаще требуют именно дисперсионного анализа, и именно он служит основой для всех параметрических критериев, – поэтому свою книгу я начинаю изложением дисперсионного анализа и лишь затем, как частный случай, разбираю критерий Стьюдента.

Во-вторых, насколько можно судить по публикациям, в меди цинских исследованиях крайне важно умение правильно срав нить результаты, полученные по нескольким группам. Поэтому в книге подробно описаны методы множественного сравнения.

В-третьих, я считал, что книга по медицинской статистике не должна быть калькой даже с хорошего и логически стройного учебника математической статистики. Как показывает много летняя практика, выслушав традиционный курс математической статистики, в котором методам проверки гипотез предшествует теория оценивания студент, увы, не обретет понимания связи ста тистических методов с медицинскими задачами. Поэтому я из брал иной способ подачи материала. Стержень книги образуют проверка гипотез и оценка эффективности лечения. Я глубоко убежден, что именно такой подход дидактически и практичес ки отвечает задачам медицинских исследований.

Большинство использованных в книге примеров заимство вано из реальных медицинских исследований. В ряде случаев мне пришлось пойти на упрощение данных, например, сделать равными объемы выборок. Эти упрощения позволили сосредо точиться на существе излагаемых методов, не отвлекаясь на тех нические детали. При этом если в тексте рассматривается слу чай выборок равного объема, то в приложении вы найдете фор мулы на случай выборок произвольного объема.

Готовя к печати первое издание этой книги, я задумывал его как введение, знакомящее с идеями, понятиями и методами ста тистики, – введение, за чтением которого последует более уг лубленное изучение традиционных курсов. Мои надежды оп равдались, но, кроме того, оказалось, что многие исследователи стали пользоваться книгой как практическим пособием. Это по будило меня во втором издании более широко осветить методы множественного сравнения. В третьем издании обсуждение чув ствительности критериев было пополнено рассмотрением пла нирования и анализа экспериментов. Наконец, в четвертом из дании, которое вы держите в руках, появилась новая глава, по священная анализу выживаемости. Помимо того, методы мно жественного сравнения пополнились критерием Тьюки, а в раз дел, посвященный регрессионному анализу, были включены метод сравнения кривых регрессии и метод Блэнда-Алтмана для сравнения двух способов измерения.

Надо сказать, что некоторые пожелания читателей не нашли отражения в новом издании. И сделано это было совершенно сознательно. Часть читателей советовала вместо неявного ис пользования понятий теории вероятностей дать строгое изло жение ее основ. Другие предлагали дополнить книгу изложени ем многомерных статистических методов. В частности, предла галось изложить методы множественной регрессии. Важность этих методов для меня вполне очевидна. Однако попытка рас смотреть их в рамках данной книги существенно изменила бы ее содержание. Что до пожеланий большей формальности, то они противоречат идее понятности и наглядности, то есть той ПРЕДИСЛОВИЕ идее, из которой выросла эта книга и которая принесла ей ус пех*.

К появлению книги причастны многие люди, которым я ис кренне признателен. Первым человеком, от которого еще в сту денческую пору я услышал понятное и практически ориенти рованное изложение статистики, был Джулиен Хоффман. Бла годаря ему я сумел прочувствовать эту науку, а мое понимание статистических методов стало глубже. Его неиссякаемому ин тересу и готовности к обсуждению тонкостей я обязан тем, что узнал и – важнее – ощутил статистику настолько, чтобы заду маться о написании книги. Филипп Уилкинсон и Мэрион Не стле предложили отличные примеры и высказали массу полез ных замечаний по рукописи. Стараниями Мэри Джиаммоны текст стал более понятным для студентов. Она же помогла по добрать задачи для первого издания. В работе над задачами для следующих изданий участвовали Брайан Слинкер и Джим Лай твуд. Вирджиния Эрнстер и Сьюзен Сакс не только высказали множество полезных замечаний, но и «обкатали» первоначаль ный вариант рукописи, использовав его в качестве основного пособия для 300 своих студентов. Мои ассистенты Брайан Слин кер, Кен Рессер, Б. С. Апплйард и другие высказали множество тонких замечаний, которые помогли сделать материал книги более доходчивым.

Мэри Хуртадо с поразительной быстротой и точностью пе репечатала рукопись. Томас Саммер, Соня Бок и Майкл Матри гали помогли мне в окончательном редактировании текста в си стеме UNIX. Дейл Джонсон подготовил иллюстрации.

Я признателен Национальному институту здравоохранения, удостоившему меня в 1977г гранта, который позволил не толь ко свободно развивать мои научные идеи, но и работать над кни гой, первое издание которой увидело свет в 1981 г.

* Вместе с Б. Слинкером мы опубликовали специальный вводный курс, це ликом посвященный множественной регрессии и многомерному диспер сионному анализу (S. A. Glantz, B. К. Slinker Primer of Applied Regression and Analysis of Variance New York McGraw Hill 1990). Написан он в том же свободном стиле, что я настоящая книга.

С тех пор многое изменилось. Важность грамотного исполь зования статистических методов осознается все шире. И, хотя ошибки не исчезли, все больше журналов прилагают усилия к их искоренению. Во многих из них рецензирование включает отдельный этап проверки статистической правильности пред лагаемых работ. Приведу подтверждение, наиболее ощутимое для меня. Я являюсь внештатным редактором Journal of the American College of Cardiology, и моя работа состоит в выявле нии статистических ошибок в поступающих работах. Доля ста тей, содержащих ошибки, как и раньше, составляет около по ловины, но теперь уже половины предлагаемых к публикации, а не опубликованных работ.

Наконец, я признателен многим читателям этой книги, сту дентам и преподавателям статистики, которые нашли время при слать мне вопросы, комментарии и предложения, как улучшить содержание книги. Насколько возможно, я постарался выпол нить их пожелания при подготовке четвертого издания.

Многие из приведенных в книге иллюстраций – прямые по томки тех слайдов, которые я когда-то показывал на своих лек циях. Кстати, будет совсем не плохо, если, читая книгу, вы во образите, что попали на такую лекцию. Большинство слушате лей проникались критическим духом. И, как мне рассказывали, после моих выступлений перед докторантами из Калифорнийс кого университета те доставляли немало неприятностей после дующим докладчикам, указывая на ошибки в использовании ста тистических методов. Надеюсь, что предлагаемая книга сдела ет читателя более критичным и поможет улучшить медицинс кую литературу, а, в конечном счете, и саму медицину.

Стентон А. Гланц Глава Статистика и клиническая практика Когда-то мне казалось, что медицинские журналы приходят к нам из идеального мира. В этом мире, недоступном простым смертным, авторы публикаций в совершенстве владеют статис тическими методами, а строгие редакторы ни за что не пропус тят работу со статистическими ошибками. Однако очень скоро я понял, как легко опубликовать ошибочную и просто бессмыс ленную статью, как невысок барьер на пути несостоятельной работы к читателю. Авторы и редакторы медицинских журна лов живут в том же мире, что и мы и имеют о статистике при мерно такое же представление, что и остальные его обитатели.

В этом суровом мире существует, помимо прочего, такая непри ятная вещь, как ограничение финансирования.

ОГРАНИЧЕНИЕ ФИНАНСИРОВАНИЯ И СТАТИСТИКА Медицина вступает в новую эру. Вплоть до середины XX века лечение мало влияло на сроки, да и сам факт выздоровления.

Введение в клиническую практику инсулина, пенициллина, кор 18 ГЛАВА 700 600 500 400 300 200 100 0 1960 1970 1980 1990 1960 1970 1980 Рис. 1.1. Ежегоднье раоходы на здравоохранение (США 1960 – 1990 гг.).

А. Абсолютнье (в миллиардах долларов). Б. Относительные (в процентах от валового национального продукта).

тикостероидов, витамина В12 радикально изменило ситуацию.

Победа над ранее неизлечимыми болезнями породила веру во всесилие науки и стимулировала дальнейшие исследования.

Разрабатывались все новые противоопухолевые психотропные гипотензивные и антиаритмические средства. Безграничный оп тимизм породил почти столь же безграничное финансирование.

В США расходы на медицину в 1991 г составили 752 миллиар да долларов или 13,2% валового национального продукта. Рас ходы росли как абсолютно, так и в процентах от валового наци онального продукта (рис 1.1). В результате ограничение расхо дов на медицину сегодня превратилось в одну из первостепен ных задач.

На протяжении всего этого периода, который похоже закан чивается, врачи и исследователи получали в свое распоряжение практически неограниченные и не обусловленные конкретны ми целями ресурсы. Помощь больному едва ли не выпала из числа показателей «хорошей медицины». Характерно, что даже для по настоящему действенных методов лечения отсутствуют Млрд.

долл.

Проценты от валового национального продукта СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА достоверные оценки того, как часто и насколько эффективно они помогают*. Сложившийся подход означал не просто выбрасы вание денег на ветер. Больные регулярно принимали сильно дей ствующие препараты или подвергались хирургическому вмеша тельству без серьезных оснований, но с риском серьезных ос ложнений.

Однако при чем тут статистика?

Когда поток не связанных с конкретными задачами средств умерит свои рост, медицинским работникам придется взглянуть на используемые ими средства с точки зрения их реальной от дачи. Потребуются строгие доказательства эффективности ме тодов диагностики и лечения. Мало того, что придется уяснить эффективно ли лечение, — придется выяснить также какому про центу больных оно помогает, и в какой степени. Но эти данные без помощи статистики не получишь. Естественная биологичес кая изменчивость, психотерапевтический эффект**, субъектив ность оценок — все эти факторы делают прямое суждение об эффективности лечения ненадежным. Перевести клинический опыт на язык количественных оценок — задача медицинской статистики.

Статистическому анализу может быть подвергнута не толь ко эффективность нового метода лечения, но и эффективность работы самого врача. Так в одном исследовании*** было пока зано, что больные с пиелонефритом выписываются из стацио нара в среднем на 2 дня раньше, если их лечение проводилось в * A. L. Cockrane. Effectiveness and Efficiency Random Reflections on Health Services, Nuffield Provincial Hospital Trust, London 1972.

** Эффект самого факта лечения не связанным с его физиологическим дей ствием. Чтобы выявить психотерапевтический эффект, в клинических ис следованиях применяют плацебо — неактивный препарат (например фи зиологический раствор, сахарная пилюля) либо — в случае хирургичес кого лечения — ложную операцию. В некоторых случаях, например при болях, плацебо «помогает» каждому третьему больному.

***D. Е. Knapp, D. A. Knapp, M. К. Speedie, D. M. Yager, С. I. Baker. Relationship of Inappropriate Drug Prescribing to Increased Length of Hospital Slay. Am. J.

Hasp. Pharm., 36:1134–1137, 1979. Эту работу мы подробно обсудим в гл. 9.

20 ГЛАВА строгом соответствии с рекомендациями «Настольного спра вочника врача» («Phvsicians’ desk reference»). Расходы на пре бывание в стационаре составляют значительную часть всех ме дицинских расходов, поэтому сокращение сроков госпитализа ции (разумеется, не в ущерб больному) позволило бы сэконо мить значительные средства. Считается, что бесконечному мно гообразию случаев должно соответствовать бесконечное мно гообразие методов лечения. Данное исследование – сильный, хотя и не бесспорный, довод в пользу большей стандартизации.

Поиск новых методов диагностики и лечения выбор наилуч шего из уже принятых – везде статистические соображения иг рают не последнюю роль. Чтобы принять полноправное учас тие в обсуждении этих вопросов, врач должен быть знаком с принципами и основными методами статистики.

До сих пор медики редко участвовали в обсуждении статис тических вопросов, на первый взгляд далеких от врачебной прак тики и носящих сугубо технический характер. Однако по мере ужесточения требований к использованию ресурсов медикам следует научиться проверять обоснованность претензий на эф фективность и с большим пониманием участвовать в распреде лении средств. И основой для этого служит статистика.

ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ Рассмотрим типичный пример применения статистических мето дов в медицине. Создатели препарата предполагают, что он увели чивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата. По результатам наблюдений строят график зависимос ти диуреза от дозы (рис. 1.2А). Зависимость видна невооружен ным глазом. Исследователи поздравляют друг друга с открытием, а мир — с новым диуретиком.

На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, — не более чем предполо СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА А Б Доза Доза Рис. 1.2. А. У 5 добровольцев измерили суточный диурез после приема разных доз препарата (предполагаемого диуретика). Зависимость диуреза от дозы казалась бы на лицо, чем больше доза – тем больше диурез. Можно ли считать диуретический эффект препарата доказанным? Б. Такую картину мы увидели бы, если бы могли исследовать связь дозы и диуреза у всех людей: зависимости нет в помине. Пять человек, вошедших в первоначальное исследование, помечены черным. В данном случае мнимая зависи мость порождена случайностью. С помощью статистических методов можно оценить вероятность подобной ошибки.

жение. Нельзя сказать, что оно беспочвенно – иначе, зачем ста вить эксперименты?

Но вот препарат поступил в продажу. Все больше людей при нимают его в надежде увеличить свой диурез. И что же мы ви дим? Мы видим рис 1.2Б, который свидетельствует об отсут ствии какой либо связи между дозой препарата и диурезом. Чер ными кружками отмечены данные первоначального исследова ния. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки.

Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез Суточный диурез Суточный диурез 22 ГЛАВА ность статистики. Он говорит о другом, о вероятностном харак тере ее выводов. В результате применения статистического ме тода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кро ме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности.

ДОВЕРЯЙ, НО ПРОВЕРЯЙ О новых методах диагностики и лечения врачи узнают глав ным образом из публикации в медицинских журналах. Позна ния читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная про верка результатов. К сожалению, проводится она далеко не все гда.

На рис. 1.3 суммированы результаты четырех исследовании использования статистических методов в статьях опубликован ных в медицинских журналах с 1950 по 1976 г *. Разумеется, ис * О. Б. Росс мл. (О. В. Ross, Jr. Use of controls in medical research. JAMA, 145:72–75, 1951) рассмотрел 100 статей, опубликованных в Journal of the Amencan Medical Association, American Journal of Medicine, Annals of Internal Medicine, Archives of Neurology and Psychiatry и American Journal of Medical Sciences в 1950 г. Р. Бэдгли (R. F. Badgley. An assessment of research methods reported in 103 scietific articles from two Canadian medical journals.

Can. M. A. J., 85:256–260, 1961) рассмотрел 103 статьи опубликованные в журналах Canadian Medical Association Journal и Canadian Journal of Public Health в 1960 г. С. Шор и И. Картен (S. Schor, I. Karten Statistical evaluation of medical journal manuscripts, JAMA 195:1123–1128, 1966) рас смотрели 295 статей, опубликованных в журналах Annals of Internal Medicine, New England Journal of Medicine, Archives of Surgery, American Journal of Medicine, Journal of Clinical Investigation, Amencan Archives of Neurology, Archives of Pathology и Archives of Internal Medicine в 1964 г. С. Гор, И. Джонс и Э. Ритгер (S. Gore, I. G. Jones, Е. С. Rytter Misuses of statistical methods critical assessment of articles in В M J from January to March, 1976, Br. Med. J., 1 (6053):85–87, 1977) рас СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА 1960 1970 Рис. 1.3. Доля медицинских статей, содержащих статистические ошибки. Невозможно рассмотреть все статьи, публикуемые в медицинских журналах, поэтому долю опреде ляли по некоторой случайной выборке. В результате появляется оценка истинной доли статей с ошибками, на рисунке эти оценки показаны кружками. Вертикальные отрезки — это доверительный интервал, то есть пределы в которых, скорее всего, находится истинная доля статей с ошибками.

следования могли охватить лишь часть напечатанного, поэтому выявленная в исследованиях доля статей содержащих статис тические ошибки служит лишь приближенной оценкой истин ной доли. Вертикальные черточки на рис. 1.3 указывают диапа зон называемый доверительным интервалом, в который с высо кой вероятностью попадает истинная доля статей с ошибками.

Вычисление доверительных интервалов — один из разделов ста тистики, с которым нам предстоит познакомиться. Как мы ви смотрели 77 статей, опубликованных в журнале British Medical Journal в 1976 г. Сравнительно недавнее изучение более ограниченной подборки журналов показало, что проблема статистических ошибок в медицинских публикациях не потеряла своей значимости (См. J. Davies, A critical survey of scientific methods in two psychiatry journals, Aust. N. Z. J. Psych., 21:367– 373, 1987;

D. F. Cruess. Review of the use of statistics in the American Journal of Tropical Medicine and Hygiene for January–December 1988. Am. J. Trop.

Med. Hyg., 41:619–626, 1990) Доля статей с ошибками, % 24 ГЛАВА дим, статистические ошибки встречаются примерно в полови не статей. Однако дальнейшие исследования показали, что жур налам, в которых взяли за правило обращать внимание не толь ко на медицинскую, но и статистическую сторону дела удалось существенно снизить долю ошибочных статей. Эта доля нима ло не изменилась в тех журналах, которые так и не ввели стати стического рецензирования.

Врачам известно множество методов диагностики и лечения, эффективность которых была «доказана» статистическими ме тодами и которые, тем не менее, канули в Лету, не выдержав проверки практикой. А сколь часто приходится читать статьи, в которых статистические манипуляции с одними и теми же дан ными приводят к прямо противоположным выводам. Все это наводит читателя на мысль, что статистические методы либо ненадежны, либо слишком трудны для понимания, либо вооб ще не более чем инструмент недобросовестного исследователя.

Между тем даже начального знакомства со статистикой в соче тании со здравым смыслом обычно достаточно чтобы понять, что предлагает нам автор в качестве «доказательств». По иро нии судьбы ошибки редко связаны с тонкими статистическими вопросами. Как правило, это простейшие ошибки такие, как от сутствие контрольной группы использование неслучайных вы борок или пренебрежение статистической проверкой гипотез.

По неизвестным науке причинам такие ошибки неизменно сме щают результаты исследования в пользу предлагаемого автором метода.

Вред, приносимый ошибками такого рода, очевиден. Иссле дователь заявляет о «статистически достоверном» эффекте ле чения, редактор помещает статью в журнал, врач неспособный критически оценить публикацию, применяет неэффективный метод лечения. В конце этой цепи находится больной, который и расплачивается за все, подвергаясь ненужному риску и не по лучая действительно эффективного лечения. Не следует сбра сывать со счетов и ущерб от самого факта проведения бессмыс ленных исследований. Деньги и подопытные животные прино сятся в жертву науке, больные рискуют ради сбора ошибочно интерпретируемых данных.

Сегодня грамотная проверка эффективности лечения стано СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА вится первоочередной задачей. Исследования должны тщатель но планироваться, а результаты правильно интерпретироваться.

ОШИБКИ ВЕЧНЫ?

Поскольку описанные ошибки совершаются в массовом поряд ке, ничто не побуждает исследователей корректно использовать статистические методы. Редко кому приходилось слышать кри тические замечания, на сей счет. Наоборот, исследователи час то опасаются, что их коллеги, а особенно рецензенты, сочтут грамотно и полно изложенную статистическую процедуру вы сокомерной теоретизацией.

Журналы призваны быть оплотом качества научных иссле довании. В некоторых редакциях действительно осознали, что их рецензенты не слишком сведущи в использовании элемен тарной статистики, и изменили саму процедуру рецензирова ния. Теперь перед тем как направить рукопись на рецензию, ее тщательно проверяют на предмет правильности использования статистических методов. Результатом этого нередко становится пересмотр используемых в статье статистических методов, а иногда и самих выводов*.

Но большинство редакторов, похоже, убеждены, что каждый рецензент рассматривает статистическую сторону работы столь же тщательно, сколь и собственно медицинскую. Неясно, одна ко, как он может это сделать — ведь даже авторы ведущих ме дицинских журналов, упоминая статистическую проверку ги потез, редко затрудняют себя указанием, какой именно крите рий был использован.

Коротко говоря, для грамотного чтения медицинской лите ратуры необходимо научиться понимать и оценивать правиль ность применения статистических методов, используемых для анализа результатов. К счастью, основные идеи, которыми необ * Подробнее о существующей в редакциях практике работы с рукописями см. М. J. Gardner, J. Bond An exploratory study of statistical assessment of papers published in the British Medical Journal. JAMA, 263:1355–1357, 1990, a тaкжe S. А. Glantz It is all in the numbers. J. Am. Coll. Cardiol., 21:835–837, 1993.

26 ГЛАВА ходимо овладеть вдумчивому читателю (и, конечно, вдумчиво му исследователю), довольно просты. В следующей главе мы приступим к их обсуждению.

Глава Как описать данные В этой книге мы встретимся с двумя типами задач. Первый тип задач, — как сжато, описать данные. Этими задачами занимает ся так называемая описательная статистика. Задачи второго типа связаны с оценкой статистической значимости различий и во обще с проверкой гипотез. В этой главе мы рассмотрим задачи первого типа — как наилучшим образом описать данные.

Если значения интересующего нас признака у большинства объектов близки к их среднему и с равной вероятностью откло няются от него в большую или меньшую сторону, лучшими ха рактеристиками совокупности будут само среднее значение и стандартное отклонение. Напротив, когда значения признака распределены несимметрично относительно среднего, совокуп ность лучше описать с помощью медианы и процентилей.

Возможно, сказанное давно вам известно. Тогда смело пере ходите к следующей главе. Тех же, для кого термины вроде про центиля звучат туманно, мы приглашаем приступить к изуче нию марсиан.

28 ГЛАВА Поначалу займемся, каким-нибудь количественным призна ком, например ростом. Чтобы попусту не фантазировать слета ем на Марс и измерим всех марсиан благо их всего две сотни.

Результаты приведены на рис. 2.1 (мы округлили рост до целого числа сантиметров). Каждому марсианину соответствует кру жок так, что, например два кружка над числом 30 означают, что имеются два марсианина ростом 30 см. Рис 2.1 это распределе ние марсиан по росту. Мы видим, что рост большинства марси ан — от 35 до 45 см. Коротышек (ниже 30 см) совсем немного — всего трое, и столько же великанов (выше 50 см).

Окрыленные успехом марсианского проекта мы решаем из мерить венецианцев. Легко находим деньги на путешествие и, вооружившись линейками, измеряем всех 150 обитателей Ве неры. Научный отчет об экспедиции будет звучать так: «Редко встретишь венерианца ниже 10 см или выше 20 см, а чаше по падаются 15-сантиметровые, см. рис. 2.2».

Но вот остались позади нелегкие межпланетные перелеты.

Настала пора скрупулезного анализа данных. Сравним рис. 2. и 2.2. Мы видим, что венерианцы ниже марсиан и что интервал, в Марсиане N = 30 35 40 45 Рис. 2.1. Распределение марсиан по росту. Каждому марсианину соответствует кружок.

Обратите внимание, что марсиан среднего роста (около 40 см) больше всего и что высо корослых столько же, сколько коротышек — распределение симметрично.

КАК ОПИСАТЬ ДАННЫЕ который умещается рост всех марсиан шире, чем соответству ющий интервал для венерианцев. Ширина интервала, в кото рый попадают почти все марсиане (194 из 200) — 20 см (от до 50 см). Рост большинства венерианцев (144 из 150) умещает ся в интервал от 10 до 20 см, то есть имеет ширину всего лишь 10 см. Несмотря на эти различия между двумя совокупностями инопланетян имеется и существенное сходство. В обоих рост любого члена скорее близок к середине распределения, нежели заметно от нее удален и одинаково вероятно может быть как выше, так и ниже середины. Распределения на рис. 2.1 и 2. имеют схожую форму и приближенно определяются одной и той же формулой.

Раз существует множество похожих распределений, значит, для характеристики одного из них достаточно указать чем оно отличается от других ему подобных, то есть всю собранную ин формацию мы можем свести к нескольким числам, которые на зываются параметрами распределения. Это среднее значение и стандартное отклонение.

•••••••••• N = 10 15 ••••,•• Рис. 2.2. Распределение венерианцев по росту. Венерианцы ниже марсиан, разброс зна чений меньше. Однако по форме распределения, напоминающей колокол, венерианцы и марсиане схожи друг с другом.

30 ГЛАВА Расположив мысленно распределения марсиан и венерианцев на одной шкале роста, мы увидим, что распределение венери анцев находится ниже, чем распределение марсиан. Характери стика положения распределения на числовой оси называется средним. Среднее по совокупности обозначают греческой бук вой µ (читается "мю") и вычисляют по формуле:

Сумма значений признака для всех членов совокупности Среднее по совокупности =.

Число членов совокупности Эквивалентное математическое выражение имеет вид X µ =, N где X — значение признака, N — число членов совокупности.

Как всегда, большая греческая буква (читается «сигма») обо значает сумму. Подставив в формулу добытые нами данные, получим ценное дополнение к научному отчету: средний рост марсиан 40 см, а венерианцев — 15 см.

СТАНДАРТНОЕ ОТКЛОНЕНИЕ Еще на Венере мы заметили, что тамошние жители более одно родны по росту, нежели марсиане. Хотелось бы и это впечатле ние оформить количественно, то есть иметь показатель разбро са значений относительно среднего. Ясно, что для характерис тики разброса все равно, в какую сторону отклоняется значение — в большую или меньшую. Иными словами, отрицательные и положительные отклонения должны вносить равный вклад в ха рактеристику разброса. Воспользуемся тем, что квадраты двух равных по абсолютной величине чисел равны между собой, и вычислим средний квадрат отклонения от среднего. Этот пока затель носит название дисперсии и обозначается 2. Чем боль ше разброс значений, тем больше дисперсия. Дисперсию вы числяют по формуле:

КАК ОПИСАТЬ ДАННЫЕ X ( - µ ) =.

N Как видно из формулы, дисперсия измеряется в единицах, равных квадрату единицы измерения соответствующей величи ны. Например, дисперсия измеряемого в сантиметрах роста сама измеряется в квадратных сантиметрах. Это довольно неудобно.

Поэтому чаще используют квадратный корень из дисперсии — стандартное отклонение (маленькая греческая буква «сиг ма»):

(X - µ).

= = N Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев — 2,5 см.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Таблица 2.1 сжато представляет то, что мы узнали о марсианах и венерианцах. Таблица очень информативна, из нее можно уз нать об объеме совокупности, о среднем росте и о том, насколь ко велик разброс относительно среднего.

Вновь обратившись к рис. 2.1 и 2.2, мы обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от среднего не более чем на одно стандартное отклонение и при мерно 95% — на два стандартных отклонения. Подобные рас пределения встречаются очень часто. Можно сказать, что это про исходит всегда, когда некая величина отклоняется от средней под действием множества слабых, независимых друг от друга факто Таблица 2.1. Параметры распределения марсиан и венериан цев по росту Объем Стандартное совокупности Среднее, см отклонение, см Марсиане 200 40 Венерианцы 150 15 2, 32 ГЛАВА ров. Распределение такого рода называется нормальным (или гауссовым) и описывается формулой:

X 1 ( -µ ) f X = e2.

( ) Заметим, что нормальное распределение полностью опреде ляется средней µ и стандартным отклонением. Поэтому све дения в табл. 2.1 — это не просто удачное представление дан ных.

МЕДИАНА И ПРОЦЕНТИЛИ И снова в путь! Обогатившись теоретическими познаниями, мы отправляемся на Юпитер. Здесь мы не только измеряем всех до одного юпитериан, но также подсчитываем среднее и стандарт ное отклонение роста для всей их совокупности. Оказывается средний рост юпитериан — 37,6 см, а его стандартное отклоне ние — 4,5 см. Можно заключить, что юпитериане очень похожи на марсиан, ведь близки оба параметра определяющие нормаль ное распределение — среднее и стандартное отклонение.

Однако если взглянуть на исходные данные по юпитерианам (рис. 2.ЗА), то обнаружится совершенно иная картина. На са мом деле типичный юпитерианин довольно приземист — око ло 35 см, то есть на добрых 5 см ниже марсианина. И только небольшая группа долговязых смещает значения стандартного отклонения и среднего вводя ученых в заблуждение.

Итак, рост произвольно выбранного юпитерианина вовсе не равновероятно может оказаться выше или ниже среднего, то есть распределение юпитериан по росту асимметрично. В такой си туации полагаться на среднее и стандартное отклонение нельзя.

На рис. 2.ЗБ изображено нормальное распределение для совокуп ности с теми же самыми значениями среднего и стандартного отклонения, что и на рис. 2.ЗА. Оно ничуть не похоже на распре деление юпитериан. Таким образом, доверившись среднему и стандартному отклонению, мы получим превратное представ КАК ОПИСАТЬ ДАННЫЕ Рис. 2.3. Если распределение асимметрично полагаться на среднее и стандартное от клонение нельзя. А. Распределение юпитериан по росту. Б. Нормальное распределение с теми же средним и стандартным отклонением, не смотря на тождественность пара метров, оно ничуть не похоже на реальное распределение юпитериан.

ление о совокупности, не подчиняющейся нормальному распре делению.

Для описания таких данных лучше подходит не среднее, а медиана. Медиана — это значение, которое делит распределе ние пополам половина значений больше медианы половина — меньше (точнее не больше). Из рис. 2.4А видно, что ровно по ловина юпитериан выше 36 см. Стало быть 36 см — это медиа на роста юпитериан.

Для характеристики разброса роста юпитериан найдем зна чения, не выше которых оказались 25 и 75% результатов измере 34 ГЛАВА А Медиана (50-й процентиль) Б 25-й процентиль 75-й процентиль 30 35 40 45 Рост, см Рис. 2.4. Для описания асимметричного распределения следует использовать медиану и процентили. Медиана — это значение, которое делит распределение пополам. А. Ме диана роста юпитериан — 36 см. Б. 25-й и 75-й процентили отсекают четверть самых низких и четверть самых высоких юпитериан 25-й процентиль ближе к медиане, чем 75-й — это говорит об асимметричности распределения.

КАК ОПИСАТЬ ДАННЫЕ ния. Эти величины называются 25-м и 75-м процентилями. Если медиана делит распределение пополам, то 25-й и 75-й процен тили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем). Для юпитериан, как видно из рис. 2.4Б, 25-й и 75-й процентили равны соответственно см и 40 см. Конечно, медиана и процентили, в отличие от сред него и стандартного отклонения, не дают полного описания рас пределения. Однако между 25 м и 75-м процентилями находит ся половина значений, – значит, мы можем судить, каков ростом средний юпитерианин. По положению медианы относительно 25-го и 75-го процентилей можно судить о том, насколько асим метрично распределение. И наконец, теперь мы примерно зна ем, кто на Юпитере считается высоким (выше 75-го проценти ля), а кто ростом не вышел (ниже 25-го процентиля).

Для описания распределения чаще всего применяют 25-й и 75-й процентили. Однако можно рассчитывать любые другие процентили. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.

Вычисление процентилей — хороший способ разобраться в том, насколько распределение близко к нормальному. Напом ним, что для нормального распределения 95% значений заклю чено в пределах двух стандартных отклонений от среднего и 68% — в пределах одного стандартного отклонения, медиана совпадает со средним. Соответствие между процентилями и числом стандартных отклонений от среднего таково (см. также рис. 2.5):

Процентили Отклонения от среднего 2,5 µ – 16 µ – 50 µ 84 µ + 97,5 µ + Если соответствие между процентилями и отклонениями от среднего не слишком отличается от приведенного, то распреде ление близко к нормальному и его можно описать при помощи среднего и стандартного отклонения.

36 ГЛАВА Рис. 2.5. Нормальное распределение, соответствие между числом стандартных откло нений от среднего и процентилями.

Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, в частности рассматриваемые в гл. 2, 4 и 9, основаны на предположении что распределение близко к нормальному. Только в этом случае эти методы будут надежны. (Методы, не требующие нормальности распределе ния, изложены в гл. 10) ВЫБОРОЧНЫЕ ОЦЕНКИ До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения сред него, дисперсии и стандартного отклонения. На самом деле об следовать все объекты совокупности удается редко: обычно до вольствуются изучением выборки, полагая, что эта выборка от ражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выбор кой, мы, конечно, не узнаем точных значений среднего и стан КАК ОПИСАТЬ ДАННЫЕ дартного отклонения, но можем оценить их. Опенка среднего, вычисленная по выборке называется выборочным средним. Вы борочное среднее обозначают X и вычисляют по формуле:

X X =.

n где n – объем выборки.

Оценка стандартного отклонения называется выборочным стан дартным отклонением (s) и определяется следующим образом:

X - X ( ).

s = n - Эта формула отличается от формулы для стандартного от клонения по совокупности. Во-первых, среднее µ заменяется его выборочной оценкой — X. Во-вторых, в знаменателе из числа членов выборки вычитается единица. Строгое обоснова ние последнего требует основательной математической подго товки, поэтому ограничимся следующим объяснением. Разброс значений в пределах выборки никогда не бывает столь большим, как во всей совокупности, и деление не на n, а на n – 1 компенси рует возникающее занижение оценки стандартного отклонения.

Подытожим. Если известно, что выборка скорее всего при надлежит к совокупности с нормальным распределением, луч ше всего использовать выборочное среднее и выборочное стан дартное отклонение. Если есть основания полагать, что распре деление в совокупности отличается от нормального, следует ис пользовать медиану, 25-й и 75-й процентили.

НАСКОЛЬКО ТОЧНЫ ВЫБОРОЧНЫЕ ОЦЕНКИ Выборочное среднее и выборочное стандартное отклонение есть оценки среднего и стандартного отклонения для совокупности, вычисленные по случайной выборке. Понятно, что разные выбор ки дадут разные оценки. Для характеристики точности выбороч ных оценок используют стандартную ошибку. Стандартную ошиб ку можно подсчитать для любого показателя, но сейчас мы остановимся на стандартной ошибке среднего, — она позволяет 38 ГЛАВА Рис. 2.6. Три случайные выборки из одной совокупности дают три разных оценки сред него и стандартного отклонения.

оценить точность, с которой выборочное среднее характеризу ет значение среднего по всей совокупности.

На рис. 2.6А представлено уже знакомое нам распределение марсиан по росту. Мы уже знаем рост каждого марсианина. По смотрим, что получится, если оценивать средний рост по вы борке объемом, скажем, 10 марсиан.

Из 200 обитателей Марса наугад выберем 10 и пометим их черными кружками (рис. 2.6А). На рис. 2.6Б эта выборка изобра жена в виде, принятом в журнальных публикациях. Точка и два КАК ОПИСАТЬ ДАННЫЕ 30 35 40 45 Рис. 2.7. Такое распределение мы получим, выбрав 25 раз по 10 марсиан из совокупно сти представленной на рис 2 6А, и рассчитав среднее для каждой выборки (средние для трех выборок с рис. 2.6 показаны заполненными кружками). Если построить распpeделе ние средних для всех возможных выборок, оно окажется нормальным. Среднее этого распределения будет равно среднему той совокупности, из которой извлекаются вы борки. Стандартное отклонение этого распределения называется стандартной ошибкой среднего.

отрезка по бокам от нее изображают выборочное среднее ( = X 41,5 см) и выборочное стандартное отклонение (s = 3,8 см). Эти значения близки, но не равны среднему по совокупности (µ = 40 см) и стандартному отклонению ( = 5 см).

Извлечем еще одну случайную выборку того же объема. Ре зультат показан на рис. 2.6В. На рис. 2.6А попавшие в эту вы борку марсиане изображены заштрихованными кружками. Вы борочное среднее (36 см) по-прежнему близко к среднему по совокупности, хотя и отличается от него;

что касается выбороч ного стандартного отклонения (5 см), то на этот раз оно совпало со стандартным отклонением по совокупности.

На рис. 2.6Г представлена третья выборка. Попавшие в нее марсиане на рис. 2.6А изображены кружками с точками. Сред нее и стандартное отклонение для этой выборки составляют со ответственно 40 и 5 см.

Теперь пора поставить добычу случайных выборок на про мышленную основу. Рассмотрим совокупность средних для каж дой из возможных выборок по 10 марсиан. Общее число таких выборок превышает 1016. Три из них мы уже обследовали. Сред ние по этим выборкам представлены на рис. 2.7 в виде заполнен ных кружков. Пустые кружки — это средние еще для 22 выборок.

Итак, теперь каждому выборочному среднему соответствует кружок, 40 ГЛАВА точно так же, как до сих пор кружки соответствовали отдельно му объекту.

Посмотрим на рис. 2.7. Набор из 25 выборочных средних имеет колоколообразное распределение похожее на нормальное.

Это не случайно. Можно доказать, что если переменная пред ставляет собой сумму большого числа независимых перемен ных, то ее распределение стремится к нормальному, какими бы ни были распределения переменных, образующих сумму. Так как выборочное среднее определяется именно такой суммой, его распределение стремится к нормальному, причем чем больше объем выборок, тем точнее приближение. (Если выборки при надлежат совокупности с нормальным распределением, распре деление выборочных средних будет нормальным независимо от объема выборок).

Поскольку распределение на рис. 2.7 нормальное, его можно описать с помощью среднего и стандартного отклонения.

Так как среднее значение для рассматриваемых 25 точек есть среднее величин, которые сами являются средними значения ми, обозначим его X. Аналогично, стандартное отклонение X обозначим sX. По формулам для среднего и стандартного откло нения находим X = 40 см и sX = 1,6см.

X Среднее выборочных средних X оказалось равно среднему X µ всей совокупности из 200 марсиан. Ничего неожиданного в этом нет. Действительно, если бы мы провели исследования всех возможных выборок, то каждый из 200 марсиан был бы выбран равное число раз. Итак, среднее выборочных средних совпадет со средним по совокупности.

Интересно, равно ли sX стандартному отклонению, сово купности из 200 марсиан? Стандартное отклонение для сово купности выборочных средних sX равно 1,6 см, а стандартное отклонение самой совокупности — 5 см. Почему sX меньше, чем ? В общих чертах это можно понять, если учесть, что в случайную выборку редко будут попадать одни только коротыш ки и одни гиганты. Чаше их будет примерно поровну, и откло нения роста от среднего будут сглаживаться. Даже в выборке, куда попадут 10 самых высоких марсиан, средний рост соста вит только 50 см, тогда как рост самого высокого марсианина — 53 см.

Подобно тому, как стандартное отклонение исходной выбор КАК ОПИСАТЬ ДАННЫЕ ки из 10 марсиан s служит оценкой изменчивости роста марси ан, sX является оценкой изменчивости значений средних для вы борок по 10 марсиан в каждой. Таким образом, величина sX слу жит мерой точности, с которой выборочное среднее X является оценкой среднего по совокупности µ. Поэтому sX носит назва ние стандартной ошибки среднего.

Чем больше выборка, тем точнее оценка среднего и тем мень ше его стандартная ошибка. Чем больше изменчивость исход ной совокупности, тем больше изменчивость выборочных сред них, поэтому стандартная ошибка среднего возрастает с увели чением стандартного отклонения совокупности.

Истинная стандартная ошибка среднего по выборкам объе мом n, извлеченным из совокупности, имеющей стандартное отклонение, равна*:

=.

X n Собственно стандартная ошибка — это наилучшая оценка величины по одной выборке:

X s sX =, n где s — выборочное стандартное отклонение.

Так как возможные значения выборочного среднего стремятся к нормальному распределению, истинное среднее по совокуп ности примерно в 95% случаев лежит в пределах 2 стандартных ошибок выборочного среднего.

Как уже говорилось, распределение выборочных средних приближенно всегда следует нормальному распределению не зависимо от распределения совокупности, из которой извлече ны выборки. В этом и состоит суть утверждения, называемого центральной предельной теоремой. Эта теорема гласит следу ющее.

• Выборочные средние имеют приближенно нормальное рас пределение независимо от распределения исходной совокуп ности, из которой были извлечены выборки.

* Вывод этой формулы приведен в гл. 4.

42 ГЛАВА • Среднее значение всех возможных выборочных средних рав но среднему исходной совокупности.

• Стандартное отклонение всех возможных средних по выбор кам данного объема, называемое стандартной ошибкой сред него, зависит как от стандартного отклонения совокупнос ти, так и от объема выборки.

На рис. 2.8 показано, как связаны между собой выборочное среднее, выборочное стандартное отклонение и стандартная ошибка среднего и как они изменяются в зависимости от объе ма выборки*. По мере того как мы увеличиваем объем выбор ки, выборочное среднее и стандартное отклонение s дают все X более точные оценки среднего µ и стандартного отклонения по совокупности. Увеличение точности оценки среднего отра жается в уменьшении стандартной ошибки среднего. На X брав достаточное количество марсиан, можно сделать стандар тную ошибку среднего сколь угодно малой. В отличие от стан дартного отклонения стандартная ошибка среднего ничего не говорит о разбросе данных, — она лишь показывает точность выборочной оценки среднего.

Хотя разница между стандартным отклонением и стандарт ной ошибкой среднего совершенно очевидна, их часто путают.

Большинство исследователей приводят в публикациях значение стандартной ошибки среднего, которая заведомо меньше стан дартного отклонения. Авторам кажется, что в таком виде их дан ные внушают больше доверия. Может быть, так оно и есть, од нако беда в том, что стандартная ошибка среднего измеряет именно точность оценки среднего, но никак не разброс данных, который и интересен читателю. Мораль состоит в том, что, опи сывая совокупность, всегда нужно приводить значение стандар тного отклонения.

* Рис. 2.8 получился следующим образом. Из совокупности марсиан (рис.

2.1) взяли наугад двух марсиан. По этой выборке вычислили X, s и sX.

Потом опять же наугад выбрали еще одного марсианина и добавив его к выборке снова рассчитали эти показатели. Добавляя каждый раз по одно му случайно выбранному марсианину, объем выборки довели до 100. Если бы мы повторили эксперимент, очередность извлечения марсиан была бы иной, и рисунок выглядел бы немного иначе.

КАК ОПИСАТЬ ДАННЫЕ Рис. 2.8. С увеличением объема выборки возрастает точность оценки параметров распределения. Выборочное среднее X стремится к среднему в совокупности µ вы борочное стандартное отклонение s стремится к стандартному отклонению в сово купности, а стандартная ошибка среднего стремится к нулю.

Рассмотрим пример, позволяющий почувствовать различие между стандартным отклонением и стандартной ошибкой сред него, а также уяснить, почему не следует пренебрегать стандар тным отклонением. Положим, исследователь, обследовав выборку из 20 человек, пишет в статье, что средний сердечный выброс составлял 5,0 л/мин со стандартным отклонением 1 л/мин. Мы знаем, что 95% нормально распределенной совокупности попа дает в интервал среднее плюс–минус два стандартных отклоне 44 ГЛАВА ния. Тем самым, из статьи видно, что почти у всех обследованных сердечный индекс составил от 3 до 7 л/мин. Такие сведения весь ма полезны, их легко использовать во врачебной практике.

Увы, приведенный пример далек от реальности. Скорее ав тор укажет не стандартное отклонение, а стандартную ошибку среднего. Тогда из статьи вы узнаете, что «сердечный выброс составил 5,0 ± 0,22 л/мин». И если бы мы спутали стандартную ошибку среднего со стандартным отклонением, то пребывали бы в уверенности, что 95% совокупности заключено в интервал от 4,56 до 5,44 л/мин. На самом деле в этом интервале (с вероят ностью 95%) находится среднее значение сердечного выброса.

(В гл. 7 мы поговорим о доверительных интервалах более под робно). Впрочем, стандартное отклонение можно рассчитать самому — для этого нужно умножить стандартную ошибку сред него на квадратный корень из объема выборки (численности группы). Правда, для этого нужно знать, что же именно приво дит автор — стандартное отклонение или стандартную ошибку среднего.

ВЫВОДЫ Когда совокупность подчиняется нормальному распределению, она исчерпывающе описывается параметрами распределения — средним и стандартным отклонением. Когда же распределение сильно отличается от нормального, более информативны медиа на и процентили.

Так как наблюдать всю совокупность удается редко, мы оце ниваем параметры распределения по выборке, случайным об разом извлеченной из совокупности. Стандартная ошибка сред него служит мерой точности, с которой выборочное среднее яв ляется оценкой среднего по совокупности.

Эти величины полезны не только для описания совокупнос ти или выборки. Их можно также использовать для проверки статистических гипотез, в частности о различиях между груп пами.

Этому и будет посвящена следующая глава.

КАК ОПИСАТЬ ДАННЫЕ ЗАДАЧИ 2.1. Найдите среднее, стандартное отклонение, медиану, 25 й и 75-й процентили для следующей выборки 0;

0;

0;

1;

1;

1;

1;

1;

1;

1;

1;

1;

1;

1;

2;

2;

2;

2;

3;

3;

3;

3;

4;

4;

5;

5;

5;

5;

6;

7;

9;

10;

11.

Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Обоснуйте свой ответ. (Приве денные числа — клинические оценки тяжести серповиднокле точной анемии. Подробный анализ этого исследования см. в за даче 8.9. Данные заимствованы из работы: R. Hebbel et al. Erythro cyte adherence to endothelium in sickle-cell anemia: a possible determinant of disease seventy. N. Engl. J. Med., 302, 992–995, 1980).

2.2. Найдите среднее, стандартное отклонение, медиану, 25 й и 75-й процентили для следующих данных 289, 203, 359, 243, 232, 210, 251, 246, 224, 239, 220, 211. Можно ли считать, что выборка извлечена из совокупности с нормальным распределе нием? Обоснуйте свой ответ. (Эти числа — продолжительность (в секундах) физической нагрузки до развития приступа стено кардии у 12 человек с ишемической болезнью сердца. Данные заимствованы из работы: W. Aronow. Effect of nonnicotine ciga retts and carbon monoxide on angina. Circulation, 61:262–265, 1979.

Более подробно эта работа описана в задаче 9.5.) 2.3. Найдите среднее, стандартное отклонение, медиану, 25 й и 75-й процентили для следующих данных 1,2;

1,4;

1,6;

1,7;

1,7;

1,8;

2,2;

2,3;

2,4;

6,4;

19,0;

23,6. Можно ли считать, что это — выборка из совокупности с нормальным распределением?

Обоснуйте свой ответ. (Приведены результаты оценки прони цаемости сосудов сетчатки из работы: G. A. Fishman et al. Blood retinal barrier function in patients with cone or cone-rod dystrophy.

Arch. Ophthalmol., 104:545–548, 1986.) 2.4. Опишите распределение числа очков, выпадающих при бросании игральной кости. Найдите среднее число очков.

2.5. Бросьте одновременно две игральные кости, посмотри те, сколько очков выпало на каждой из них, и рассчитайте сред нее. Повторите опыт 20 раз и постройте распределение сред них, найденных после каждого броска. Что это за распределе ние? Вычислите его среднее и стандартное отклонение. Что они характеризуют?

46 ГЛАВА 2.6. Р. Флетчер и С. Флетчер (R. Fletcher, S. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl.

J. Med., 301:180–183, 1979) изучили библиографические харак теристики 612 случайно выбранных статей, опубликованных в журналах Journal of American Medical Association, New England Journal of Medicine и Lancet с 1946 г. Одним из показателей было число авторов статьи. Было установлено следующее:

Год Число обследо- Среднее число Стандартное ванных статей авторов отклонение 1946 151 2,0 1, 1956 149 2,3 1, 1966 157 2,8 1, 1976 155 4,9 7, Нарисуйте график среднего числа авторов по годам. Может ли распределение статей по числу авторов быть нормальным?

Почему?

Глава Сравнение нескольких групп:

дисперсионный анализ Статистические методы используют для описания данных и для оценки статистической значимости результатов опыта. В предыдущей главе мы занимались описанием данных. Мы ввели понятия среднего, стандартного отклонения, медианы и процентилей. Мы узнали, как оценивать эти показатели по выборке. Мы разобрались, как определить, насколько точна выборочная оценка среднего. Перейдем теперь к методам оценки статистической значимости различий (их называют критериями значимости, или просто критериями*). Мето дов этих существует множество, но все они построены по одному принципу. Сначала мы формулируем нулевую ги потезу, то есть, предполагаем, что исследуемые факторы не оказывают никакого влияния на исследуемую величину и по лученные различия случайны. Затем мы определяем, какова вероятность получить наблюдаемые (или более сильные) раз личия при условии справедливости нулевой гипотезы. Если * Критерием называют и сам метод, и ту величину, которая получается в результате его применения.

48 ГЛАВА эта вероятность мала*, то мы отвергаем нулевую гипотезу и зак лючаем что результаты эксперимента статистически значимы.

Это, разумеется, еще не означает что мы доказали действие имен но изучаемых факторов (это вопрос прежде всего планирова ния эксперимента), но, во всяком случае, маловероятно, что ре зультат обусловлен случайностью.

Дисперсионный анализ был разработан в 20-х годах нашего столетия английским математиком и генетиком Рональдом Фи шером. На дисперсионном анализе основан широкий класс кри териев значимости, со многими из которых мы познакомимся в этой книге. Сейчас мы постараемся понять общий принцип этого метода.

СЛУЧАЙНЫЕ ВЫБОРКИ ИЗ НОРМАЛЬНО РАСПРЕДЕЛЕННОИ СОВОКУПНОСТИ Однажды в небольшом городке (200 жителей) ученые исследова ли влияние диеты на сердечный выброс. Случайным образом ото брали 28 человек, каждый из которых согласился участвовать в исследовании. После этого они опять таки случайным образом были разделены на 4 группы по 7 человеке каждой. Члены пер вой (контрольной) группы продолжали питаться как обычно, чле ны второй группы стали есть только макароны, третьей группы — мясо, четвертой — фрукты. Через месяц у всех участников эксперимента измерили сердечный выброс. Результаты представ лены на рис. 3.2.

Анализ данных мы начинаем с формулировки нулевой гипо тезы. В данном случае она заключается в том, что ни одна из диет не влияет на сердечный выброс. Откроем маленький секрет, — дело обстоит именно так. На рис. 3.1 показано распределение сердечного выброса для всех жителей городка, каждый житель представлен кружком. Члены наших экспериментальных групп изображены заштрихованными кружками. Все четыре группы * Максимальную приемлемую вероятность отвергнуть верную нуле вую гипотезу называют уровнем значимости и обозначают. Обычно принимают = 0,05.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Рис. 3.1. Распределение жителей городка по величине сердечного выброса. Диета не влияет на сердечный выброс, и экспериментальные группы представляют собой просто четыре случайные выборки из нормально распределенной совокупности.

представляют собой просто случайные выборки из нормально распределенной совокупности.

Однако как убедиться в этом, располагая только результата ми эксперимента (рис. 3.2)? Как видно из рисунка 3.2, группы все же различаются по средней величине сердечного выброса.

Вопрос можно поставить так: какова вероятность получить та кие различия, извлекая случайные выборки из нормально рас пределенной совокупности? Прежде чем ответить на этот воп рос нам надо получить показатель, характеризующий величину различий.

Оставим на время наш эксперимент и зададимся вопросом, что заставляет нас, взглянув на несколько выборок думать, что различия между ними не случайны.

Попробуем (исключительно в учебных целях) так изменить наши данные, чтобы читатель поверил во влияние диеты на сер дечный выброс. Результат этой подтасовки представлен на рис.

3.3. Взаимное расположение точек в группах осталось прежним, но сами группы значительно раздвинуты по горизонтальной оси. Сравнив рис. 3.2 и 3.3 всякий скажет, что четыре вы 50 ГЛАВА Рис. 3.2. Исследователь не может наблюдать совокупность, все, чем он располагает – это его экспериментальные группы. На этом рисунке данные с рис. 3.1 представ лены такими, какими их видит исследователь. Результаты в разных группах несколько различаются. Вызваны эти различия диетой или просто случайностью? Внизу ри сунка показаны средние значения сердечного выброса в четырех группах (выбороч ные средние) а также среднее и стандартное отклонение этих четырех средних.

борки на рис. 3.2 «не различаются», а выборки на рис. 3.3. — «различаются». Почему? Сравним разброс значений внутри вы борок с разбросом выборочных средних. Разброс выборочных средних на рис. 3.2. значительно меньше разброса значений в каж дой из выборок. На рис. 3.3 картина обратная — разброс выбо рочных средних превышает разброс в каждой из выборок. То же самое можно сказать и о данных на рис. 3.4, хотя здесь три выборочных СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Рис. 3.3. Те же группы что на предыдущих рисунках;

теперь они раздвинуты по гори зонтальной оси. Вряд ли такие различия можно отнести на счет случайности — влия ние диеты налицо! Обратите внимание, что разброс выборочных средних превышает разброс внутри групп. На предыдущем рисунке картина была иной, — разброс выбо рочных средних был меньше разброса внутри групп.

средних близки друг другу и заметно отличается от них только одна.

Итак, чтобы оценить величину различий, нужно каким-то об разом сравнить разброс выборочных средних с разбросом зна чений внутри групп. Сейчас мы покажем, как это можно сде лать с помощью дисперсии (как мы выяснили в предыдущей главе, этот показатель характеризует именно разброс), но преж де сделаем несколько замечаний.

Дисперсия правильно характеризует разброс только в том случае, если совокупность имеет нормальное распределение (вспомните 52 ГЛАВА Рис. 3.4. Еще один возможный исход эксперимента с диетой. В трех группах сред ние примерно равны и только в группе макаронной диеты сердечный выброс явно повысился. Такой результат, как и предыдущий никто не отнесет на счет случайно сти. И снова разброс выборочных средних превышает разброс внутри групп.

обследование юпитериан, чуть было не приведшее к ошибоч ным заключениям). Поэтому и критерий, основанный на дис персии, применим только для нормально распределенных совокупностей.

Вообще, все критерии, основанные на оценке парамет ров распределения (они называются параметрическими), применимы только в случае, если данные подчиняются со ответствующему распределению (чаще всего речь идет о нормальном распределении). Если распределение отличается от нормального, следует пользоваться так называемыми не параметрическими критериями. Эти критерии не основаны на оценке параметров распределения и вообще не требуют, чтобы данные подчинялись какому-то определенному типу СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Рис. 3.5. Еще один набор из четырех случайных выборок по семь человек в каждой, извлеченых из совокупности в 200 человек (население городка, где изучали влияние диеты на сердечный выброс).

распределения. Более подробно мы рассмотрим непараметри ческие критерии в гл. 5, 8 и 10. Непараметрические критерии дают более грубые оценки, чем параметрические. Параметри ческие методы более точны, но лишь в случае, если правильно определено распределение совокупности.

ДВЕ ОЦЕНКИ ДИСПЕРСИИ Мы уже выяснили, что чем больше разброс средних и чем мень ше разброс значений внутри групп, тем меньше вероятность того, что наши группы — это случайные выборки из одной со вокупности. Осталось только оформить это суждение количе ственно.

Дисперсию совокупности можно оценить двумя способами.

Во-первых, дисперсия, вычисленная для каждой группы, — это 54 ГЛАВА оценка дисперсии совокупности. Поэтому дисперсию совокуп ности можно оценить на основании групповых дисперсий. Та кая оценка не будет зависеть от различий групповых средних.

Например, для данных на рис. 3.2 и 3.3 она будет одинаковой.

Во-вторых, разброс выборочных средних тоже позволяет оце нить дисперсию совокупности. Понятно, что такая оценка дис персии зависит от различий выборочных средних.

Если экспериментальные группы — это четыре случайные выборки из одной и той же нормально распределенной сово купности (применительно к нашему эксперименту это значило бы, что диета не влияет на сердечный выброс), то обе оценки дисперсии совокупности дали бы примерно одинаковые резуль таты. Поэтому, если эти оценки оказываются близки, то мы не можем отвергнуть нулевую гипотезу. В противном случае мы отвергаем нулевую гипотезу, то есть, заключаем маловероятно, что мы получили бы такие различия между группами, если бы они были просто четырьмя случайными выборками из одной нормально распределенной совокупности.

Перейдем к вычислениям. Как оценить дисперсию совокуп ности по четырем выборочным дисперсиям? Если верна гипо теза о том, что диета не влияет на величину сердечного выбро са, то любая из них дает одинаково хорошую оценку. Поэтому в качестве оценки дисперсии совокупности возьмем среднее вы борочных дисперсий. Эта оценка называется внутригрупповой дисперсией;

обозначим ее.

sвну 2 2 2 2 sвну = sкон + sмак + sмяс + sфру, () 2 2 где,,, — выборочные оценки дисперсии в груп sкон sмак sмяс sфру пах, питавшихся как обычно (контроль), макаронами, мясом и фруктами. Дисперсия внутри каждой группы вычисляется от носительно среднего для группы. Поэтому внутригрупповая дис персия не зависит от того, насколько различаются эти средние.

Оценим теперь дисперсию совокупности по выборочным сред ним. Так как мы предположили, что все четыре выборки извлече ны из одной совокупности, стандартное отклонение четырех выборочных средних служит оценкой ошибки среднего. На СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ помним, что стандартная ошибка среднего связана со стан X дартным отклонением совокупности и объемом выборки n сле дующим соотношением:

=.

X n Тем самым, дисперсию совокупности 2 можно рассчитать следующим образом:

2 = n.

X Воспользуемся этим, чтобы оценить дисперсию совокупно сти по разбросу значений выборочных средних. Эта оценка на зывается межгрупповой дисперсией, обозначим ее.

sмеж 2 sмеж = nsX, где — оценка стандартного отклонения выборки из четырех sX средних.

Если верна нулевая гипотеза, то как внутригрупповая, так и межгрупповая дисперсии служат оценками одной и той же дис персии и должны быть приближенно равны. Исходя из этого, вычислим критерий F:

Дисперсия совокупности, оцененная по выборочным средним F =, Дисперсия совокупности, оцененная по выборочным дисперсиям или sмеж F =.

sвну И числитель, и знаменатель этого отношения — это оценки одной и той же величины — дисперсии совокупности 2, по этому значение F должно были близко к 1. Для четырех групп, представленных на рис. 3.2, значение F действительно близко к единице. Теперь наши исследователи влияния диеты на сер дечный выброс могут сделать определенные выводы. Получен 56 ГЛАВА ные в эксперименте данные не противоречат нулевой гипотезе, следовательно, нет оснований, считать, что диета влияет на сердечный выброс. Что касается данных, которые мы специально сконструировали, чтобы убедить читателя в таком «влиянии» (рис. 3.3), то для них F = 68,0. Для данных, изображенных на рис. 3.4, F = 24,5. Как видим, величина F хорошо согласуется с впечатлением, которое складывается при взгляде на рисунок.

Итак, если F значительно превышает 1, нулевую гипотезу следует отвергнуть. Если же значение F близко к 1, нулевую гипотезу следует принять. Осталось понять, начиная с какой именно величины F следует отвергать нулевую гипотезу.

КРИТИЧЕСКОЕ ЗНАЧЕНИЕ F Если извлекать случайные выборки из нормально распределен ной совокупности, значение F будет меняться от опыта к опыту.

Например, на рис. 3.5 представлен еще один набор из четырех случайных выборок по семь человек в каждой, извлеченных из нашей совокупности в 200 человек. На этот раз F = 0,5. Поло жим, что нам удалось повторить эксперимент с жителями того же городка, скажем, 200 раз. Каждый раз мы заново набирали по четыре группы, и каждый раз вычисляли F. На рис. З.6А при ведены результаты этого многократного эксперимента. Значе ния F округлены до одного знака после запятой и изображены кружками. Два черных кружка соответствуют данным с рис. 3. и 3.5. Как и следовало ожидать, большинство значений F близко к единице (попадая в интервал от 0 до 2), только в 10 из 200 опы тов (то есть в 5% случаев) мы получили значение F, большее или равное З. (На рис. 3.6Б эти 10 значений показаны черными круж ками). Значит, отвергая нулевую гипотезу при F 3, мы будем ошибаться в 5% случаев. Если такой процент ошибок не чрезме рен, то будем считать «большими» те значения F, которые боль ше или равны 3. Значение критерия, начиная с которого мы от вергаем нулевую гипотезу, называется критическим значением.

Вероятность ошибочно отвергнуть верную нулевую гипотезу, то есть найти различия там, где их нет, обозначается Р. Как прави ло, считают достаточным, чтобы эта вероятность не превышала СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 5%. (Максимальная приемлемая вероятность ошибочно отверг нуть нулевую гипотезу называется уровнем значимости и обо значается ). Почему бы не повысить критическое значение F тем самым, уменьшая эту вероятность? Однако в этом случае возрастет риск ошибочно принять неверную нулевую гипотезу (то есть не найти различий там, где они есть). Подробнее мы поговорим об этом в гл. 6.

Итак, мы решили, приняв допустимой 5% вероятность ошиб ки, отвергать нулевую гипотезу при F > 3. Однако критическое значение F следовало бы выбрать на основе не 200, а всех экспериментов, которые можно провести на совокупности из 200 человек. Предположим, что нам удалось провести все эти эксперименты. По их результатам мы вычислили соответству ющие значения F и нанесли их на график (рис. 3.6В). Здесь каж дое значение F изображено «песчинкой». На долю темных пес чинок в правой части горки приходится 5% всех значений. Кар тина, в общем, похожа на ту, что мы видели рис. 3.6Б. На прак тике совокупности гораздо больше, чем население нашего го родка, а число возможных значений F несравненно больше 1042.

Если мысленно увеличить объем совокупности до бесконечно сти, то песчинки сольются, и получится гладкая кривая, изобра женная на рис. 3.6Г. Площади под кривой аналогичны долям от общего числа кружков или песчинок на рис. 3.6А, Б и В. Зашт рихованная область на рис. 3.6Г составляет 5% всей площади под кривой. Эта область начинается от F = 3,01, это и есть кри тическое значение F.

В нашем примере число групп равнялось 4, в каждую группу входило 7 человек. Если бы число групп или число членов в каж дой группе было другим, кривая пошла бы по-другому и крити ческое значение F тоже было бы другим. Вообще, критическое значение F однозначно определяется уровнем значимости (обычно 0,05 или 0,01) и еще двумя параметрами, которые называются внутригрупповым и межгрупповым числом степеней свободы и обозначаются греческой буквой («ню»). Оставим в стороне воп рос о происхождении этих названии и просто укажем, как их оп ределять. Межгрупповое число степеней свободы — это число групп минус единица = m – 1. Внутригрупповое число степе меж ней свободы — это произведение числа групп на численность 58 ГЛАВА Рис. 3.6. А. Четыре случайные выборки по 7 человек в каждой извлекли из той же сово купности (население городка) 200 раз. Каждый раз рассчитывали значение F и наноси ли его на график. Результаты для выборок с рис. 3.2 и 3.5 помечены черным. Б. Десять наибольших значений помечень черньм. Область черных кружков начинается со значе ния F, равного 3,0.

каждой из групп минус единица = m (n – 1). В примере с ис вну следованием диеты межгрупповое число степеней свободы равно 4 – 1 = 3, а внутригрупповое 4 (7 – 1) = 24. Вычислить критичес кое значение F довольно сложно, поэтому пользуются таблицами критических значений F для разных, и (табл. 3.1).

меж вну.

Математическая модель, на которой основано вычисление критических значений F предполагает следующее.

• Каждая выборка независима от остальных выборок.

• Каждая выборка случайным образом извлечена из исследуе мой совокупности.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Г 0 1,0 2,0 3,0 4, Значение F Рис. 3.6. (продолжение). В. Из той же совокупности извлекли все воэможнье наборы из 4 выборок по 7 человек в каждой и построили распределение F. От дельные значения слились, превратившись в песчинки. 5% песчинок с самыми большими значениями F помечены черным. Г. Такое распределение F получит ся, если извлекать выборки из бесконечной совокупности. Пяти процентам са мых высоких значений F соответствует заштрихованная область (ее площадь составляет 5% от общей площади всей кривой). «Большие» значения F начина ются там, где начинается эта область, то есть с F = 3,01.

• Совокупность нормально распределена.

• Дисперсии всех выборок равны.

При существенном нарушении хотя бы одного из этих усло вий нельзя пользоваться ни таблицей 3.1, ни вообще дисперси онным анализом.

В рассмотренном нами эксперименте исследовалась зависи мость только от одного фактора — диеты. Дисперсионный ана Таблица 3.1. Критические значения F для = 0,05 (обычный шрифт) и = 0,01 (жирный шрифт) меж 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 вну 1 161 199 216 225 230 234 237 239 241 242 243 244 245 246 248 249 250 251 252 253 253 254 254 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6083 6107 6143 6170 6209 6234 6260 6286 6302 6324 6334 6350 6360 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,43 19,45 19,45 19,46 19,47 19,48 19,48 19,49 19,49 19,49 19, 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,41 99,42 99,43 99,44 99,45 99,46 99,47 99,48 99,48 99,48 99,49 99,49 99,50 99, 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,71 8,69 8,66 8,64 8,62 8,59 8,58 8,56 8,55 8,54 8,53 8, 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,13 27,05 26,92 26,83 26,69 26,60 26,50 26,41 26,35 26,28 26,24 26,18 26,15 26, 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,87 5,84 5,80 5,77 5,75 5,72 5,70 5,68 5,66 5,65 5,64 5, 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,25 14,15 14,02 13,93 13,84 13,75 13,69 13,61 13,58 13,52 13,49 13, 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,64 4,60 4,56 4,53 4,50 4,46 4,44 4,42 4,41 4,39 4,37 4, 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,77 9,68 9,55 9,47 9,38 9,29 9,24 9,17 9,13 9,08 9,04 9, 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,96 3,92 3,87 3,84 3,81 3,77 3,75 3,73 3,71 3,69 3,68 3, 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,60 7,52 7,40 7,31 7,23 7,14 7,09 7,02 6,99 6,93 6,90 6, 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,53 3,49 3,44 3,41 3,38 3,34 3,32 3,29 3,27 3,25 3,24 3, 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,36 6,28 6,16 6,07 5,99 5,91 5,86 5,79 5,75 5,70 5,67 5, 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,24 3,20 3,15 3,12 3,08 3,04 3,02 2,99 2,97 2,95 2,94 2, 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,56 5,48 5,36 5,28 5,20 5,12 5,07 5,00 4,96 4,91 4,88 4, 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,03 2,99 2,94 2,90 2,86 2,83 2,80 2,77 2,76 2,73 2,72 2, 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 5,01 4,92 4,81 4,73 4,65 4,57 4,52 4,45 4,41 4,36 4,33 4, 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,86 2,83 2,77 2,74 2,70 2,66 2,64 2,60 2,59 2,56 2,55 2, 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,60 4,52 4,41 4,33 4,25 4,17 4,12 4,05 4,01 3,96 3,93 3, 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,74 2,70 2,65 2,61 2,57 2,53 2,51 2,47 2,46 2,43 2,42 2, 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,29 4,21 4,10 4,02 3,94 3,86 3,81 3,74 3,71 3,66 3,62 3, 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,64 2,60 2,54 2,51 2,47 2,43 2,40 2,37 2,35 2,32 2,31 2, 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,05 3,97 3,86 3,78 3,70 3,62 3,57 3,50 3,47 3,41 3,38 3, 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,55 2,51 2,46 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,22 2, 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,86 3,78 3,66 3,59 3,51 3,43 3,38 3,31 3,27 3,22 3,19 3, 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,48 2,44 2,39 2,35 2,31 2,27 2,24 2,21 2,19 2,16 2,14 2, 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,70 3,62 3,51 3,43 3,35 3,27 3,22 3,15 3,11 3,06 3,03 3, 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,42 2,38 2,33 2,29 2,25 2,20 2,18 2,14 2,12 2,10 2,08 2, 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,56 3,49 3,37 3,29 3,21 3,13 3,08 3,01 2,98 2,92 2,89 2, 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,37 2,33 2,28 2,24 2,19 2,15 2,12 2,09 2,07 2,04 2,02 2, 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,45 3,37 3,26 3,18 3,10 3,02 2,97 2,90 2,86 2,81 2,78 2, 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,33 2,29 2,23 2,19 2,15 2,10 2,08 2,04 2,02 1,99 1,97 1, 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,35 3,27 3,16 3,08 3,00 2,92 2,87 2,80 2,76 2,71 2,68 2, 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,29 2,25 2,19 2,15 2,11 2,06 2,04 2,00 1,98 1,95 1,93 1, 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,27 3,19 3,08 3,00 2,92 2,84 2,78 2,71 2,68 2,62 2,59 2, 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,26 2,21 2,16 2,11 2,07 2,03 2,00 1,96 1,94 1,91 1,89 1, 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,19 3,12 3,00 2,92 2,84 2,76 2,71 2,64 2,60 2,55 2,51 2, 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,22 2,18 2,12 2,08 2,04 1,99 1,97 1,93 1,91 1,88 1,86 1, 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,13 3,05 2,94 2,86 2,78 2,69 2,64 2,57 2,54 2,48 2,44 2, 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,20 2,16 2,10 2,05 2,01 1,96 1,94 1,90 1,88 1,84 1,83 1, 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,07 2,99 2,88 2,80 2,72 2,64 2,58 2,51 2,48 2,42 2,38 2, 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,17 2,13 2,07 2,03 1,98 1,94 1,91 1,87 1,85 1,82 1,80 1, 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 3,02 2,94 2,83 2,75 2,67 2,58 2,53 2,46 2,42 2,36 2,33 2, 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,15 2,11 2,05 2,01 1,96 1,91 1,88 1,84 1,82 1,79 1,77 1, 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,97 2,89 2,78 2,70 2,62 2,54 2,48 2,41 2,37 2,32 2,28 2, 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,13 2,09 2,03 1,98 1,94 1,89 1,86 1,82 1,80 1,77 1,75 1, 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,93 2,85 2,74 2,66 2,58 2,49 2,44 2,37 2,33 2,27 2,24 2, 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,11 2,07 2,01 1,96 1,92 1,87 1,84 1,80 1,78 1,75 1,73 1, 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,89 2,81 2,70 2,62 2,54 2,45 2,40 2,33 2,29 2,23 2,19 2, 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,09 2,05 1,99 1,95 1,90 1,85 1,82 1,78 1,76 1,73 1,71 1, 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,86 2,78 2,66 2,58 2,50 2,42 2,36 2,29 2,25 2,19 2,16 2, 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,08 2,04 1,97 1,93 1,88 1,84 1,81 1,76 1,74 1,71 1,69 1, 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,99 2,93 2,82 2,75 2,63 2,55 2,47 2,38 2,33 2,26 2,22 2,16 2,12 2, 28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,06 2,02 1,96 1,91 1,87 1,82 1,79 1,75 1,73 1,69 1,67 1, 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,96 2,90 2,79 2,72 2,60 2,52 2,44 2,35 2,30 2,23 2,19 2,13 2,09 2, 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,05 2,01 1,94 1,90 1,85 1,81 1,77 1,73 1,71 1,67 1,65 1, 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,93 2,87 2,77 2,69 2,57 2,49 2,41 2,33 2,27 2,20 2,16 2,10 2,06 2, 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,04 1,99 1,93 1,89 1,84 1,79 1,76 1,72 1,70 1,66 1,64 1, 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,74 2,66 2,55 2,47 2,39 2,30 2,25 2,17 2,13 2,07 2,03 2, 32 4,15 3,29 2,90 2,67 2,51 2,40 2,31 2,24 2,19 2,14 2,10 2,07 2,01 1,97 1,91 1,86 1,82 1,77 1,74 1,69 1,67 1,63 1,61 1, 7,50 5,34 4,46 3,97 3,65 3,43 3,26 3,13 3,02 2,93 2,86 2,80 2,70 2,62 2,50 2,42 2,34 2,25 2,20 2,12 2,08 2,02 1,98 1, 34 4,13 3,28 2,88 2,65 2,49 2,38 2,29 2,23 2,17 2,12 2,08 2,05 1,99 1,95 1,89 1,84 1,80 1,75 1,71 1,67 1,65 1,61 1,59 1, 7,44 5,29 4,42 3,93 3,61 3,39 3,22 3,09 2,98 2,89 2,82 2,76 2,66 2,58 2,46 2,38 2,30 2,21 2,16 2,08 2,04 1,98 1,94 1, Таблица 3.1. Критические значения F для = 0,05 (обычный шрифт) и = 0,01 (жирный шрифт) меж 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 вну 36 4,11 3,26 2,87 2,63 2,48 2,36 2,28 2,21 2,15 2,11 2,07 2,03 1,98 1,93 1,87 1,82 1,78 1,73 1,69 1,65 1,62 1,59 1,56 1, 7,40 5,25 4,38 3,89 3,57 3,35 3,18 3,05 2,95 2,86 2,79 2,72 2,62 2,54 2,43 2,35 2,26 2,18 2,12 2,04 2,00 1,94 1,90 1, 38 4,10 3,24 2,85 2,62 2,46 2,35 2,26 2,19 2,14 2,09 2,05 2,02 1,96 1,92 1,85 1,81 1,76 1,71 1,68 1,63 1,61 1,57 1,54 1, 7,35 5,21 4,34 3,86 3,54 3,32 3,15 3,02 2,92 2,83 2,75 2,69 2,59 2,51 2,40 2,32 2,23 2,14 2,09 2,01 1,97 1,90 1,86 1, 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,95 1,90 1,84 1,79 1,74 1,69 1,66 1,61 1,59 1,55 1,53 1, 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,56 2,48 2,37 2,29 2,20 2,11 2,06 1,98 1,94 1,87 1,83 1, 42 4,07 3,22 2,83 2,59 2,44 2,32 2,24 2,17 2,11 2,06 2,03 1,99 1,94 1,89 1,83 1,78 1,73 1,68 1,65 1,60 1,57 1,53 1,51 1, 7,28 5,15 4,29 3,80 3,49 3,27 3,10 2,97 2,86 2,78 2,70 2,64 2,54 2,46 2,34 2,26 2,18 2,09 2,03 1,95 1,91 1,85 1,80 1, 44 4,06 3,21 2,82 2,58 2,43 2,31 2,23 2,16 2,10 2,05 2,01 1,98 1,92 1,88 1,81 1,77 1,72 1,67 1,63 1,59 1,56 1,52 1,49 1, 7,25 5,12 4,26 3,78 3,47 3,24 3,08 2,95 2,84 2,75 2,68 2,62 2,52 2,44 2,32 2,24 2,15 2,07 2,01 1,93 1,89 1,82 1,78 1, 46 4,05 3,20 2,81 2,57 2,42 2,30 2,22 2,15 2,09 2,04 2,00 1,97 1,91 1,87 1,80 1,76 1,71 1,65 1,62 1,57 1,55 1,51 1,48 1, 7,22 5,10 4,24 3,76 3,44 3,22 3,06 2,93 2,82 2,73 2,66 2,60 2,50 2,42 2,30 2,22 2,13 2,04 1,99 1,91 1,86 1,80 1,76 1, 48 4,04 3,19 2,80 2,57 2,41 2,29 2,21 2,14 2,08 2,03 1,99 1,96 1,90 1,86 1,79 1,75 1,70 1,64 1,61 1,56 1,54 1,49 1,47 1, 7,19 5,08 4,22 3,74 3,43 3,20 3,04 2,91 2,80 2,71 2,64 2,58 2,48 2,40 2,28 2,20 2,12 2,02 1,97 1,89 1,84 1,78 1,73 1, 50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,89 1,85 1,78 1,74 1,69 1,63 1,60 1,55 1,52 1,48 1,46 1, 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,46 2,38 2,27 2,18 2,10 2,01 1,95 1,87 1,82 1,76 1,71 1, 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,86 1,82 1,75 1,70 1,65 1,59 1,56 1,51 1,48 1,44 1,41 1, 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,39 2,31 2,20 2,12 2,03 1,94 1,88 1,79 1,75 1,68 1,63 1, 70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,93 1,89 1,84 1,79 1,72 1,67 1,62 1,57 1,53 1,48 1,45 1,40 1,37 1, 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,51 2,45 2,35 2,27 2,15 2,07 1,98 1,89 1,83 1,74 1,70 1,62 1,57 1, 80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,91 1,88 1,82 1,77 1,70 1,65 1,60 1,54 1,51 1,45 1,43 1,38 1,35 1, 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,48 2,42 2,31 2,23 2,12 2,03 1,94 1,85 1,79 1,70 1,65 1,58 1,53 1, 100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,89 1,85 1,79 1,75 1,68 1,63 1,57 1,52 1,48 1,42 1,39 1,34 1,31 1, 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,43 2,37 2,27 2,19 2,07 1,98 1,89 1,80 1,74 1,65 1,60 1,52 1,47 1, 120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,78 1,73 1,66 1,61 1,55 1,50 1,46 1,40 1,37 1,32 1,28 1, 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,40 2,34 2,23 2,15 2,03 1,95 1,86 1,76 1,70 1,61 1,56 1,48 1,42 1, 3,84 3,00 2,61 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,69 1,64 1,57 1,52 1,46 1,40 1,35 1,28 1,25 1,17 1,11 1, G. W. Snedecor, W. G. Cochran. Statistical methods. Iowa State University Press, Ames, 1978.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ лиз, в котором проверяется влияние одного фактора, называет ся однофакторным. При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (в этой книге не рассматривается).

ТРИ ПРИМЕРА Сейчас мы уже можем оценивать статистическую значимость реальных данных. Покажем это на трех примерах, заимствован ных из медицинской литературы. Оговорюсь, что при изложе нии этих примеров мне пришлось несколько отклониться от пер воисточников. Тому есть две причины. Во-первых, в медицинс ких публикациях обычно приводят не сами данные, а средние величины и прочие обобщенные показатели. Нередко дело об стоит и того хуже. Минуя все промежуточные этапы, авторы сообщают, что «Р < 0,05». Поэтому «данные из литературных источников» по большей части являются плодом моих собствен ных догадок, какими могли бы быть исходные данные. Во-вто рых. дисперсионный анализ в том виде, как мы его изложили, требует, чтобы численность всех групп была одинаковой. По этому мне пришлось видоизменять приводимые в работах дан ные так, чтобы соблюсти это требование. Впоследствии мы обоб щим наши статистические методы, и их можно будет приме нять и при неравной численности групп.

Позволяет ли правильное лечение сократить срок госпитализации?

Стоимость пребывания в больнице — самая весомая статья рас ходов на здравоохранение. Сокращение госпитализации без сни жения качества лечения дало бы значительный экономический эффект. Способствует ли соблюдение официальных схем лече ния сокращению госпитализации? Чтобы ответить на этот воп рос, Кнапп и соавт.* изучили истории болезни лиц, поступив * D. Е. Knapp, D. А. Knapp, М. К. Speedie, D. M. Yaeger, С. L. Baker Relationship of inappropriate drug prescribing to increased length of hospital stay. Am. J. Hosp. Pharm., 36:1334–1337, 1979.

64 ГЛАВА ших в бесплатную больницу с острым пиелонефритом. Острый пи елонефрит был выбран как заболевание, имеющее четко очерчен ную клиническую картину и столь же четко регламентированные методы лечения.

Эта работа — пример обсервационного исследования. В от личие от экспериментального исследования, где исследователь сам формирует группы и сам оказывает то или иное воздействие в обсервационном исследовании он может лишь наблюдать те чение процесса. С другой стороны, это исследование — рет роспективное, поскольку имеет дело с данными, полученными в прошлом (в отличие от проспективного).

В обсервационном исследовании мы никогда не можем га рантировать, что группы различаются только тем признаком, по которому они были сформированы. Этот неустранимый недо статок исследований такого рода. Известно, например, что ку рильщики чаще болеют раком легких. Это считается доказатель ством того, что курение вызывает рак легких. Однако возможна и другая точка зрения у людей с генетической предрасположен ностью к раку легких существует и генетическая предрасполо женность к курению. В обсервационном исследовании отверг нуть такое объяснение невозможно.

Ретроспективное исследование, естественно, всегда являет ся обсервационным, разделяя недостатки последнего, оно обла дает и рядом собственных. Исследователь использует инфор мацию, собранную для других целей, — естественно, часть ее приходится реконструировать, еще часть неизбежно теряется.

Меняются методы исследования, диагностические критерии и сами представления о нозологических единицах, наконец, ис тории болезни ведутся порой небрежно. Кроме того, имея весь материал в руках, здесь особенно трудно удержаться от непред намеренной подтасовки.

Тем не менее, ретроспективные исследования проводились и бу дут проводиться. Они недороги и позволяют получить большой объем информации в короткий срок. Последнее особенно важно в случае редкого заболевания при проспективном исследовании на сбор данных уйдут годы. В примере, который мы разбираем, проспек тивное исследование вообще невозможно нельзя же, в самом деле, одну группу больных лечить правильно, а другую неправильно.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Чтобы избежать ловушек обсервационного (и особенно рет роспективного) исследования, чрезвычайно важно в явном виде задать критерии, по которым больных относили к той или иной группе. Самому исследователю это поможет избежать невольно го самообмана, читателю работы это даст возможность судить, насколько результаты исследования приложимы к его больным.

Кнапп и соавт. сформулировали следующие критерии вклю чения в исследование.

1. Диагноз при выписке — острый пиелонефрит.

2. При поступлении — боли в пояснице, температура выше 37,8°С.

3. Бактериурия более 100 000 колоний/мл, определена чувстви тельность к антибиотикам.

4. Возраст от 18 до 44 лет (больных старше 44 лет не включали в связи с высокой вероятностью сопутствующих заболева ний, ограничивающих выбор терапии).

5. Отсутствие почечной, печеночной недостаточности, а также заболеваний, требующих хирургического лечения (эти состо яния тоже ограничивают выбор терапии).

6. Больной был выписан в связи с улучшением (то есть не поки нул больницу самовольно, не умер и не был переведен в дру гое лечебное учреждение).

Кроме того, исследователи сформулировали критерий того, что считать «правильным» лечением. Правильным считалось лече ние, соответствующее рекомендациям авторитетного справочни ка по лекарственным средствам «Physicians’ Desk Reference» («На стольный справочник врача»). По этому критерию больных раз делили на две группы леченных правильно (1-я группа) и непра вильно (2-я группа). В обеих группах было по 36 больных.

Результат представлен на рис. 3.7. Средняя длительность гос питализации составила для первой группы 4,51 сут. (стандарт ное отклонение 1,98 сут.), для второй группы 6,28 сут. (стандар тное отклонение 2,54 сут). Можно ли считать эти различия слу чайными? Прибегнем к дисперсионному анализу.

Вычислим сначала внутригрупповую дисперсию как сред нюю дисперсий обеих групп:

2 2 sвну = s1 + s2 = 1,982 + 2,542 = 5,19.

( ) () 66 ГЛАВА Рис. 3.7. Длительность госпитализации при правильном (1-я руппа) и непра вильном лечении. Каждый больгой обозначен кружком;

положение кружка со ответствует сроку госпитализации. Средняя длительность госпитализации в первой группе меньше, чем во второй. Можно ли отнести это различие на счет случайности?

Теперь вычислим межгрупповую дисперсию.

Среднее двух выборочных средних равно X = X1 + X2 = 4,51+ 6,28 = 5,40, () () следовательно, стандартное отклонение равно X1 - X + X2 - X ( ) ( ) sX == m - 4,51- 5,40 + 6,28 - 5, () () ==1, 2 - и наконец межгрупповая дисперсия равна 2 sмеж = nsX = 361,252 = 56,25.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Теперь можно вычислить F — как отношение межгруппо вой к внутригрупповой дисперсии:

sмеж 56, F = = =10, 2.

sвну 5, Рассчитаем межгрупповое и внутри групповое число степе ней свободы = 2 – 1 = 1, = 2 (36 – 1) = 70. Теперь по меж вну таблице 3.1 найдем критическое значение F. На пересечении столбца «1» и строки «70» находим число 7,01, набранное жир ным шрифтом. То есть при уровне значимости 0,01 критичес кое значение F составляет 7,01. Итак, на наш вопрос можно ли считать различия в длительности госпитализации случайными мы можем дать ответ, вероятность этого весьма мала меньше 1%. Леченные правильно находились в больнице меньше чем, леченные неправильно и различия эти статистически значимы.

Значит ли это, что благодаря правильному лечению больные выз доравливают быстрее? Увы, нет. Как это всегда бывает в обсер вационном исследовании, мы не можем исключить того, что группы различались чем-то еще кроме лечения. Может быть, врачи, которые лечат «по справочнику» просто более склонны быстрее выписывать своих больных?

Галотан и морфин при операциях на открытом сердце Галотан препарат, широко используемый при общей анестезии.

Он обладает сильным действием, удобен в применении и очень надежен. Галотан — газ его можно вводить через респиратор.

Поступая в организм через легкие, галотан действует быстро и кратковременно поэтому, регулируя подачу препарата можно оперативно управлять анестезией. Однако галотан имеет суще ственный недостаток — он угнетает сократимость миокарда и расширяет вены, что ведет к падению АД. В связи с этим было предложено вместо галотана для общей анестезии применять морфин, который не снижает АД. Т. Конахан и соавт.* сравнили * Т. J. Conahan III, A. J. Ominsky, H. Wollman R. A. Stroth. A prospective random comparison of halothane and morphine for open heart anesthesia: one year expenence. Anesthesiology, 38:528-535, 1973.

68 ГЛАВА галотановую и морфиновую анестезию у больных, подвергшихся операции на открытом сердце.

В исследование включали больных, у которых не было про тивопоказаний ни к галотану, ни к морфину. Способ анестезии (галотан или морфин) выбирали случайным образом.

Такое исследование — со случайно отобранной контрольной группой (то есть рандомизированное) и наличием воздействия со стороны исследователя — называется рандомизированным контролируемым клиническим испытанием или просто конт ролируемым испытанием. Контролируемое испытание — это всегда проспективное исследование (данные получают после начала исследования), кроме того, это экспериментальное ис следование (воздействие оказывает исследователь). Экспери мент, который в естественных науках давно стал основным ме тодом исследования, в медицине получил распространение срав нительно недавно. Значение контролируемых испытаний труд но переоценить. Благодаря рандомизации мы уверены в том, что группы различаются только исследуемым признаком, тем самым преодолевается основной недостаток обсервационных исследо ваний. В отличие от ретроспективного исследования, в проспек тивном исследовании никто до его завершения не знает, к чему оно приведет. Это уменьшает риск невольной подтасовки, о ко торой мы говорили выше. Быть может, по этим причинам конт ролируемые испытания нередко приводят к заключению о не эффективности того или иного метода лечения, когда обсерва ционное исследование, напротив, доказывает его эффектив ность*.

Но почему в таком случае не все методы лечения проходят контролируемое испытание? Немаловажную роль играет кон серватизм, когда метод уже вошел в практику, трудно убедить врачей и больных, что его эффективность еще нуждается в под тверждении. Рандомизация психологически трудна: предлагая * Превосходное обсуждение значения контролируемых испытаний в ме дицине, а также нелицеприятный анализ того сколь малая часть обще принятых методов лечения в действительности приносит, хоть какую ни будь пользу, можно найти в работе А. К. Cochran. Effectiveness and efficien cy: random reflections on health services. Nuffield Provincial Hospitals Trust, London, 1972.

СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ по жребию лечиться тем или иным способом, врач по сути дела признается в незнании и призывает больного стать объектом эк сперимента. Чтобы охватить достаточное количество больных, исследование часто приходится проводить одновременно в не скольких местах (кооперированные испытания). Конечно, это вносит приятное разнообразие в работу координаторов проек та, однако повышает его стоимость и оборачивается дополни тельной нагрузкой для сотрудников сторонних медицинских уч реждений. Контролируемые испытания, как и вообще проспек тивные исследования иногда занимают многие годы. За это вре мя больной может переехать в другой город, утратить интерес к эксперименту или умереть (по причинам, не относящимся к ис следованию). Нередко основная трудность состоит в том, что бы не потерять участников испытания из виду.

С выбыванием больных из исследования связан и более прин ципиальный недостаток контролируемых испытаний (и проспек тивных исследований вообще). Если в обсервационном иссле довании мы не можем гарантировать сопоставимость началь ного состава групп, то в проспективном исследовании мы не можем гарантировать сопоставимость выбывания из исследо вания. Проблема состоит в том, что выбывание может быть свя зано с лечением. Если, например, риск побочного действия пре парата связан с тяжестью заболевания, то из группы леченных будут выбывать (из-за непереносимости препарата) наиболее тя желые больные. Тем самым состояние группы леченных будет «улучшаться». Чтобы избежать подобных иллюзий, эффектив ность метода лечения следует рассчитывать как долю всех боль ных, включенных в исследование, а не только прошедших пол ный курс. Даже при соблюдении этого условия результаты иссле дования с большим числом выбывших всегда сомнительны. Суще ствуют и более тонкие методы анализа результатов проспективных исследований, с ними мы познакомимся позже, в гл. 11.

Удачный выбор предмета исследования позволил Конахану и соавт. избежать большинства упомянутых трудностей. Посколь ку исследователей интересовали только ближайшие результаты, проблемы выбывания не возникало. Регистрировали следующие показатели параметры гемодинамики на разных этапах опера ции, длительность пребывания в реанимационном отделении и 70 ГЛАВА общую длительность пребывания в больнице после операции, а также послеоперационную летальность. Данные по летальнос ти мы проанализируем после того, как познакомимся в гл. 5 с необходимыми статистическими методами. Пока же сосредото чим внимание на артериальном давлении между началом анес тезии и началом операции. Именно в этот период артериальное давление наиболее адекватно отражает гипотензивное действие анестетика, поскольку в дальнейшем начинает сказываться ги потензивный эффект самой операции. Артериальное давление между началом анестезии и началом операции измеряли много кратно, каждый раз вычисляя среднее артериальное давление:

АДС - АДД АДсредн =+ АДД, где АДсредн — среднее артериальное давление, АДД — диастоли ческое артериальное давление, АДС — систолическое артери альное давление. Брали минимальное из полученных значений.

В исследование вошло 122 больных. У половины больных использовали галотан (1-я группа), у половины — морфин (2-я группа). Результаты представлены на рис. 3.8. Данные округле ны до ближайшего четного числа. В среднем у больных, полу чавших галотан, минимальное АДсредн было на 6,3 мм рт. ст. ниже, чем у больных, получавших морфин. Разброс значений доволь но велик, и диапазоны значений сильно перекрываются. Стан дартное отклонение в группе галотана составило 12,2 мм рт. ст.

в группе морфина — 14,4 мм рт. ст.

Достаточно ли велико различие в 6,3 мм рт. ст., чтобы его нельзя было отнести за счет случайности?

Применим дисперсионный анализ. Оценкой внутригруппо вой дисперсии служит среднее двух выборочных дисперсий:

2 2 sвну = s1 + s2 = 12,22 +14,42 =178, ( ) ().

Эта оценка дисперсии вычислена по дисперсиям отдельных выборок, поэтому она не зависит от того, различны или нет вы борочные средние.

Оценим теперь дисперсию, полагая, что галотан и морфин СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ Рис. 3.8. Минимальный уровень АДсредн между началом анестезии и началом операции при галотановой (1-я группа) и морфиновой (2-я группа) анестезии. Можно ли на осно вании этих данных отвергнуть нулевую гипотезу об отсутствии связи между выбором анестетика и артериальным давлением?

оказывают одинаковое действие на артериальное давление. В этом случае две группы бальных, представленные на рис. 3.8, являются просто двумя случайными выборками из одной и той же совокупности. В результате стандартное отклонение выбо рочных средних есть оценка стандартной ошибки среднего.

Среднее двух выборочных средних равно X = X1 + X2 = 66,9 + 73,2 = () ().

Стандартное отклонение выборочных средних:

X1 - X + X2 - X ( ) ( ) sX == m -.

66, ( - 70,0 + 73,2 - 70, ) () == 4, 2 - 72 ГЛАВА Так как объем каждой выборки n равен 61 оценка дисперсии совокупности полученная на основе выборочных средних со ста вит 2 sмеж = nsX = 61 4,462 = 1213,4.

И наконец sмеж 1213, F = = = 6, 2.

sвну 178, Число степеней свободы = m – 1 = 2 – 1 = 1, = m (n – 1) = меж вну = 2 (61 – 1) = 120. В таблице 3.1 находим критическое значение F для 5% уровня значимости — 3,92. Поскольку у нас F = 6,81, то мы приходим к выводу, что различия статистически значи мы. Мы можем заключить, что морфин в меньшей степени сни жает артериальное давление, чем галотан. Каково клиническое значение этого результата? Мы вернемся к этому вопросу по зднее.

БЕГ И МЕНСТРУАЦИИ Врачам общей практики и гинекологам очень часто приходится искать причину нерегулярности менструации в частности их за держки. Задержка менструации может быть признаком беремен ности, менопаузы нередко она случается в начале приема перо ральных контрацептивов. Задержка менструации может быть проявлением самых разных гинекологических эндокринных и даже психических заболевании. Среди последних особенно опас на нервная анорексия — психическое расстройство, когда жен щина, убежденная в своей полноте изнуряет себя голодом и клиз мами, доходя до крайнего истощения. Без срочного и решитель ного врачебного вмешательства нервная анорексия может приве сти к смерти. Между тем есть еще одна вполне невинная при чина, которая как полагают, может вызвать задержку менстру ации – это занятия физкультурой и спортом. Чтобы проверить это предположение Дейл и соавт.* провели обсервационное * Е. Dale, D. H. Gerlach, A. L. Wilhite Menstrual dysfunction in distance runners Obs Gynecol 54 47 – 53 СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ исследование целью, которого было установить, есть та связь между занятиями спортом и частотой менструации. В исследо вание вошли 78 молодых женщин разделенных на 3 группы по 26 человек в каждой. В первую — контрольную — группу вошли женщины, которые не занимались ни физкультурой, ни спортом.

Вторая группа состояла из физкультурниц — они бегали трус цой и за неделю пробегали от 8 до 48 км. Женщины третьей группы — спортсменки — тренировались всерьез за неделю они пробегали более 48 км.

На рис. 3.9 представлено распределение числа менструации в год. В контрольной группе среднее число менструации в год рав нялось 11,5, у физкультурниц — 10,1 и у спортсменок — 9,1.

Можно ли отнести эти различия на счет случайности?

Оценим дисперсию совокупности по среднему выборочных дисперсий:

2 2 2 sвну = s1 + s2 + s3 = 1,32 + 2,12 + 2,42 = 3,95.

() ().

Чтобы оценить дисперсию по разбросу выборочных сред них нужно сначала оценить стандартную ошибку среднего для чего вычислить стандартное отклонение среднего трех выбо рок. Так как среднее трех средних равно X = X1 + X2 + X = 11,5 +10,1+ 9,1 =10, () (), получаем следующую оценку стандартной ошибки:

X1 - X + X2 - X + X3 - X ( ) ( ) ( ) sX == m - 22.

11, ( -10,2 + 10,1-10,2 + 9,1-10, ) () ( ) ==1, 3 - Объем выборки n равен 26, поэтому оценка дисперсии по разбросу средних дает величину 2 sмеж = nsX = 261,22 = 37,44.

74 ГЛАВА Рис. 3.9. Число менструации в год у женщин которые не занимались ни физкуль турой, ни спортом (1-я группа), физкультурниц (2-я группа) и спортсменок (3-я группа). Среднее число менструаций различно. Можно ли отнести эти различия за счет случайности.

Наконец, sмеж 37, F = = = 9,48.

sвну 3, Число степеней свободы = m – 1 = 3 – 1 = 2, = m (n – 1) меж вну = 3 (26 – 1) = 75. Критическое значение F при 1% уровне значимо сти — 4,90. Итак, различия между группами статистически зна СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ чимы — вероятность случайно получить такие различия не пре вышает 1%. Похоже, услышав жалобы на задержку месячных, врач должен спросить «А не занимаетесь ли вы спортом?» Од нако не будем спешить — решены еще далеко не все вопросы.

Можно ли утверждать, что задержки менструаций свойственны как физкультурницам, так и спортсменкам? Есть ли связь меж ду интенсивностью нагрузок и частотой менструаций? Ответы на эти вопросы мы отложим до гл. 4.

ЗАДАЧИ 3.1. Если при родах шейка матки долго не раскрывается, то продолжительность родов увеличивается и может возникнуть не обходимость кесарева сечения. Ч. О’Херлихи и Г. Мак-Дональд (С. O’Herlihy, H. MacDonaid. Influence of reproduction prostaglandin E2 vaginal gel on cervical ripening and labor. Obstet. Gynесоl., 54:

708—710, 1979) решили выяснить, ускоряет ли гель с простаг ландином Е2 раскрытие шейки матки. В исследование вошло группы рожениц. Роженицам первой группы вводили в шейку матки гель с простагландином Е2, роженицам второй группы вво дили гель-плацебо. В обеих группах было по 21 роженице воз раст, рост и сроки беременности были примерно одинаковы. Роды в группе, получавшей гель с простагландином Е2, длились в сред нем 8,5 ч (стандартное отклонение 4,7 ч), в контрольной группе — 13,9 ч (стандартное отклонение — 4,1 ч). Можно ли утверж дать, что гель с простагландином Е2 сокращал продолжительность родов?

3.2. Курение считают основным фактором, предрасполагаю щим к хроническим обструктивным заболеваниям легких. Что касается пассивного курения, оно таким фактором обычно не счи тается. Дж. Уайт и Г. Фреб усомнились в безвредности пассив ного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков (J. White, H.

Froeb. Small-airways dysfunction in nonsmokers chronically exposed to tobacco smoke. N. Engl. J. Med., 302:720—723, 1980). Для ха рактеристики состояния дыхательных путей взяли один из пока зателей функции внешнего дыхания — максимальную объемную 76 ГЛАВА скорость середины выдоха которую измеряли во время профи лактического осмотра сотрудников Калифорнийского универ ситета в Сан-Диего. Уменьшение этого показателя — признак нарушения проходимости дыхательных путей. Данные обсле дования представлены в таблице.

Максимальная объемная скорость средины выдоха, л/с Число обсле- Стандартное Группа дованных Среднее отклонение Некурящие работающие в помещении, где не курят 200 3,17 0, работающие в накуренном помещении 200 2,72 0, Курящие выкуривающие небольшое число сигарет 200 2,63 0, выкуривающие среднее число сигарет 200 2,29 0, выкуривающие большое число сигарет 200 2,12 0, Можно ли считать максимальную объемную скорость сере дины выдоха одинаковой во всех группах?

3.3. Низкий уровень холестерина липопротеидов высокой плотности (ХЛПВП) — фактор риска ишемической болезни сердца. Некоторые исследования свидетельствуют, что физичес кая нагрузка может повысить уровень ХЛПВП. Дж. Хартунг и соавт. (G. Н. Hartung et al. Relation of diet to hidh-density liрoprotein cholesterol in middle-aged marathon runners, joggles, and inactive men. N. Engl. J. Med., 302:357—361, 1980) исследовали уровень ХЛПВП у бегунов-марафонцев, бегунов трусцой и лиц, не за нимающихся спортом. Средний уровень ХЛПВП у лиц, не за нимающихся спортом, составил 43,3 мг% (стандартное откло СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ нение 14,2 мг%), у бегунов трусцой — 58,0 мг% (стандартное отклонение 17,7 мг%) и у марафонцев — 64,8 мг% (стандарт ное отклонение 14,3 мг%). Будем считать, что в каждой группе было по 70 человек. Оцените статистическую значимость раз личий между группами.

3.4. Марихуана — наркотик, поэтому исследовать курение марихуаны на добровольцах невозможно. Исследования такого рода проводят на лабораторных животных. Г. Хубер и соавт. (G.

Huber et al. Marijuana, tetrahydrocannabinol, and pulmonary arterial antibacterial defenses. Chest, 77:403—410, 1980) изучали влия ние марихуаны на антибактериальную защиту у крыс. После ингаляционного введения бактерий крыс помещали в камеру, где специальная машина окуривала их сигаретами с марихуа ной. Забив крыс, исследователи извлекали легкие и подсчиты вали процент погибших бактерий, который и служил показате лем состояния антибактериальной защиты. Чтобы установить, что именно влияет на антибактериальную защиту — тетрагид роканнабинолы (вещества, которые обусловливают наркотичес кое действие марихуаны) или просто дым одну из групп окури вали сигаретами, из которых тетрагидроканнабинолы были уда лены. В каждой группе было по 36 крыс. Являются ли различия статистически значимыми?

Доля погибших бактерий, % Стандартная ошибка Число сигарет Среднее среднего 0 (контроль) 85,1 0, 15 83,5 1, 30 80,9 0, 50 72,6 0, 75 60 1, 75 (тетрагидроканнабинота удалены) 73,5 0, 150 63,8 2, 3.5. Стремясь отделить действие тетрагидроканнабинолов от действия дыма, Г. Хубер и соавт. изучили их действие при вну 78 ГЛАВА тривенном введении. После ингаляционного введения бактерий крысам вводили спиртовой раствор тетрагидроканнабинолов, контрольной группе вводили этиловый спирт. В обеих группах было по 36 животных. После введения тетрагидроканнабино лов доля погибших бактерий составила в среднем 51,4%, в кон трольной группе — 59,4%. Стандартные ошибки среднего со ставили соответственно 3,2% и 3,9%. Позволяют ли эти данные утверждать, что тетрагидроканнабинолы ослабляют антибакте риальную защиту?

3.6. Работа медицинской сестры сопряжена с постоянным на пряжением и тяжелыми переживаниями. Груз ответственности, не уравновешенной правом принимать решения, рождает чув ство усталости, раздражения и безысходности, интересная не когда работа становится ненавистным бременем. Этот синдром не совсем точно называют опустошенностью. Считается, что его развитию особенно подвержены медицинские сестры, которые работают с наиболее тяжелыми больными. Чтобы проверить это предположение, Э. Кин и соавт. (A. Keane et al. Stress in ICU and non-ICU nurses. Nurs. Res., 34:231—236, 1985) провели опрос медицинских сестер с помощью специально разработанного оп росника, позволяющего оценить опустошенность в баллах. Ме дицинских сестер разделили на три группы в зависимости от тяжести состояния больных, с которыми они работали (1-я груп па — наиболее тяжелые больные, 3-я — самые легкие). Далее каждую группу разделили на две — медицинские сестры хи рургических и терапевтических отделений, таким образом, по лучилось 6 групп по 16 медицинских сестер в каждой. Являют ся ли различия между 6 группами статистически значимыми?

Группа Хир. Тер. Хир. Тер. Хир. Тер.

Среднее 49,9 51,2 573 46,4 43,9 65, Стандартное отклонение 1,4,3 13,4 14,9 14,7 16,5 20, Объем выборки 16 16 16 16 16 3.7. Нитропруссид натрия и дофамин — препараты, которые широко используют при инфаркте миокарда (Инфаркт мио СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ карда развивается вследствие закупорки одной из коронарных артерий. Кровь перестает поступать к тому или иному участку миокарда, который в результате отмирает от недостатка кисло рода). Считается, что нитропруссид натрия облегчает работу сер дца и тем самым снижает потребность миокарда в кислороде;

в результате устойчивость миокарда к недостаточному кровоснаб жению повышается. Дофамин препятствует падению артериаль ного давления и увеличивает поступление крови к пораженно му участку через дополнительные сосуды (так называемые кол латерали). К. Шатни и соавт. (C. Shatney et al. Effects of infusion of dopamine and nitroprusside on size of experimental myocardial infarction. Chest., 73:850—856, 1978) сравнили эффективность этих препаратов в опытах на собаках с инфарктом миокарда.

Инфаркт миокарда вызывали перевязкой коронарной артерии, после чего вводили препарат (собакам контрольной группы вво дили физиологический раствор). Через 6 часов собак забивали и взвешивали пораженный участок миокарда, результат выра жали в процентах от веса левого желудочка. Препарат для каж дой собаки выбирали случайным образом. Исследователь, взве шивавший миокард, не знал, какой препарат вводили собаке.

Полученные данные приведены в таблице:

Вес пораженного участка миокарда (в процентах от веса левого желудочка) Число Стандартная ошибка Группа животных Среднее среднего Контроль 30 15 Дофамин низкая доза 13 15 высокая доза 20 9 Нитропруссид 20 7 Можно ли считать различия между группами статистически значимыми? (Формулы для дисперсионного анализа при нерав ной численности групп найдите в прил. А).

3.8. Считается, что выработка тромбоцитов (форменных эле ментов крови, играющих важную роль в ее свертывании) у но 80 ГЛАВА ворожденных регулируется иначе чем у взрослых. Исследуя эту регуляцию X. Бесслер и соавт. (Н. Bessler et al. Thrombopoietic activity in newborn infants. Biol. Neonate, 49:61—65, 1986) опрe делили содержание тромбоцитов в крови взрослых и грудных детей разного возраста. Можно ли говорить о существовании различии в количестве тромбоцитов?

Число тромбоцитов, мкл– Число Стандартное Группа обследованных Среднее отклонение Взрослые 15 257 Дети в возрасте 4 суток 37 196 1 месяца 31 221 2 месяцев 13 280 4 месяцев 10 310 Глава Сравнение двух групп: критерий Стьюдента В предыдущей главе мы познакомились с дисперсионным анализом. Он позволяет проверить значимость различий не скольких групп. В задачах к этой главе вы видели, что нередко нужно сравнить только две группы. В этом случае можно при менить критерий Стьюдента. Сейчас мы изложим его сущность и покажем, что критерий Стьюдента — это частный случаи дис персионного анализа.

Критерий Стьюдента чрезвычайно популярен, он использует ся более чем в половине медицинских публикаций*. Однако сле дует помнить, что этот критерий предназначен для сравнения именно двух групп, а не нескольких групп попарно. На рис. 4. представлено использование критерия Стьюдента в статьях из журнала Circulation. Критерий был использован в 54% статей, и чаще всего неверно. Мы покажем, что ошибочное использова ние критерия Стьюдента увеличивает вероятность «выявить» не * А. R. Feinstein. Clinical biostatistics: a survey of statistical procedures in general medical journals. Clin. Phamacol. Ther., 15:97—107, 1974.

82 ГЛАВА Рис. 4.1. Использование статистических методов в медицинских исследованиях. Рас смотрено 142 статьи опубликованные в 56-м томе журнала Circulation (кроме обзоров, описаний случаев и работ по рентгенологии и патоморфологии). В 39% работ статисти ческие методы не использовались вовсе, в 34% прааильно использовали критерий Стью дента, дисперсионный анализ или другие методы. В 27% работ критерий Стьюдента использовали неправильно — для попарного сравнения нескольких групп (S. A. Glantz.

How to detect correct and prevent errors in the med call teralure. Circulation, 61:1—7, 1980).

1 – не использовали статистических методов, 2 – правильно использовали критерий Стьюдента, 3 – правильно использовали дисперсионный анализ, 4 – правильно исполь зовали другие методы, 5 – неправильно использовали критерий Стьюдента для попар ного сравнения нескольких групп.

существующие различия. Например, вместо того чтобы признать несколько методов лечения равно эффективными (или неэффек тивными), один из них объявляют «лучшим».

ПРИНЦИП МЕТОДА Предположим, что мы хотим испытать диуретическое действие нового препарата. Мы набираем десять добровольцев, случай ным образом разделяем их на две группы — контрольную, кото рая получает плацебо и экспериментальную, которая получает препарат, а затем определяем суточный диурез. Результаты пред % статей СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Рис. 4.2. Результаты испытаний предполагаемого диуретика. А. Диурез после при ема плацебо и препарата. В обеих группах по 5 человек. Б. Теперь в обеих группах по 20 человек. Средние и стандартные отклонения остались прежними, однако до верие к результату повысилось.

ставлены на рис. 4.2А. Средний диурез в экспериментальной группе на 240 мл больше чем в контрольной. Впрочем, подоб ными данными мы вряд ли кого-нибудь убедим, что препарат — диуретик. Группы слишком малы.

Повторим эксперимент, увеличив число участников. Теперь в обеих группах по 20 человек. Результаты представлены на рис.

4.2Б. Средние и стандартные отклонения примерно те же, что и в 84 ГЛАВА эксперименте с меньшим числом участников. Кажется, однако, что результаты второго эксперимента заслуживают большего доверия. Почему?

Вспомним, что точность выборочной оценки среднего харак теризуется стандартной ошибкой среднего (см. гл. 2).

=, X n где n — объем выборки, а — стандартное отклонение сово купности, из которой извлечена выборка.

С увеличением объема выборки стандартная ошибка сред него уменьшается, следовательно уменьшается и неопределен ность в оценке выборочных средних. Поэтому уменьшается и неопределенность в оценке их разности. Применительно к на шему эксперименту, мы более уверены в диуретическом дей ствии препарата. Точнее было бы сказать, мы менее уверены в справедливости гипотезы об отсутствии диуретического дей ствия (Будь такая гипотеза верна, обе группы можно было бы считать двумя случайными выборками из нормально распреде ленной совокупности).

Чтобы формализовать приведенные рассуждения, рассмот рим отношение:

Разность выборочных средних t =.

Стандартная ошибка разности выборочных средних Для двух случайных выборок извлеченных из одной нормаль но распределенной совокупности это отношение, как правило, будет близко к нулю. Чем меньше (по абсолютной величине) t, тем больше вероятность нулевой гипотезы. Чем больше t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия статистически значимы.

Для нахождения величины t нужно знать разность выбороч ных средних и ее ошибку. Вычислить разность выборочных сред них нетрудно — просто вычтем из одного среднего другое. Слож нее найти ошибку разности. Для этого обратимся к более об щей задаче нахождения стандартного отклонения разности двух чисел, случайным образом извлеченных из одной совокупности.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Рис. 4.3 А. Из этой совокупности мы будем извлекать пары и вычислять разности.

Б. Разности первых 6 пар. В. Разности еще ста пар. Разброс разностей больше, чем разброс самих значений.

СТАНДАРТНОЕ ОТКЛОНЕНИЕ РАЗНОСТИ На рис. 4.ЗА представлена совокупность из 200 членов. Среднее равно 0, стандартное отклонение 1. Выберем наугад два члена совокупности и вычислим разность. Выбранные члены помече ны на рис. 4.ЗА черными кружками, полученная разность пред ставлена таким же кружком на рис. 4.ЗБ. Извлечем еще пять пар (на рисунках они различаются штриховкой), вычислим разность для каждой пары, результат снова поместим на рис. 4.ЗБ. Похо же, что разброс разностей больше разброса исходных данных.

Извлечем наугад из исходной совокупности еще 100 пар, для ка 86 ГЛАВА ждой из которых вычислим разность. Теперь все разности вклю чая вычисленные ранее изображены на рис. 4.3В. Стандартное отклонение для полученной совокупности разностей — пример но 1,4 то есть на 40% больше чем в исходной совокупности.

Можно доказать что дисперсия разности двух случайно из влеченных значении равна сумме дисперсии совокупностей из которых они извлечены*.

В частности если извлекать значения из одной совокупно * Интересно, что дисперсия суммы двух случайно извлеченных значений тоже равна сумме дисперсий совокупностей, из которых они извлечены.

Отсюда можно вывести формулу для стандартной ошибки среднего:

=.

X n Предположим, что мы случайным образом извлекли n значений из сово купности, имеющей стандартное отклонение. Выборочное среднее рав но X = X1 + X2 + X3 +…Xn, () n поэтому nX = X1 + X2 + X3 +… Xn.

Так как дисперсия каждого из Xi равна 2, дисперсия величины соста nX вит 2 2 2 2 2 nX = + + +… = n, а стандартное отклонение nX = n.

Нам нужно найти стандартное отклонение среднего X тождественно рав ного nX n поэтому nX = = n =.

X n n n Мы получили формулу, которой неоднократно пользовались в предыду щих главах — формулу для стандартной ошибки среднего. Заметим что, выводя, ее мы, не делали никаких допущений о совокупности, из которой извлечена выборка. В частности мы не требовали, чтобы она имела нор мальное распределение.

СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА сти, то дисперсия их разности будет равна удвоенной диспер сии этой совокупности. Говоря формально если значение X из влечено из совокупности, имеющей дисперсию 2, а значение X Y из совокупности имеющей дисперсию, то распределение Y всех возможных значений X – Y имеет дисперсию 2 2 = + Y.

X -Y X Почему дисперсия разностей больше дисперсии совокупно сти легко понять на нашем примере (см. рис. 4.3): в половине случаев члены пары лежат по разные стороны от среднего, по этому их разность еще больше отклоняется от среднего, чем они сами.

Продолжим рассматривать рис. 4.3. Все пары извлекали из одной совокупности. Ее дисперсия равна 1. В таком случае дис персия разностей будет 2 2 = + Y =1+1 = 2.

X -Y X Стандартное отклонение есть квадратный корень из диспер сии. Поэтому стандартное отклонение разностей равно, то есть больше стандартного отклонения исходной совокупности примерно на 40%, как и получилось в нашем примере.

Чтобы оценить дисперсию разности членов двух совокупно стей по выборочным данным нужно в приведенной выше фор муле заменить дисперсии их выборочными оценками 2 2 sX -Y = sX + sY.

Этой формулой можно воспользоваться и для оценки стан дартной ошибки разности выборочных средних. В самом деле, стандартная ошибка выборочного среднего — это стандартное отклонение совокупности средних значений всех выборок объе мом n. Поэтому 2 2 sX -Y = sX + sY.

Тем самым искомая стандартная ошибка разности средних 2 sX -Y = sX + sY.

Теперь мы можем вычислить отношение t.

88 ГЛАВА КРИТИЧЕСКОЕ ЗНАЧЕНИЕ t Напомним, что мы рассматриваем отношение Разность выборочных средних t =.

Стандартная ошибка разности выборочных средних Воспользовавшись результатом предыдущего раздела, имеем X1 - X t =.

2 sX + sX 1 Если ошибку среднего выразить через выборочное стандар тное отклонение, получим другую запись этой формулы X1 - X t =, 2 s1 s + n n где n — объем выборки.

Если обе выборки извлечены из одной совокупности, то вы 2 борочные дисперсии s1 и s2 — это оценки одной и той же дис персии 2. Поэтому их можно заменить на объединенную оцен ку дисперсии. Для выборок равного объема объединенная оцен ка дисперсии вычисляется как 2 s1 + s s2 =.

Значение t, полученное на основе объединенной оценки X1 - X t =.

s2 s + n n Если объем выборок одинаков, оба способа вычисления t да дут одинаковый результат. Однако если объем выборок разный, то это не так. Вскоре мы увидим, почему важно вычислять объе диненную оценку дисперсии, а пока посмотрим, какие значения СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА t мы будем получать, извлекая случайные пары выборок из одной и той же нормально распределенной совокупности.

Так как выборочные средние обычно близки к среднему по совокупности, значение t будет близко к нулю. Однако иногда мы все же будем получать большие по абсолютной величине значе ния t (вспомним опыты с F в предыдущей главе). Чтобы понять, какую величину t следует считать достаточно «большой», чтобы отвергнуть нулевую гипотезу, проведем мысленный эксперимент, подобный тому, что мы делали в предыдущей главе. Вернемся к испытаниям предполагаемого диуретика. Допустим, что в дей ствительности препарат не оказывает диуретического действия.

Тогда и контрольную группу, которая получает плацебо, и экспе риментальную, которая получает препарат, можно считать слу чайными выборками из одной совокупности. Пусть это будет со вокупность из 200 человек, представленная на рис. 4.4А. Члены контрольной и экспериментальной групп различаются штрихов кой. В нижней части рисунка данные по этим двум выборкам показаны так, как их видит исследователь. Взглянув на эти дан ные, трудно подумать, что препарат — диуретик. Полученное по этим выборкам значение t равно –0,2.

Pages:     || 2 | 3 | 4 | 5 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.