Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ t-критерий для двух независимых выборок

Автор: сонька 2.09.2016 - 12:14

Добрый день всем! у меня возникла проблема, со статистикой пришлось работать совсем недавно, необходимо высчитывать значения критерия стьюдента и уровня значимости (р) для выборок. до меня этим занимался один сотрудник и делал это в программе spss и как он это делал неизвестно, я ей не владею, однако пользуюсь программой statistica русифицированной. у меня в ходе работы возник ряд вопросов:
1) у нас есть данные, например, по количеству летальных и выживших пациентов за какой-то промежуток времени, и нужно сравнить эти данные, допустим выживших было 300 человек из 350 прооперированных за 2010 год, а за 2011 год выжило 270 из 310 прооперированных. стало быть мне нужно посчитать сколько процентов выжило в 2010 и сколько выжило в 2011 году и проверить на достоверность различий этих двух групп пациентов. в программе statistica я строила два столбца (1-состоял из 300 единиц и 50 нулей, что в сумме давало мне как раз 350 прооперированных за 2010 год и точно так же строила для второй группы 2011 года, но уже соответственно из 270 единиц и 40 нулей), это как вы понимаете были переменные, далее я заходила в раздел основных статистик и считала среднее и ошибку среднего, средним получались проценты. Далее заходила в раздел t-теста и проводила его для независимых переменных, хочу подчеркнуть, что именно переменных, мне выводилось значение t и р. Вопрос: верны ли вообще мои действия?
2) в программе "статистика" мне удалось провернуть вышеописанную штуку, но в англоязычной версии не было кнопки "t-тест для независимых переменных", а лишь зависимых и независимых выборок, где мне пришлось бы выбирать какую-то группирующую и т.д. (для этого как я поняла вообще нужно вбивать всех 600 с лишним пациентов и указывать каждому год и статус летальности или живости) Но моей целью не стоит забить в выборки каждого пациента каждого года, моя задача лишь по имеющимся данным (знаем количество выживших и летальных в каждом году) выявить наличие или отсутствие различий по количеству в двух уже сформированных по годам группах. До меня , как я уже говорила ранее, кто-то считал все это дело в программе spss, в которой я кстати тоже не нашла как посчитать t и р таким способом, как это делала я. Вопрос: как он это сделал в spss?Потому что делал он это как-то очень быстро и просто...может вообще при помощи таблицы сопряженности как-то

Сорри за многословность, буду очень признательна за помощь бестолочи weep.gif

Автор: ogurtsov 2.09.2016 - 19:36

Цитата(сонька @ 2.09.2016 - 12:14) *
может вообще при помощи таблицы сопряженности как-то


Гениальная догадка, и я молодец, что начал читать с конца.

Автор: сонька 3.09.2016 - 10:23

Ну так что? Таблицами всетаки?

Автор: passant 3.09.2016 - 11:41

Цитата(сонька @ 3.09.2016 - 10:23) *
Ну так что? Таблицами всетаки?

Для выявления корреляции выборок, измеряемых в дихотомических шкалах ( а у Вас именно такая шкала "выжил"-"умер" или "1"-"0") используются Коэффициент Ассоциации Юла, коэффициент контингенции(сопряженности) Бравайса, Коэффициент Жаккара и пр.
И да, делается это с помощью таблицы сопряженности.

Автор: 100$ 3.09.2016 - 14:22

Цитата(сонька @ 2.09.2016 - 12:14) *
Добрый день всем! у меня возникла проблема, со статистикой пришлось работать совсем недавно, необходимо высчитывать значения критерия стьюдента и уровня значимости (р) для выборок. до меня этим занимался один сотрудник и делал это в программе spss и как он это делал неизвестно, я ей не владею, однако пользуюсь программой statistica русифицированной. у меня в ходе работы возник ряд вопросов:
1) у нас есть данные, например, по количеству летальных и выживших пациентов за какой-то промежуток времени, и нужно сравнить эти данные, допустим выживших было 300 человек из 350 прооперированных за 2010 год, а за 2011 год выжило 270 из 310 прооперированных. стало быть мне нужно посчитать сколько процентов выжило в 2010 и сколько выжило в 2011 году и проверить на достоверность различий этих двух групп пациентов. в программе statistica я строила два столбца (1-состоял из 300 единиц и 50 нулей, что в сумме давало мне как раз 350 прооперированных за 2010 год и точно так же строила для второй группы 2011 года, но уже соответственно из 270 единиц и 40 нулей), это как вы понимаете были переменные, далее я заходила в раздел основных статистик и считала среднее и ошибку среднего, средним получались проценты. Далее заходила в раздел t-теста и проводила его для независимых переменных, хочу подчеркнуть, что именно переменных, мне выводилось значение t и р. Вопрос: верны ли вообще мои действия?
2) в программе "статистика" мне удалось провернуть вышеописанную штуку, но в англоязычной версии не было кнопки "t-тест для независимых переменных", а лишь зависимых и независимых выборок, где мне пришлось бы выбирать какую-то группирующую и т.д. (для этого как я поняла вообще нужно вбивать всех 600 с лишним пациентов и указывать каждому год и статус летальности или живости) Но моей целью не стоит забить в выборки каждого пациента каждого года, моя задача лишь по имеющимся данным (знаем количество выживших и летальных в каждом году) выявить наличие или отсутствие различий по количеству в двух уже сформированных по годам группах. До меня , как я уже говорила ранее, кто-то считал все это дело в программе spss, в которой я кстати тоже не нашла как посчитать t и р таким способом, как это делала я. Вопрос: как он это сделал в spss?Потому что делал он это как-то очень быстро и просто...может вообще при помощи таблицы сопряженности как-то

Сорри за многословность, буду очень признательна за помощь бестолочи weep.gif


Дорогая Сонька!
По результатам выборочного обследования в 99,999999999999 ... % случаев проверяют гипотезу о средней и гипотезу о доле.
Применительно к вашему случаю это означает, что в выборке 2010 г. доля w1=300/350=.857143 доля интересующих вас пациентов, в 2011 г. w2=270/310=,870968
Существует разность выборочных долей w1-w2=|.857143 - .870968|=.013825 и стандартная ошибка выборочной разности долей Mu(w1-w2)=SQR(p*(1-p)*(1/n1+1/n2)),
где р - доля признака в генеральной совокупности, n1 и n2 - объемы каждой из двух выборок.
Эта формула справедлива, если р в двух сравниваемых ген. совокупностях одинакова. Т.к. она обычно неизвестна, то пользуются ее оценкой по результатам выборочных исследований р=(m1+m2)/(n1+n2), где m1 и m2 - соответствующие частоты (300 и 270)
Тогда р=(300+270)/(350+310)=.863636

T-критерий =|w1-w2|/Mu(w1-w2)=.013825/SQR(.863636*(1-.863636)*(1/350+1/310))=.013825/.026765=.516523.
Поскольку критическое значение t-статистики равно 1,963576, то на 5%-ном уровне значимости нулевая гипотеза не отвергается. Выборки статистически неразличимы.

Эти вычисления занимают 30 сек. на калькуляторе. Не надо насиловать СПСС и себя.

Автор: сонька 3.09.2016 - 20:15

Цитата(100$ @ 3.09.2016 - 14:22) *
Дорогая Сонька!
По результатам выборочного обследования в 99,999999999999 ... % случаев проверяют гипотезу о средней и гипотезу о доле.
Применительно к вашему случаю это означает, что в выборке 2010 г. доля w1=300/350=.857143 доля интересующих вас пациентов, в 2011 г. w2=270/310=,870968
Существует разность выборочных долей w1-w2=|.857143 - .870968|=.013825 и стандартная ошибка выборочной разности долей Mu(w1-w2)=SQR(p*(1-p)*(1/n1+1/n2)),
где р - доля признака в генеральной совокупности, n1 и n2 - объемы каждой из двух выборок.
Эта формула справедлива, если р в двух сравниваемых ген. совокупностях одинакова. Т.к. она обычно неизвестна, то пользуются ее оценкой по результатам выборочных исследований р=(m1+m2)/(n1+n2), где m1 и m2 - соответствующие частоты (300 и 270)
Тогда р=(300+270)/(350+310)=.863636

T-критерий =|w1-w2|/Mu(w1-w2)=.013825/SQR(.863636*(1-.863636)*(1/350+1/310))=.013825/.026765=.516523.
Поскольку критическое значение t-статистики равно 1,963576, то на 5%-ном уровне значимости нулевая гипотеза не отвергается. Выборки статистически неразличимы.

Эти вычисления занимают 30 сек. на калькуляторе. Не надо насиловать СПСС и себя.

И все же , как это сделать корректно в spss или экселе?

Автор: 100$ 3.09.2016 - 20:51

Цитата(сонька @ 3.09.2016 - 20:15) *
И все же , как это сделать корректно в spss или экселе?


Не имею ни малейшего представления

Автор: drevgen 6.09.2016 - 13:50

Цитата(сонька @ 3.09.2016 - 20:15) *
И все же , как это сделать корректно в spss или экселе?

В SPSS не знаю. А в Statistic'e идете на вкладку базовые статистики/ таблицы, выбираете строчку тесты различия (предпоследняя она), там будет написано еще r, %, means, нажимаете, получите вкладочку с 3-мя окошками, выбираете самое нижнее - разница пропорций, вводите, соответственно, частоту и общее количество 1 группы, затем - 2 группы, выбираете p односторонний или двусторонний, жмете рассчитать, получите результат сравнения пропорций. В Екселе, эти формулы, что вам дали, забиваются вручную в таблице 2х2

Автор: сонька 7.09.2016 - 11:44

Цитата(drevgen @ 6.09.2016 - 13:50) *
В SPSS не знаю. А в Statistic'e идете на вкладку базовые статистики/ таблицы, выбираете строчку тесты различия (предпоследняя она), там будет написано еще r, %, means, нажимаете, получите вкладочку с 3-мя окошками, выбираете самое нижнее - разница пропорций, вводите, соответственно, частоту и общее количество 1 группы, затем - 2 группы, выбираете p односторонний или двусторонний, жмете рассчитать, получите результат сравнения пропорций. В Екселе, эти формулы, что вам дали, забиваются вручную в таблице 2х2

спасибо за подробный ответ wink.gif

Автор: DrgLena 7.09.2016 - 19:24

Цитата(drevgen @ 6.09.2016 - 13:50) *
разница пропорций, сравнения пропорций.

Так что же сравнивает программа? В словарик загляните tongue.gif Или так кнопочки перевели на русский?

Автор: drevgen 8.09.2016 - 10:31

Ну не владею я русским литературным, не могу оценить тонко оценить разницу между различием и разницей. На английском - difference between two proportions

Автор: DrgLena 8.09.2016 - 11:55

Цитата(drevgen @ 8.09.2016 - 10:31) *
Ну не владею я русским литературным, не могу оценить тонко оценить разницу между различием и разницей. На английском - difference between two proportions

Дело не в русском, а в английском и в арифметике, сравниваются не пропорции, а доли

Автор: drevgen 8.09.2016 - 12:46

Так, в общем то proportion - доля, а пропорция - ratio

Автор: drevgen 8.09.2016 - 12:49

В хелпе статистике так:
Difference between two proportions. These options are used to compute the significance level for the difference between two proportions.

Pr. 1. Enter the proportion of the first sample.

Pr. 2. Enter the proportion of the second sample.

N1. Enter the sample size (number of samples) of the first sample.

N2. Enter the sample size of the second sample.

Compute. After you have entered the values, click the Compute button to calculate the p-value. Both One-sided and Two-sided tests can be performed. The p-level is computed based on the t-value for the respective comparison:

|t|=√[(N1*N2)/(N1+N2)]*|p1-p2|/√(p*q)

where

p=(p1*N1+p2* N2)/(N1+N2)

q=1-p.

The degrees of freedom are computed as

N1 + N2 -2


Автор: leo_biostat 26.11.2016 - 19:19

Цитата(сонька @ 2.09.2016 - 12:14) *
Добрый день всем! у меня возникла проблема, со статистикой пришлось работать совсем недавно, необходимо высчитывать значения критерия стьюдента и уровня значимости (р) для выборок. до меня этим занимался один сотрудник и делал это в программе spss и как он это делал неизвестно, я ей не владею, однако пользуюсь программой statistica русифицированной. у меня в ходе работы возник ряд вопросов:
1) у нас есть данные, например, по количеству летальных и выживших пациентов за какой-то промежуток времени, и нужно сравнить эти данные, допустим выживших было 300 человек из 350 прооперированных за 2010 год, а за 2011 год выжило 270 из 310 прооперированных. стало быть мне нужно посчитать сколько процентов выжило в 2010 и сколько выжило в 2011 году и проверить на достоверность различий этих двух групп пациентов. в программе statistica я строила два столбца (1-состоял из 300 единиц и 50 нулей, что в сумме давало мне как раз 350 прооперированных за 2010 год и точно так же строила для второй группы 2011 года, но уже соответственно из 270 единиц и 40 нулей), это как вы понимаете были переменные, далее я заходила в раздел основных статистик и считала среднее и ошибку среднего, средним получались проценты. Далее заходила в раздел t-теста и проводила его для независимых переменных, хочу подчеркнуть, что именно переменных, мне выводилось значение t и р. Вопрос: верны ли вообще мои действия?
2) в программе "статистика" мне удалось провернуть вышеописанную штуку, но в англоязычной версии не было кнопки "t-тест для независимых переменных", а лишь зависимых и независимых выборок, где мне пришлось бы выбирать какую-то группирующую и т.д. (для этого как я поняла вообще нужно вбивать всех 600 с лишним пациентов и указывать каждому год и статус летальности или живости) Но моей целью не стоит забить в выборки каждого пациента каждого года, моя задача лишь по имеющимся данным (знаем количество выживших и летальных в каждом году) выявить наличие или отсутствие различий по количеству в двух уже сформированных по годам группах. До меня , как я уже говорила ранее, кто-то считал все это дело в программе spss, в которой я кстати тоже не нашла как посчитать t и р таким способом, как это делала я. Вопрос: как он это сделал в spss?Потому что делал он это как-то очень быстро и просто...может вообще при помощи таблицы сопряженности как-то

Сорри за многословность, буду очень признательна за помощь бестолочи weep.gif



Соня, привет!
Вы пишите: "... необходимо высчитывать значения критерия стьюдента". Использование t-критерия Стьюдента, в действительности это весьма вероятная ошибка. Поскольку этак акция допустима реально лишь в нескольких процентах случаев. Из-за того, что корректное использование этого критерия требует ОБЯЗАТЕЛЬНОГО ВЫПОЛНЕНИЯ двух других условий. Что на реальных данных выполняется крайне редко. В двух словах эти детали не описать. Почитайте пару статей, где эти аспекты описаны подробно. Это статьи по адресам

http://www.biometrica.tomsk.ru/student_1.htm
и
http://www.biometrica.tomsk.ru/comp_aver.htm

Надеюсь, после прочтения этой пары статей, Вы вначале проверите условия корректного использования критерия Стьюдента.
И последняя деталь.
Сравнивать лишь средние значения, это тоже самое, что "сравнивать температуры тела больных и здоровых". То есть для важных и полезных для улучшения практических мед. технологий, следует сравнивать не только средние значения групп, но и сами группы многими другими методами. О том, какими полезными методами следует сравнивать эти группы, прочитайте в статьях http://www.biometrica.tomsk.ru/logit_1.htm ---- http://www.biometrica.tomsk.ru/logit_9.htm
Эти дополнительные методы дают результаты сравнения, в которых учитываются не только различия групповых средних, но также и корреляции между всеми признаками, и иные виды взаимосвязи. Наглядная графика этой особенности таких сравнений см. по адресу
http://www.biometrica.tomsk.ru/Leonov_Erevan_2015.pdf

Желаю успешного анализа собранных данных!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)