Здравствуйте, гость ( Вход | Регистрация )
Отправлено: 17.11.2015 - 08:33 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Я и не имел в виду переобучение. А где деление на обучающую и тестирующие выборки\ скользящий контроль и др. (если уж этот метод применять). Ты сомневаешься в моей компетентности? Могу выслать список статей в журналах ВАК, ДАН, AMS, номера грантов РФФИ и др. Мне (глупому!) уже не раз прислали просьбы помочь "проконсультировавшиеся" у тебя. Вот и дама задает мне вопросы. И других скоро покажу. Если вы оба уверены, несите этот бред (на мой взгляд) в журнал ВАК (пришлите ссылку, если опубликуют - пусть мне будет стыдно и посмотрю, а нет ли моих идей в окончательном опубликованном варианте), зачем показывать на форуме умное глупым (т. е. мне)? Странно . что на этом форуме никто ничего не заметил (или не захотел) - сообщение висело неделю. Дама и опубликовала решение на форуме, потому что сомневается в правильности. |
Форум: Медицинская статистика · Просмотр сообщения: #18955 · Ответов: 23 · Просмотров: 30492 |
Отправлено: 11.11.2015 - 21:22 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Должен ли будет алгоритм RandomForest показать успешную классификацию? Не знаю, это будет зависеть и от того, какие другие переменные участвуют в модели. Если качество классификации будет высоким, а переменные не являются значимыми . то связи с ними нет /косвенный результат. Если качество классификации низкое, никакие выводы делать нельзя. И какой метод доказательства отсутствия связи будет уместен? Параметрические или непараметрические методы сравнения двух независимых выборок по каждой переменной - простой подход (при необходимости - с поправками). Тест Хотеллинга /при выполнении условий/ , перестановочные тесты для двух групп, в том числе и многомерные. Если переменных много и выявляются факторы, то эти же методы для факторных оценок (чуть сложнее). Более сложные - дискриминантный анализ, логрегрессия. деревья классификации и др. /перечислялись в этой теме выше. Если качество модели будет высоким, а переменные не являются значимыми, то связи с ними нет. В других случаях никакие выводы делать нельзя. Более универсальный и очень сложный метод - обобщенные уравнения оценки с бинарным откликом /нужно строить модель и проверять условия , есть в SPSS/. Если разумно выявляются категории, можно использовать таблицы сопряженности и логлинейный анализ таблиц сопряженности (менее мощные методы). Но я всегда прежде всего руководствуюсь здравым смыслом - связь может быть и ложной. Я не против применения метода Random Forest в этом исследовании, но для совсем других целей. Удачи! |
Форум: Медицинская статистика · Просмотр сообщения: #18940 · Ответов: 23 · Просмотров: 30492 |
Отправлено: 11.11.2015 - 19:31 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках). Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы. Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл. . |
Форум: Медицинская статистика · Просмотр сообщения: #18938 · Ответов: 23 · Просмотров: 30492 |
Отправлено: 10.11.2015 - 08:31 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Решение задачи кажется мне странным. Random Forest обычно применяют в исследованиях с очень большим числом наблюдений. Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/. Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации . Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы. При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./ Полезно построить ROC- кривые / если категорий две / и их сравнить. Также предварительно следует проверить качество данных на предмет дубликатов и противоречий. В других методах следует обратить внимание на мощность - полагаю, что у Вас мало данных. |
Форум: Медицинская статистика · Просмотр сообщения: #18932 · Ответов: 23 · Просмотров: 30492 |
Отправлено: 3.11.2015 - 23:45 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Задача мне кажется очень странной, но если анализировать формулировку очень строго с чисто математической точки зрения, речь идет о корреляции временных рядов. Но в этом случае более важна коинтеграция временных рядов. http://www.algorithmist.ru/2011/08/time-se...y-measures.html Топикстартер даже в лексике не разобрался!!! В других подходах теряется ценная информация о динамике взаимосвязи. |
Форум: Медицинская статистика · Просмотр сообщения: #18925 · Ответов: 4 · Просмотров: 7213 |
Отправлено: 2.11.2015 - 08:44 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Нужно составлять таблицы сопряженности для независимых выборок (критерий хи-квадрат) и для зависимых (критерий Мак-Нимара). В процессе вычислений потребуется отбор наблюдений или составление таблиц сопряженности по слоям. Нет уверенности в том, что Вы ввели данные верно, не зная методов их анализа: данные нужно вводить с группирующими переменными: независимые выборки - переменная принадлежности к группе, зависимые - переменная , указывающая на этап исследования. Показатели - в одном столбце. Нужно делать и поправки на множественность сравнений, как я понимаю это исследование. Возможны и более сложные методы исследования. |
Форум: Медицинская статистика · Просмотр сообщения: #18911 · Ответов: 2 · Просмотров: 4730 |
Отправлено: 19.10.2015 - 20:24 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
E_VA Я бы пытался создать единую модель для оценки влияния дихотомической переменной (возраст) на другие переменные. Это - очень сложная задача, но проблема множественности сравнений будет снята. Примеры таких моделей (но в психологии) хорошо известны. В рамках этой модели можно бороться и с отклонениями от нормальности по каждой переменной. Модель может содержать и структурную и измерительную составляющие. Можно выполнить предварительную генерацию модели и ее частей. Более простое: по результатам опросников (и некоторым другим переменным) можно пытаться выполнить факторный анализ и вычислить факторные оценки. После этого можно сравнивать категории возраста по факторным оценкам: часто картинка становится более отчетливой, т. е. если категории не отличались по переменным, то могут отличаться по факторным оценкам. Полезно выполнить и анализ качества опросников (альфа Кронбаха), а возрастные категории сравнивать только по информативным вопросам. |
Форум: Медицинская статистика · Просмотр сообщения: #18872 · Ответов: 23 · Просмотров: 30492 |
Отправлено: 14.10.2015 - 11:02 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
http://basegroup.ru/system/files/documenta...alyst_5.2.0.pdf стр. 126. В учебной версии данные вводятся в специальном (текстовом) формате Excel. |
Форум: Медицинская статистика · Просмотр сообщения: #18854 · Ответов: 2 · Просмотров: 4779 |
Отправлено: 9.10.2015 - 09:30 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Биномиальный критерий: значимость 0,074. Мощность критерия - 0,29. Для достижения мощности 0,8 нужно не менее 30 наблюдений. |
Форум: Медицинская статистика · Просмотр сообщения: #18837 · Ответов: 12 · Просмотров: 14250 |
Отправлено: 29.09.2015 - 22:18 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Anna Нужны подробности и некоторые предварительные исследования. Если я правильно понимаю медтерминологию и типы шкал данных, то Вам необходимо использовать однофакторный дисперсионный анализ с апостериорными сравнениями.. Но прежде нужно проверить условия его применения для каждого показателя. Удобно использовать пакет PAST - есть проверка нормальности распределения остатков и др. Можно делать вычисления и в SPSS. Если данные измерены в других шкалах, то существует непараметрический аналог и др. Целесообразно использовать и перестановочные тесты и др.. Существуют и более сложные методы. Тема обсуждалась. |
Форум: Медицинская статистика · Просмотр сообщения: #18818 · Ответов: 10 · Просмотров: 13566 |
Отправлено: 23.09.2015 - 22:27 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
grergi Существует обобщение корреляционного и регрессионного анализов . которое в данном случае может (как я понял) быть применимо: модель путей (анализ путей) с эндогенными и экзогенными переменными и др. Можно оценивать прямые и косвенные эффекты влияния , учитывать медиаторы и модераторы и др. Но существуют жесткие требования к объему и качеству данных. |
Форум: Медицинская статистика · Просмотр сообщения: #18804 · Ответов: 10 · Просмотров: 12690 |
Отправлено: 23.09.2015 - 22:16 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
tvh Вы неверно понимаете слова Multigroup в GPower - процедура применяется в анализе мощности для гипотезы о равенстве пропорций в двух выборках, в каждой из которых одинаковое число, но более 2 градаций. Сколько градаций у Вас - не очень понятно , не указано. |
Форум: Медицинская статистика · Просмотр сообщения: #18803 · Ответов: 6 · Просмотров: 9095 |
Отправлено: 15.09.2015 - 21:28 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Считаю, что статистический анализ специфических данных должен выполняться с применением специальных методов (и программ). Сведение к классическим методам ничего не даст. Также считаю, что анализ следует выполнять в рамках определенной модели, построенной по выборкам, а не исключительно только по выборочным данным. Предлагаю обратить внимание на модели SEM, которые могут являться обобщением даже моделей ДА. Применение таких моделей в биологии хорошо известно. Также считаю разумным применение байесовского оценивания. Я немного знаком со структурным моделированием на уровне пакета SPSS Amos/ есть руководство пользователя с примерами. Также в этом пакете есть мощный метод анализа - байесовское оценивание методом МСМС/ -Монте -Карло на основе цепей Маркова. Данный метод применяется в том числе и в генетике http://www.sbras.ru/ws/show_abstract.dhtml?ru+48+3549 В методе МСМС в среде этого пакета вычисляются и статистики с ДИ (в режиме реального времени), есть проверка гипотез о средних, множественные сравнения, бутстреп, перестановочные техники для сравнения моделей и др. Этой частью я владею плохо, но знаю, как это работает технически.
Прикрепленные файлы
|
Форум: Медицинская статистика · Просмотр сообщения: #18780 · Ответов: 16 · Просмотров: 29246 |
Отправлено: 1.09.2015 - 12:46 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Вот этот продукт http://basegroup.ru/deductor/description |
Форум: Медицинская статистика · Просмотр сообщения: #18727 · Ответов: 7 · Просмотров: 9952 |
Отправлено: 29.08.2015 - 12:19 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Для выполнения группировки можно использовать особые методы, которые часто дают более хорошие результаты (по сравнению с традиционным кластерным анализом): ЕМ- кластеризацию и самоорганизующиеся карты Кохонена с интерактивной визуализацией (!) групп. Для создания качественной выборки можно использовать сэмплинг и др. По этим методам имеется отечественный программный продукт высокого качества (есть демоверсия). Я бы начал с более простого - двухэтапного кластерного анализа для автоматического определения числа кластеров и качества кластеризации, создания кластерных профилей и др. . |
Форум: Медицинская статистика · Просмотр сообщения: #18723 · Ответов: 7 · Просмотров: 9952 |
Отправлено: 11.08.2015 - 14:53 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Теперь все работает. Спасибо. Хотелось бы знать о планах дальнейшего развития программы. /Анатолий Серов, ТвГУ/ |
Форум: Медицинская статистика · Просмотр сообщения: #18682 · Ответов: 20 · Просмотров: 39006 |
Отправлено: 9.08.2015 - 17:03 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Программа интересна. Проведем занятие семинара с демонстрацией ее возможностей. При попытке составить таблицы сопряженности выдается сообщение об ошибке. Жаль, что в программе представлено не очень большое количество методов анализа. |
Форум: Медицинская статистика · Просмотр сообщения: #18670 · Ответов: 20 · Просмотров: 39006 |
Отправлено: 28.06.2015 - 11:20 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Да, такое иногда происходит. Основная причина - низкая мощность критериев: или мал эффект или недостаточно наблюдений. Вычислите мощность критериев (тема обсуждалась). Если мощности критериев менее 0,8, то никаких выводов делать нельзя и научности в данном исследовании нет. |
Форум: Медицинская статистика · Просмотр сообщения: #18552 · Ответов: 3 · Просмотров: 6515 |
Отправлено: 16.06.2015 - 18:16 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Со статистической точки зрения могут быть реализованы различные подходы: для каждого (левого - правого) глаза отдельно. среднее для суммы значений по каждому глазу, если есть взаимосвязь / положительная(!) корреляция и др./ Возможно, подойдут некоторые методы работы с панельными данными. Я бы начал с поиска нормативных документов по проведению таких исследований. Также весьма полезно сделать обзор статей по таким заболеваниям: а как поступали там? Странно, что Вы об этом ничего не пишете. Если ничего обнаружено не будет, я бы использовал все варианта анализа, о которых написано выше. |
Форум: Медицинская статистика · Просмотр сообщения: #18520 · Ответов: 3 · Просмотров: 6013 |
Отправлено: 4.06.2015 - 19:46 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Нет. Нужно использовать ранговый бисериальный коэффициент корреляции. http://www.vashpsixolog.ru/lectures-on-the...ki-psi?start=12 И еще с проверкой гипотезы http://window.edu.ru/resource/562/65562/files/m08-196.pdf |
Форум: Медицинская статистика · Просмотр сообщения: #18492 · Ответов: 2 · Просмотров: 4963 |
Отправлено: 29.05.2015 - 09:01 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
В статье http://www.cognitivepsy.ru/Pubs/2010_MetaA...ovKornilova.pdf для мета-исследований (в медицине!) по вторичным результатам предлагается использовать байесовский подход. Ближе всего к Вашей задаче. как я понял. статья [39]. Полагаю, что в данном случае можно как-то использовать идеи метода Монте-Карло. |
Форум: Медицинская статистика · Просмотр сообщения: #18479 · Ответов: 4 · Просмотров: 7700 |
Отправлено: 6.05.2015 - 18:59 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Почти так. В зависимости от качества анкеты (можно проверить) и (или) качества полученных данных возможны различные варианты анализа. Если данные достаточно высокого качества - выполняется нормальность остатков и однородность дисперсий (и др.) и до и после, то, возможно, применим самый мощный метод анализа - дисперсионный анализ с повторными измерениями с одним внутригрупповым фактором (до- после) и одним межгрупповым фактором (группа или вид лекарства). Анализ будет проведен в рамках одной модели, что очень важно. Если эти условия не выполняются , то можно пойти тремя путями: 1. попытаться преобразовать (улучшить) данные: разработка тестовых шкал и др. 2. использовать непараметрические методы с апостериорными попарными сравнениями (критерий Краскала-Уоллеса для трех групп и др.) 3. применить рандомизационные тесты - самый простой путь. В психодиагностике при проведении аналогичных исследований уже давно используют анкетирование на основе разработанных семантических дифференциалов и более сложных методов. Этот подход достаточно сложен и в сборе данных и в их обработке (факторный анализ), но зато является очень мощным: сравниваются не исходные данные, а факторные оценки, что во многих случаях позволяет обнаруживать существенные различия. |
Форум: Медицинская статистика · Просмотр сообщения: #18452 · Ответов: 1 · Просмотров: 3994 |
Отправлено: 3.05.2015 - 22:00 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Уважаемые коллеги, подскажите, как рассчитать доверительный интервал для разности средних при использовании ANOVA (повторных измерений) или все аналогично критерию Стьюдента? Возможно ДИ разности средних посчитать в Statistica StatSoft или SPSS? Или в программах рассчитываются только среднии и стандартные отклонения, а дальше вручную? В пакете SPSS в однофакторном ANOVA представлены процедуры вычислений ДИ для разностей средних и стандартными методами и с помощью бутстреп-оценки. Для ДА повторных измерений вычисляются ДИ для разностей средних только для уровней межгруппового фактора. |
Форум: Медицинская статистика · Просмотр сообщения: #18445 · Ответов: 3 · Просмотров: 6113 |
Отправлено: 26.04.2015 - 12:18 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Всех, кого интересуют родники, приглашаю посетить наш сайт о родниках Тверской земли (без рекламы) http://www.rodniktver.ru/ По отдельным родникам выполнены химические анализы воды. Имеются уникальные родники: в которых лечилась Екатерина II. / Кесовогорский район, Пил воду А. С. Пушкин / Старицкий район . Малинники Филимоновский фонтан/ Бологовский район, Водой из родников лечили раненых во время Великой Отечественной войны/ Конаковский район. Карачарово, Бежецкий район,п. Дружный С Днем Великой Победы! Анатолий Серов г. Тверь |
Форум: Разное · Просмотр сообщения: #18418 · Ответов: 53 · Просмотров: 70791 |
Отправлено: 23.04.2015 - 08:12 | |
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Полагаю, что нужно все-таки использовать идеи анализа выживаемости. Возможны различные варианты стандартного анализа в зависимости от роли признака Х: фактор, категориальная ковариата и др. Если преобразовать (и дополнить) данные, то можно провести анализ выживаемости, в котором событием будет появление признака Х. Складывается странное впечатление, что это Вас интересует больше всего. |
Форум: Медицинская статистика · Просмотр сообщения: #18412 · Ответов: 2 · Просмотров: 4949 |
Открытая тема (есть новые ответы) Открытая тема (нет новых ответов) Горячая тема (есть новые ответы) Горячая тема (нет новых ответов) |
Опрос (есть новые голоса) Опрос (нет новых голосов) Закрытая тема Тема перемещена |