Результаты поиска

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 31.03.2019 - 12:39
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Да, я хелп читала, но там просто описание метода, а не принцип работы
	Форум: Медицинская статистика · Просмотр сообщения: #23867 · Ответов: 3 · Просмотров: 4550

Как работает feature Selection

nastushka

Отправлено: 30.03.2019 - 19:58

Группа: Пользователи
Сообщений: 76
Регистрация: 27.04.2014
Пользователь №: 26375

Подскажите в Statistica 10 реализован метод feature Selection. Я прикрепила скрин. в R есть библиотека Boruta
Я хочу понять по какому принципу работает этот метод. Как он выявляет какие из независимых переменных влияют на зависимую?
И почему бывают такие ситуации, когда
1. он считает что все переменные сильно связаны с зависимой
2. А также если взять в модель те переменные, которые метод выбрал, модель(не важно, нейронные сети, логистическая....................) может быть низкого качества в плане классификации. Ведь FS же показал переменные, что влияют.

Эскизы прикрепленных изображений

Форум: Медицинская статистика · Просмотр сообщения: #23864 · Ответов: 3 · Просмотров: 4550

Тест на разреженность матрицы

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 9.03.2018 - 15:08
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Я вроде нашла это sparse matrix, я это имела ввиду https://stackoverflow.com/questions/1200907...e-sparse-matrix
	Форум: Медицинская статистика · Просмотр сообщения: #22749 · Ответов: 3 · Просмотров: 4761

Тест на разреженность матрицы

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 8.03.2018 - 15:38
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Подскажите, есть ли статистический тест, который поможет проверить, что матрица данных данных действительно разряжена?
	Форум: Медицинская статистика · Просмотр сообщения: #22743 · Ответов: 3 · Просмотров: 4761

Кластерный анализ переменных, с указанием групп

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 23.02.2018 - 14:27
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Добрый день. Есть 20 переменных(прислала датасет с фиктивными, а то настоящие данные нельзя давать) группировать переменные можно или кластерным анализом или факторным допустим , если мы стали использовать факторный анализ, мы выделил 4 фактора, каждый нагружен тремя переменными. Вопрос то был понять, как наблюдения кучкуются у каждого фактора Я думала выделит факторы, превратить их в регрессионные переменные и по ним сделать кластерный анализ. Я так полагаю nokh это имели ввиду? Прикрепленные файлы фикт.xlsx ( 14,09 килобайт ) Кол-во скачиваний: 232
	Форум: Медицинская статистика · Просмотр сообщения: #22666 · Ответов: 9 · Просмотров: 10170

Кластерный анализ переменных, с указанием групп

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 22.02.2018 - 15:04
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Подскажите, как можно решить такую задачу 1. есть данные, в них 20 переменных 2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных 3.затем найти людей, которые "кучкуются" у каждого класса переменных. Например мы нашли 4 класса переменных абв, где, ежз, икл. наблюдения 1-30 кучкуются у класса к примеру ежз.
	Форум: Медицинская статистика · Просмотр сообщения: #22661 · Ответов: 9 · Просмотров: 10170

Как кодировать персональные данные

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 23.01.2018 - 14:19
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Искажать нужно не только фио, а другие персональные данные. Фио я привела как пример Я не имею права передавать персональные данные, такие как ФИО, паспорт, и так далее, но если исказить информацию, так. чтобы потом смочь её прочесть, не нарушая закон можно.
	Форум: Медицинская статистика · Просмотр сообщения: #22471 · Ответов: 5 · Просмотров: 6874

Как кодировать персональные данные

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 23.01.2018 - 11:20
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Согласно закону о персональных данных, напрямую нельзя передовать сторонним лицам такие данные, как ФИО. Однако из ФИО можно тоже получать такую информацию, как национальность, пол. Есть ли способы закодировать, а лучше сказать исказить персональные данные, так что с одной стороны они содержат начальную информацию, а с другой стороны мы не нарушаем закона, т.к. там не реальное ФИО, а кодировка. Можно ли составить какой-либо семантический словарь , а потом по нему расшифровывать? Подскажите, пожалуйста.
	Форум: Медицинская статистика · Просмотр сообщения: #22467 · Ответов: 5 · Просмотров: 6874

преобразование дат

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 20.11.2017 - 15:31
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Подскажите, пожалуйста, как мне в моем наборе данных изменить формат дат т.е. research$date 06.03.2017 перевести в формат 20170603 (yyyymmdd) далее формат данных часов research$h research$ m 16:29:58 16:30:23 ч:мин:сек мне нужно , чтобы поля были заполнены так research$h research$m 16 30 т.е. 16 часов, а в другом поле 30 минут
	Форум: Медицинская статистика · Просмотр сообщения: #22212 · Ответов: 1 · Просмотров: 2943

power anaylysis для ановы со средними и сигмами

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 20.11.2017 - 15:18
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	nokh, все в порядке. Тут правда остатки распределены не нормально, а значит и не надо парится с анализом мощности, под эти данные, он не подходит.
	Форум: Медицинская статистика · Просмотр сообщения: #22211 · Ответов: 8 · Просмотров: 8442

power anaylysis для ановы со средними и сигмами

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 18.11.2017 - 12:42
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	nokh, спасибо Вам, в каждой группе 25 чел. А как усреднить стандартные отклонения?
	Форум: Медицинская статистика · Просмотр сообщения: #22203 · Ответов: 8 · Просмотров: 8442

power anaylysis для ановы со средними и сигмами

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 17.11.2017 - 15:33
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	p2004r, там в любом случае надо вводить сигму, но только одну,а у меня их три) Прям как в том анекдоте про блондинке в машине, ножек 2, а педалек 3))
	Форум: Медицинская статистика · Просмотр сообщения: #22199 · Ответов: 8 · Просмотров: 8442

power anaylysis для ановы со средними и сигмами

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 16.11.2017 - 17:02
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Код Description Calculate power for one-way ANOVA models. Usage pwr.1way(k=k, n=n, alpha=alpha, f=NULL, delta=delta, sigma=sigma) Arguments k Number of groups n Sample size per group f Effect size alpha Significant level (Type I error probability) delta The smallest difference among k groups sigma Standard deviation, i.e. square root of variance И где в этих аргументах вводить среднее и сигмы, у меня три группы и все имеют разные средние и сигмы)) а тут дана только одна сигма
	Форум: Медицинская статистика · Просмотр сообщения: #22196 · Ответов: 8 · Просмотров: 8442

power anaylysis для ановы со средними и сигмами

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 16.11.2017 - 16:49
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Подскажите, пожалуйста, как мне рассчитать мощность для ановы с тремя группами, имея только средние и стандартные отклонения? пример М=40, S=4 M2=35 S=10 M3=45 S=8 Как мне мощность рассчитать в R
	Форум: Медицинская статистика · Просмотр сообщения: #22194 · Ответов: 8 · Просмотров: 8442

Оценка методологии в исследовании

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 21.10.2017 - 14:00
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	коллеги, то о чем вы говорите в R можно сделать?
	Форум: Медицинская статистика · Просмотр сообщения: #22043 · Ответов: 7 · Просмотров: 7855

Оценка методологии в исследовании

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 20.10.2017 - 15:04
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	С расчетом выборки немного знакома power analysis. Но в контексте моей задачи, что мне брать за эталон я не поняла. Дело в том, что sample size calculation требует подоплёку, в частности нужны данные из вне источников по схожим исследованиям, чтобы что-то сделать.
	Форум: Медицинская статистика · Просмотр сообщения: #22031 · Ответов: 7 · Просмотров: 7855

Оценка методологии в исследовании

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 19.10.2017 - 17:40
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	У меня есть идея, но лучше посоветуюсь с более умными. можно ли взять случайную выборку всех тех у кого есть значки в городе N пусть 1000 человек предложить им поучаствовать в онлайн опросе, где один из вопросов будет: есть ли у вас значки с гербом рсфрс? так можно получить доли например 150 человек сказали , да есть значки с герборм рсфср, т.е. 15% эту долю репрезентируем на генеральную совокупность. Так корректно делать?
	Форум: Медицинская статистика · Просмотр сообщения: #22027 · Ответов: 7 · Просмотров: 7855

Оценка методологии в исследовании

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 18.10.2017 - 16:09
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Уважаемые форумчане, , пожалуйста, мне в этой задаче, я не знаю как её решить. В городе N есть коллекционеры значков У коренных жителей города N значки бывают двух типов с изображением герба РСФСР и другие какой должен быть дизаин исследования, чтобы оценить долю значков с гербом рсфср, принадлежащих коренным жителям города N
	Форум: Медицинская статистика · Просмотр сообщения: #22010 · Ответов: 7 · Просмотров: 7855

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 12.08.2017 - 13:35
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	p2004r, я пробовала работать с тремя этими пакетами, но или у меня руки кривые безнадежно , или ансамбливое обучение тут не помощник. library("ensembleR") acc1=read.xlsx("C:/Users/Admin/Desktop/buyning.xlsx") index <- sample(1:nrow(acc1),round(0.75*nrow(acc1))) train <- acc1[index,] test <- acc1[-index,] preds <- ensemble(train,test,'id',c('treebag','rpart'),'rpart') Error in train.default(training[, predictors], training[, outcomeName], : Stopping Something is wrong; all the RMSE metric values are missing: RMSE Rsquared Min. : NA Min. : NA 1st Qu.: NA 1st Qu.: NA Median : NA Median : NA Mean :NaN Mean :NaN 3rd Qu.: NA 3rd Qu.: NA Max. : NA Max. : NA NA's :1 NA's :1 ====== library("caretEnsemble") models <- caretList(train,test, methodList=c("glm", "lm")) Error: nrow(x) == n is not TRUE In addition: Warning messages: 1: In trControlCheck(x = trControl, y = target) : trControl$savePredictions not 'all' or 'final'. Setting to 'final' so we can ensemble the models ============== library("classyfire") acco=read.xlsx("C:/Users/admin/Desktop/buyning.xlsx") iClass <- acco[,1] idata <- acco[,-1] ens <- cfBuild(inputData = idata, inputClass = iClass, bootNum = 100, ensNum = 100, parallel = TRUE, cpus = 4, type = "SOCK") а тут такая ошибка Error in .initCheck(inputData, inputClass, bootNum, ensNum, parallel, : Argument "inputData" must contain numeric values. Шах и мат. На что он жалуется то?
	Форум: Медицинская статистика · Просмотр сообщения: #21809 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 10.08.2017 - 11:16
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Т.е. вы считаете, что такую верификацию из двух методов лучше не делать?
	Форум: Медицинская статистика · Просмотр сообщения: #21800 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 9.08.2017 - 15:43
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	p2004r, Ваше мнение, как Вы считаете имеет ли место комбинирование моделей? Т.е.! КNN-очень хорошо отделяет нули от единиц, а вот дискриминантный анализ, после того,как я его дожала, стал отделять единицы от нулей. Есть ли смысл, сначала использовать КNN, а затем дискриминантный анализ? Т.е. на вход предикторы, на выходе КНН получаем 1, если при этом ДА=1, то итог 1, если ДА =0, то итог=0 Когда на вход предикторы, на выходе КНН получаем 0, если ДА=1, то итог 1, если ДА =0, то итог=0 Корректно ли так будет делать?
	Форум: Медицинская статистика · Просмотр сообщения: #21797 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka

Отправлено: 8.08.2017 - 11:45

Группа: Пользователи
Сообщений: 76
Регистрация: 27.04.2014
Пользователь №: 26375

p2004r, подскажите, пожалуйста, а как мне нарисовать графически красиво для программиста, чтобы он уже на базе данных программировал решение. Я проявила сама инициативу хотела через дерево решений нарисовать, но пока не очень хорошо получается.
И вопрос для моего повышения знаний. Если accuracy 90%
значит ли это что на других выборках точность правильности определения будет не менее 90% т.е. из 100 наблюдений 90 будут правильно отнесены к своим классам. Или как понять эту цифру.

Эскизы прикрепленных изображений

Форум: Медицинская статистика · Просмотр сообщения: #21788 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 6.08.2017 - 17:53
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Кстати точно, попробую, прологарифмировать. Подскажите, p2004r, как мне составить уравнение потом. Мне ведь надо не просто принести модель и сказать вот в R есть функция predict, так и предсказывайте программисту нужно сообщить уравнение, чтобы он в CRM для автоматизации запрограммировал. что-то ("mxnet") нет в репозитории. Видимо уже убрали > install.packages("mxnet") Installing package into ?C:/Users/Admin/Documents/R/win-library/3.3? (as ?lib? is unspecified) Warning in install.packages : package ?mxnet? is not available (for R version 3.3.2)
	Форум: Медицинская статистика · Просмотр сообщения: #21784 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 6.08.2017 - 14:57
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	у меня AUc=0.55, в R считала, неужели мне никак модель не улучшить?
	Форум: Медицинская статистика · Просмотр сообщения: #21782 · Ответов: 57 · Просмотров: 57528

Логистическая регрессия в R

nastushka Просмотр профиля Найти сообщения пользователя	Отправлено: 5.08.2017 - 17:10
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	p2004r, здравствуйте, решила написать в своем же топике, но теперь тут другой скоринг (Раньше плохой, хороший), а сейчас купит-не купит услугу(id is dep var) Логистическая регрессия здесь, показала ужасные результаты, почти все нули(те, кто не купили) были правильно к своему классу отнесены, а единицы(те кто купили) также к нулям. Все что смогла сама сделать, это Дискриминантный анализ в SPSS, вроде показал точность 60%, но это ни о чем. Сильная перемешка кейсов. Можете подсказать, как мне модель выровнять? С регрессией что спсс, что статистика также ,как и R показывали такой результат. Тут нужно только через ДА. acc=read.csv("C:/Users/Admin/Desktop/buyning.csv", sep=";",dec=",") getwd() > acc$profitValueList=as.numeric(acc$profitValueList) > acc$revenueValueList=as.numeric(acc$revenueValueList) > acc$courtPracticeList=as.numeric(acc$courtPracticeList) > acc$digestRedList=as.numeric(acc$digestRedList) > acc$digestGreyList=as.numeric(acc$digestGreyList) > acc$digestGreenList=as.numeric(acc$digestGreenList) > acc$linkedEntitiesByCeoNumList=as.numeric(acc$linkedEntitiesByCeoNumList) > acc$linkedEntitiesByFounderNumList=as.numeric(acc$linkedEntitiesByFounderNumList) > acc$linkedEntitiesChildrenNumList=as.numeric(acc$linkedEntitiesChildrenNumList) > acc$capitalList=as.numeric(acc$capitalList) > acc$gosWinnerNumList=as.numeric(acc$gosWinnerNumList) > acc$gosWinnerSumList=as.numeric(acc$gosWinnerSumList) > acc$gosPlacerNumList=as.numeric(acc$gosPlacerNumList) > acc$gosPlacerSumList=as.numeric(acc$gosPlacerSumList) > acc$inspectionsInFutureNumList=as.numeric(acc$inspectionsInFutureNumList) > acc$inspectionsHasViolationsNumList=as.numeric(acc$inspectionsHasViolationsNumList) > acc$inspectionsNoViolationsNumList=as.numeric(acc$inspectionsNoViolationsNumList) > acc$inspectionsHasViolationsFailsList=as.numeric(acc$inspectionsHasViolationsFailsList) > acc$Выручка=as.numeric(acc$Выручка) > acc$Прибыль=as.numeric(acc$Прибыль) > acc$Убыток=as.numeric(acc$Убыток) > acc$Баланс=as.numeric(acc$Баланс) > acc$Директор.Учредитель=as.numeric(acc$Директор.Учредитель) > acc$Директор.отдельно=as.numeric(acc$Директор.отдельно) > acc$Учредитель.отдельно=as.numeric(acc$Учредитель.отдельно) > index <- sample(1:nrow(acc),round(0.75nrow(acc))) > train <- acc[index,] > test <- acc[-index,] > library("MASS") > fitTrn =lda(id~.,data=train) Error in lda.default(x, grouping, ...) : ошибка была variables 15 16 appear to be constant within groups Как мне хотя бы маломальски точную классификацию получить? Прикрепленные файлы* buyning.zip ( 221,87 килобайт ) Кол-во скачиваний: 228
	Форум: Медицинская статистика · Просмотр сообщения: #21779 · Ответов: 57 · Просмотров: 57528

Открытая тема (есть новые ответы)

Открытая тема (нет новых ответов)

Горячая тема (есть новые ответы)

Горячая тема (нет новых ответов)

Опрос (есть новые голоса)

Опрос (нет новых голосов)

Закрытая тема

Тема перемещена