Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Как сделать 5-% случайную выборку в Statistica?
Novitok
сообщение 20.12.2008 - 19:34
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 20.12.2008
Из: городок в провинции :)
Пользователь №: 5639



Люди, помогите smile.gif Я в этом пакете новичок.
У меня есть большая таблица с данными. Хочу из этой таблицы сделать 5% случайную выборку.
Пытаюсь через меню Data->Subset/Random Sampling... Устанавливаю в текстовом поле - 5%.
Каждый раз программа выдаёт сгенерированную таблицу с разным количеством записей.
Оно так и должно быть?
Или я что-то не так делаю?

Причём колебания размера таблицы очень большие...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 20.12.2008 - 23:06
Сообщение #2





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Novitok
сообщение 21.12.2008 - 09:41
Сообщение #3





Группа: Пользователи
Сообщений: 4
Регистрация: 20.12.2008
Из: городок в провинции :)
Пользователь №: 5639



Лена, спасибо!
Всё получилось:)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Novitok
сообщение 21.12.2008 - 09:53
Сообщение #4





Группа: Пользователи
Сообщений: 4
Регистрация: 20.12.2008
Из: городок в провинции :)
Пользователь №: 5639



Всё получилось,только непонятно,что это за опция With replacement...?
Что значит "с заменой(обновлением)"??
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 21.12.2008 - 11:53
Сообщение #5





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Novitok @ 21.12.2008 - 09:53) *
Что значит "с заменой(обновлением)"??
Это значит, что выбранная запись опять возвращается в общий пул (выбор в возвращением). Следовательно, в окончательной выборке одна и та же запись может встретиться более одного раза (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 12:15
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 20.12.2008 - 23:06) *
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.

Не стоит использовать выборки с возворатом. Так одно наблюдение может встретиться в выборке более одного раза.
Для простых выборок колебания численности возможны. Если нужно определенное число, используйте систематическую случайную выборку или блочную выборку.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 12:17
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DoctorStat @ 21.12.2008 - 11:53) *
... (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)

Вообще-то это можно прочитать в книгах по статистике, терминология общая, а не специфичная для программы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.12.2008 - 20:25
Сообщение #8





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



With replacement..., в данном случае означает просто переписать эту новую выборку, представив ее в новой таблице и все, DoctorStar просто увел в другую сторону от конкретной задачи, там нет возврата.

Сообщение отредактировал DrgLena - 21.12.2008 - 20:26
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 20:51
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Вы уверены? Попробуйте взять 5 наблюдений и сделать выборку в 100% with replacement. Я не думаю, что авторы статистической программы стали бы использовать стандартную терминологию в неправильном смысле.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.12.2008 - 21:34
Сообщение #10





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, попробовала, вы абсолютно правы. Я пользуюсь random sampling только чтобы получить разделение на две выборки, напримрер, обучающую и контрольную. При этом использую Split node random sampling.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
vnsoln
сообщение 2.01.2009 - 16:34
Сообщение #11





Группа: Пользователи
Сообщений: 1
Регистрация: 2.01.2009
Пользователь №: 5673



В пакете Statistica можно сделать случайную выборку нужного размера (n) с помощью следующего алгоритма:
1. создайте новую переменную, числовую, назначив ей (в нижнем окне) значения =Rnd(1),
2. отсортируйте данные, используя эту переменную как ключ,
3. первые n строк новой таблицы и будут нужной Вам выборкой.

То же можно сделать и в программе Excel, только значения новой переменной формируются функцией "слчис()" без аргумента
и обязательно сохраните присвоенные значения "как значения". Иначе при каждом обращении к этой переменной ее значения
будут меняться.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему