Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Как сделать 5-% случайную выборку в Statistica?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Novitok
Люди, помогите smile.gif Я в этом пакете новичок.
У меня есть большая таблица с данными. Хочу из этой таблицы сделать 5% случайную выборку.
Пытаюсь через меню Data->Subset/Random Sampling... Устанавливаю в текстовом поле - 5%.
Каждый раз программа выдаёт сгенерированную таблицу с разным количеством записей.
Оно так и должно быть?
Или я что-то не так делаю?

Причём колебания размера таблицы очень большие...
DrgLena
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.
Novitok
Лена, спасибо!
Всё получилось:)
Novitok
Всё получилось,только непонятно,что это за опция With replacement...?
Что значит "с заменой(обновлением)"??
DoctorStat
Цитата(Novitok @ 21.12.2008 - 09:53) *
Что значит "с заменой(обновлением)"??
Это значит, что выбранная запись опять возвращается в общий пул (выбор в возвращением). Следовательно, в окончательной выборке одна и та же запись может встретиться более одного раза (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)
плав
Цитата(DrgLena @ 20.12.2008 - 23:06) *
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.

Не стоит использовать выборки с возворатом. Так одно наблюдение может встретиться в выборке более одного раза.
Для простых выборок колебания численности возможны. Если нужно определенное число, используйте систематическую случайную выборку или блочную выборку.
плав
Цитата(DoctorStat @ 21.12.2008 - 11:53) *
... (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)

Вообще-то это можно прочитать в книгах по статистике, терминология общая, а не специфичная для программы.
DrgLena
With replacement..., в данном случае означает просто переписать эту новую выборку, представив ее в новой таблице и все, DoctorStar просто увел в другую сторону от конкретной задачи, там нет возврата.
плав
Вы уверены? Попробуйте взять 5 наблюдений и сделать выборку в 100% with replacement. Я не думаю, что авторы статистической программы стали бы использовать стандартную терминологию в неправильном смысле.
DrgLena
Да, попробовала, вы абсолютно правы. Я пользуюсь random sampling только чтобы получить разделение на две выборки, напримрер, обучающую и контрольную. При этом использую Split node random sampling.
vnsoln
В пакете Statistica можно сделать случайную выборку нужного размера (n) с помощью следующего алгоритма:
1. создайте новую переменную, числовую, назначив ей (в нижнем окне) значения =Rnd(1),
2. отсортируйте данные, используя эту переменную как ключ,
3. первые n строк новой таблицы и будут нужной Вам выборкой.

То же можно сделать и в программе Excel, только значения новой переменной формируются функцией "слчис()" без аргумента
и обязательно сохраните присвоенные значения "как значения". Иначе при каждом обращении к этой переменной ее значения
будут меняться.

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.