Novitok
20.12.2008 - 19:34
Люди, помогите

Я в этом пакете новичок.
У меня есть большая таблица с данными. Хочу из этой таблицы сделать 5% случайную выборку.
Пытаюсь через меню Data->Subset/Random Sampling... Устанавливаю в текстовом поле - 5%.
Каждый раз программа выдаёт сгенерированную таблицу с
разным количеством записей.
Оно так и должно быть?
Или я что-то не так делаю?
Причём колебания размера таблицы очень большие...
DrgLena
20.12.2008 - 23:06
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.
Novitok
21.12.2008 - 09:41
Лена, спасибо!
Всё получилось:)
Novitok
21.12.2008 - 09:53
Всё получилось,только непонятно,что это за опция With replacement...?
Что значит "с заменой(обновлением)"??
DoctorStat
21.12.2008 - 11:53
Цитата(Novitok @ 21.12.2008 - 09:53)

Что значит "с заменой(обновлением)"??
Это значит, что выбранная запись опять возвращается в общий пул (выбор в возвращением). Следовательно, в окончательной выборке одна и та же запись может встретиться более одного раза (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)
Цитата(DrgLena @ 20.12.2008 - 23:06)

В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.
Не стоит использовать выборки с возворатом. Так одно наблюдение может встретиться в выборке более одного раза.
Для простых выборок колебания численности возможны. Если нужно определенное число, используйте систематическую случайную выборку или блочную выборку.
Цитата(DoctorStat @ 21.12.2008 - 11:53)

... (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)
Вообще-то это можно прочитать в книгах по статистике, терминология общая, а не специфичная для программы.
DrgLena
21.12.2008 - 20:25
With replacement..., в данном случае означает просто переписать эту новую выборку, представив ее в новой таблице и все, DoctorStar просто увел в другую сторону от конкретной задачи, там нет возврата.
Вы уверены? Попробуйте взять 5 наблюдений и сделать выборку в 100% with replacement. Я не думаю, что авторы статистической программы стали бы использовать стандартную терминологию в неправильном смысле.
DrgLena
21.12.2008 - 21:34
Да, попробовала, вы абсолютно правы. Я пользуюсь random sampling только чтобы получить разделение на две выборки, напримрер, обучающую и контрольную. При этом использую Split node random sampling.
В пакете Statistica можно сделать случайную выборку нужного размера (n) с помощью следующего алгоритма:
1. создайте новую переменную, числовую, назначив ей (в нижнем окне) значения =Rnd(1),
2. отсортируйте данные, используя эту переменную как ключ,
3. первые n строк новой таблицы и будут нужной Вам выборкой.
То же можно сделать и в программе Excel, только значения новой переменной формируются функцией "слчис()" без аргумента
и обязательно сохраните присвоенные значения "как значения". Иначе при каждом обращении к этой переменной ее значения
будут меняться.
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.