Как сделать 5-% случайную выборку в Statistica? |
Здравствуйте, гость ( Вход | Регистрация )
Как сделать 5-% случайную выборку в Statistica? |
20.12.2008 - 19:34
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 20.12.2008 Из: городок в провинции :) Пользователь №: 5639 |
Люди, помогите Я в этом пакете новичок.
У меня есть большая таблица с данными. Хочу из этой таблицы сделать 5% случайную выборку. Пытаюсь через меню Data->Subset/Random Sampling... Устанавливаю в текстовом поле - 5%. Каждый раз программа выдаёт сгенерированную таблицу с разным количеством записей. Оно так и должно быть? Или я что-то не так делаю? Причём колебания размера таблицы очень большие... |
|
20.12.2008 - 23:06
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных.
|
|
21.12.2008 - 09:41
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 20.12.2008 Из: городок в провинции :) Пользователь №: 5639 |
Лена, спасибо!
Всё получилось:) |
|
21.12.2008 - 09:53
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 20.12.2008 Из: городок в провинции :) Пользователь №: 5639 |
Всё получилось,только непонятно,что это за опция With replacement...?
Что значит "с заменой(обновлением)"?? |
|
21.12.2008 - 11:53
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Что значит "с заменой(обновлением)"?? Это значит, что выбранная запись опять возвращается в общий пул (выбор в возвращением). Следовательно, в окончательной выборке одна и та же запись может встретиться более одного раза (вычитал из документации к Statistica - Create a Subset/Random Sampling - Simple Sampling Tab)Просто включи мозги => http://doctorstat.narod.ru
|
|
21.12.2008 - 12:15
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
В этом же окне, выбор - Simple random sampling, 5% и поставьте метку With replacement . В новой таблице будет столько значений, сколько соответствует 5% от ваших первичных данных. Не стоит использовать выборки с возворатом. Так одно наблюдение может встретиться в выборке более одного раза. Для простых выборок колебания численности возможны. Если нужно определенное число, используйте систематическую случайную выборку или блочную выборку. |
|
21.12.2008 - 12:17
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
|
|
21.12.2008 - 20:25
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
With replacement..., в данном случае означает просто переписать эту новую выборку, представив ее в новой таблице и все, DoctorStar просто увел в другую сторону от конкретной задачи, там нет возврата.
Сообщение отредактировал DrgLena - 21.12.2008 - 20:26 |
|
21.12.2008 - 20:51
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Вы уверены? Попробуйте взять 5 наблюдений и сделать выборку в 100% with replacement. Я не думаю, что авторы статистической программы стали бы использовать стандартную терминологию в неправильном смысле.
|
|
21.12.2008 - 21:34
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да, попробовала, вы абсолютно правы. Я пользуюсь random sampling только чтобы получить разделение на две выборки, напримрер, обучающую и контрольную. При этом использую Split node random sampling.
|
|
2.01.2009 - 16:34
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 2.01.2009 Пользователь №: 5673 |
В пакете Statistica можно сделать случайную выборку нужного размера (n) с помощью следующего алгоритма:
1. создайте новую переменную, числовую, назначив ей (в нижнем окне) значения =Rnd(1), 2. отсортируйте данные, используя эту переменную как ключ, 3. первые n строк новой таблицы и будут нужной Вам выборкой. То же можно сделать и в программе Excel, только значения новой переменной формируются функцией "слчис()" без аргумента и обязательно сохраните присвоенные значения "как значения". Иначе при каждом обращении к этой переменной ее значения будут меняться. |
|