Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Корректно ли так высчитывать процент
Fedor_Petuhov
сообщение 15.06.2017 - 19:52
Сообщение #1





Группа: Пользователи
Сообщений: 29
Регистрация: 10.02.2017
Пользователь №: 29307



Форумчане, подскажите, правильно делать так в моей ситуации? Продажи авто. Парсятся разные данные. На выходе всего 5 колонок марка-модель-год-id объявления-цена. Один продавец может долго продавать, менять цену и так далее, поэтому критично объявление с последним ID. (мол раз нет объявы имплицитно подразумеваем, что продал человек свою колымагу).
Пример датасета:
Прикрепленное изображение

красная цена - типа последняя дата объявления.
Т.е. одну марку, например мерседес 600 2016 года продают разные люди. id это номер человека.
В итоге собирается отдельный датасет где только конечная цена каждого продавца. А потом уже считается описательная статистика. Но я обратил внимание, что среднее по итоговой цене и среднее по всем объявлениям, если их скопом считать без учета итоговой цены по модулю отличается на 0-2%. (было проверено на 7 разных авто).
Можно ли теперь не париться и не делать кропотливую и долгую работу по отбору конечных наблюдений, а просто скопом брать объявления по нужной марке. Считать среднее и делать диапазон плюс минус 2%. Т.е. общее среднее 1 млн. руб, значит диапазон итоговых цен продаж авто 800 т.р.-1 млн 200 т.р. руб
Как математически доказать мою гипотезу. Сколько нужно наблюдений (разных марок) и какие методы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему