Корректно ли так высчитывать процент |
Здравствуйте, гость ( Вход | Регистрация )
Корректно ли так высчитывать процент |
15.06.2017 - 19:52
Сообщение
#1
|
||
Группа: Пользователи Сообщений: 29 Регистрация: 10.02.2017 Пользователь №: 29307 |
Форумчане, подскажите, правильно делать так в моей ситуации? Продажи авто. Парсятся разные данные. На выходе всего 5 колонок марка-модель-год-id объявления-цена. Один продавец может долго продавать, менять цену и так далее, поэтому критично объявление с последним ID. (мол раз нет объявы имплицитно подразумеваем, что продал человек свою колымагу).
Пример датасета: красная цена - типа последняя дата объявления. Т.е. одну марку, например мерседес 600 2016 года продают разные люди. id это номер человека. В итоге собирается отдельный датасет где только конечная цена каждого продавца. А потом уже считается описательная статистика. Но я обратил внимание, что среднее по итоговой цене и среднее по всем объявлениям, если их скопом считать без учета итоговой цены по модулю отличается на 0-2%. (было проверено на 7 разных авто). Можно ли теперь не париться и не делать кропотливую и долгую работу по отбору конечных наблюдений, а просто скопом брать объявления по нужной марке. Считать среднее и делать диапазон плюс минус 2%. Т.е. общее среднее 1 млн. руб, значит диапазон итоговых цен продаж авто 800 т.р.-1 млн 200 т.р. руб Как математически доказать мою гипотезу. Сколько нужно наблюдений (разных марок) и какие методы. |
|
|