Приветствую участников форума!
Сразу хочу извиниться: я не врач и не аспирант. Но ваш форум мне кажется наиболее обширным по вопросам биостатистики, поэтому прошу помощи у вас.
Хочу решить следующую задачу. Скажем, существует птицефабрика и при ней производство куриных окорочков. (Пример абстрактный, поэтому может присутствовать некоторая абсурдность.) Масса окорочка, как очевидно, зависит от массы целой курицы. Делать окорочка из курицы менее 2 кг невыгодно, но недобросовестные технологи это делают. Цель - по массе окорочка определить из курицы какой массы он был изготовлен. Дальше ход моих мыслей.
Масса окорочка зависит от массы целой курицы. И зависимость эта регрессионная. Понятно, что взяв один окорочок определить массу курицы невозможно. Тут необходимо использовать статистические методы, чтобы в партии окорочков определить использовались при их изготовлении курицы массой менее 2 кг. Я представляю это так:
а) Определить массу окорочка при которой совершенно точно масса курицы более 2 кг.
б) Определить массу окорочка при которой масса исходной курицы совершенно точно меньше 2 кг.
Эти два пункта не вызывают затруднения. Но остается такой интервал в значениях массы окорочка, в котором он может принадлежать как курице с массой более 2 кг, так и курице с массой более 2 кг. И вот тут возникают сложности. Я предлагаю собрать статистический материал, примерно такого плана:
масса окорочка менее 1,50 кг - 100% куриц массой менее 2 кг;
масса окорочка 1,50-1,75 кг - 75% куриц массой менее 2 кг;
масса окорочка 1,75-2,00 кг - 25% куриц массой менее 2 кг;
масса окорочка более 2,00 кг - 100% куриц массой более 2 кг;
Естественно, доля маленьких куриц для каждого интервала окорочков будет рассчитана по фактическим данным, а выше только пример. Это усредненные данные, поэтому чтобы быть объективными, расчитываем минимальную доверительную границу для каждой доли. Я делаю это по формулам Лакина (Биометрия, 1990). Получаем (опять же абстрактно):
масса окорочка менее 1,50 кг - 100% куриц массой менее 2 кг;
масса окорочка 1,50-1,75 кг - минимальная граница 65% куриц массой менее 2 кг;
масса окорочка 1,75-2,00 кг - минимальная граница 15% куриц массой менее 2 кг;
масса окорочка более 2,00 кг - 100% куриц массой более 2 кг;
При оценке контрольной партии обнаруживаем, что в ней 50 штук окорочков массой 1,75-2,00 кг и 100 штук окорочков массой более 2,00 кг. Это значит, что при производстве окорочков было использовано минимум 50*0,15=7,5 куриц массой менее 2 кг. Т.е. к технологам можно применять карательные меры.
Недостаток такого подхода, я вижу в следующем. Он подразумевает, что в партии есть маленькие курицы, даже если если по факту их не было. Можно, конечно ввести некоторое допустимое количество маленьких куриц. Но тогда теряется весь смысл такой проверки. И не получается определить есть или нет в партии окорочка из маленьких куриц.
Простите за "много букв" и возможную сумбурность. Готов дать разъяснения, если вопрос оказался непонятным.
anserovtv
6.06.2013 - 17:51
Скорее всего ваша задача должна решаться не статистическими . а другими, например техническими методами - установкой спецоборудования для контроля массы /веса/.
Если же решать ее методами статистики. то можно определить для каждой партии 95% доверительный интервал массы курицы или окорочка и если масса не попадает в данный интервал, то данный окорочек подозрителен. Вы декларативно устанавливаете максимальный процент подозрительных окорочков, если в данной партии он превышен, то партия не соостветствует вашим требованиям .
На 100% гарантии выполнения ваших требований дать нельзя .
Существуют скоринговые модели /применяются в банках и т д/, но для них нужно больше переменных - в вашей ситуации санитарных и(или) биологических ( возраст и другое).
В них обычно применяется логистическая регрессия.
Во многих пакетах существуют методы для выявления мошенничества, якобы они применяются и в России для раскрытия экономических преступлений. Это связано с вашей проблемой.Но ваши данные для этого малоинформативны.Существуют и другие методы. но они будут слишком дорого стоить типа биометрии с применением нейронных сетей.
Мне видится такой ответ на ваш вопрос .
Вывод: на мой взгляд примитивным способом вашу задачу решить нельзя.
Спасибо за ответ.
Технические методы, естественно применяются, но вопрос стоит в другом. Как Вы написали в конце поста это можно назвать "выявлением мошенничества". Согласен с тем, что 100% гарантии здесь не получится. Основной недостаток предложенного мной метода это возможность "наказания невоновных".
Сейчас думаю над введением новых показателей и применением методов классификации, типа "дерева решений".
Диагностик
7.06.2013 - 13:57
Цитата(Алекс_ @ 6.06.2013 - 20:48)

Я представляю это так:
а) Определить массу окорочка при которой совершенно точно масса курицы более 2 кг.
Вы неправильно представляете. Не бывает "совершенно точно", если вам неизвестно математическое ожидание веса курицы, а оно вам неизвестно. Можно лишь с заданной вероятностью определить доверительный интервал для мо веса окорочков и проверить гипотезу о принадлежности выборки к ГС при заданном уровне значимости.
Цитата(Диагностик @ 7.06.2013 - 14:57)

Вы неправильно представляете. Не бывает "совершенно точно", если вам неизвестно математическое ожидание веса курицы, а оно вам неизвестно. Можно лишь с заданной вероятностью определить доверительный интервал для мо веса окорочков и проверить гипотезу о принадлежности выборки к ГС при заданном уровне значимости.
В "чистой" статистике возможно. Но окорочок массой 2 кг со 100% вероятностью делается из курицы массой более 2 кг. Я гарантирую это (с).
Цитата(Алекс_ @ 6.06.2013 - 15:48)

Простите за "много букв" и возможную сумбурность. Готов дать разъяснения, если вопрос оказался непонятным.
вы взвешиваете каждый окорочек в партии?
Алекс_
10.06.2013 - 07:40
Цитата(p2004r @ 8.06.2013 - 15:34)

вы взвешиваете каждый окорочек в партии?
Да. Из всего объема продукции отбирается контрольная партия и промеряется. Для того чтобы посчитать границы доли по-другому не получится.
Есть какие-то более другие идеи и методы?
DrgLena
10.06.2013 - 11:30
?Масса окорочка зависит от массы целой курицы. И зависимость эта регрессионная?.
Так найдите эту зависимость и пользуйтесь ею. Для такого эксперимента не нужно брать разрешение этического комитета, куры уже in vitro. Взвесьте курицу и каждый ее окорочек. Узнаете, как точно срезают, можно ведь по разному отрезать, а потому отрезайте по стандарту и взвешивайте . Получите данные для построения линейной регрессионной модели, создайте свой калькулятор, куда будете заносить вес окорочка, и получать вес курицы. Задайте нужное вам альфа и получите PL для прогноза веса курицы. В программе Statistica есть такой калькулятор в модуле регрессионный анализ.
Алекс_
10.06.2013 - 12:20
Цитата(DrgLena @ 10.06.2013 - 12:30)

?Масса окорочка зависит от массы целой курицы. И зависимость эта регрессионная?.
Так найдите эту зависимость и пользуйтесь ею. Для такого эксперимента не нужно брать разрешение этического комитета, куры уже in vitro. Взвесьте курицу и каждый ее окорочек. Узнаете, как точно срезают, можно ведь по разному отрезать, а потому отрезайте по стандарту и взвешивайте . Получите данные для построения линейной регрессионной модели, создайте свой калькулятор, куда будете заносить вес окорочка, и получать вес курицы. Задайте нужное вам альфа и получите PL для прогноза веса курицы. В программе Statistica есть такой калькулятор в модуле регрессионный анализ.
Это все просто и понятно. Одной массе окорочка может соответствовать несколько различных значений массы кур. Как более 2 кг, так и менее. Как с этим быть?
DrgLena
10.06.2013 - 17:56
Не несколько, а конкретный диапазон, который вам и нужно определить. Если в этом диапазоне есть значения менее 2 кг, то с определенной вероятностью окорочек от такой курочки. Вам нужно определить не доверительные границы доли, как вы написали в названии поста, а границы курицы, от которой он получен, могу ошибаться в курицах
p2004r
10.06.2013 - 21:52
Цитата(Алекс_ @ 10.06.2013 - 07:40)

Да. Из всего объема продукции отбирается контрольная партия и промеряется. Для того чтобы посчитать границы доли по-другому не получится.
Есть какие-то более другие идеи и методы?
во всех промеренных окорочках контрольной партии как я понял может быть некая неоднородность в виде некондиционно малых курах?
надо просто найти экстремальные значения (одним из методов), если доля экстремальных значений существенна, то партия некондиционна. в Вашем случае вообще все просто, размер известен заранее. если неизвестен, то надо строить распределение размера кур, размера окорочков получающихся. определять границы. в принципе тут есть серая зона когда вроде курица нормальная, а ноги худые
то есть надо смотреть на двумерное распределение курица-окорочёк. провести границу "по окорочкам" не тоже самое что "по курам"

.
распространение информации полученной от контрольной партии на весь объем продукции... ну тем же бутстрепом например. контрольная партия это образец распределения, генерим из него кучу раз выборкой с возвращением контрольную партию и строим доверительный интервал для "найденного" числа некондиционных окорочков. если граничное значение допустимой доли малых окорочков в доверительный интервал входит --- беспокоится нечего, это флюктуация, если не входит значит сработал сигнал --- возвращаем партию на переработку, штрафуем.
Алекс_
11.06.2013 - 15:31
Цитата(p2004r @ 10.06.2013 - 22:52)

распространение информации полученной от контрольной партии на весь объем продукции... ну тем же бутстрепом например. контрольная партия это образец распределения, генерим из него кучу раз выборкой с возвращением контрольную партию и строим доверительный интервал для "найденного" числа некондиционных окорочков. если граничное значение допустимой доли малых окорочков в доверительный интервал входит --- беспокоится нечего, это флюктуация, если не входит значит сработал сигнал --- возвращаем партию на переработку, штрафуем.
p2004r, спасибо за ответ.
Никогда не имел раньше дела с бутстрепом, но по описанию похоже на то, что нужно. Сейчас буду пробовать разбираться. Первое, что нашел в сети книгу: "Шитиков В.К., Розенберг Г.С. Рандомизация, бутстреп и методы Монте-Карло: Примеры статистического анализа данных по биологии и экологии". Вы с ней знакомы? Или можете посоветовать литературу по основам бутстрэпа?
Цитата(Алекс_ @ 11.06.2013 - 15:31)

p2004r, спасибо за ответ.
Никогда не имел раньше дела с бутстрепом, но по описанию похоже на то, что нужно. Сейчас буду пробовать разбираться. Первое, что нашел в сети книгу: "Шитиков В.К., Розенберг Г.С. Рандомизация, бутстреп и методы Монте-Карло: Примеры статистического анализа данных по биологии и экологии". Вы с ней знакомы? Или можете посоветовать литературу по основам бутстрэпа?
Шитиков и Розенберг -- норм. вполне хорошо объясняют. правда уровень математической подготовки нужен хороший. другими источниками не интересовался
p2004r
17.06.2013 - 01:01
Цитата(Алекс_ @ 11.06.2013 - 15:31)

p2004r, спасибо за ответ.
Никогда не имел раньше дела с бутстрепом, но по описанию похоже на то, что нужно. Сейчас буду пробовать разбираться. Первое, что нашел в сети книгу: "Шитиков В.К., Розенберг Г.С. Рандомизация, бутстреп и методы Монте-Карло: Примеры статистического анализа данных по биологии и экологии". Вы с ней знакомы? Или можете посоветовать литературу по основам бутстрэпа?
Сборник Эфрона можно еще почитать. Есть номер журнала Квантиль с введением в метод.