Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Логистическая регрессия в R
nastushka
сообщение 28.06.2017 - 01:29
Сообщение #1





Группа: Пользователи
Сообщений: 76
Регистрация: 27.04.2014
Пользователь №: 26375



Подскажите, пожалуйста, кто чем может)). Я делаю логистическую регрессию. Все предикторы биноминальные (0,1). Y-зависимая переменная(бинарная 0 - нет события(это хорошо), 1-есть событие(это плохо)). Дело в том, что нули к нулям, он мало мальски правильно соотносит, но 50% единиц(плохих) у него попадают к нулям(хорошим).Т.е. неверное определение. Как понять, почему так происходит и что сделать, чтобы улучшить классификацию, хотя бы до 85% точности?
Доп. инфо, я гуглила, и нашла метод Feature Selection и его реализацию в R Boruta. Выделила 6 предикторов, думала счастье рядом, сейчас построила модель, но не тут-то было, классификация такая же некачественная:((
Может что-то не то сделала?((
Что делать? (с)(Чернышевский Н.Г.)
Прикрепленные файлы
Прикрепленный файл  data.zip ( 5,13 килобайт ) Кол-во скачиваний: 333
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nastushka
сообщение 30.06.2017 - 18:23
Сообщение #2





Группа: Пользователи
Сообщений: 76
Регистрация: 27.04.2014
Пользователь №: 26375



фух) я запарилась в ручную это перебирать)) p2004r, а нельзя ли R заставить это ужасную монотонную работу автоматизировать, пока у меня голова не взорвалась?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 30.06.2017 - 23:53
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nastushka @ 30.06.2017 - 18:23) *
фух) я запарилась в ручную это перебирать)) p2004r, а нельзя ли R заставить это ужасную монотонную работу автоматизировать, пока у меня голова не взорвалась?


зачем вручную?

Вот номера первых десяти уникальных + условие Y == 0

Код
> unique(do.call(paste0,as.list(df[,-1])))[1:10]
[1] "0000000000010000" "0000000000001000" "1000000000110000" "0000000000110000"
[5] "0000000000100000" "0000000000011000" "0000000000111000" "0000000000000000"
[9] "0000000000011011" "0000000000101000"


> do.call(c, lapply(unique(do.call(paste0,as.list(df[,-1])))[1:10], function(m) which(do.call(paste0,as.list(df[,-1]))== m & df$Y == "0")))
  [1]  660  665  698  701  711  712  762  785  800  817  827  848  855  857  858
[16]  860  862  863  892  974 1018 1026 1051 1055 1069 1070 1151 1152 1194 1198
[31] 1199 1228 1237 1266 1269 1278 1279 1280 1281 1286 1305 1341 1356 1357 1374
[46] 1377 1378 1379 1386 1392 1399 1436 1444 1446 1459 1478 1479 1482 1485 1486
[61] 1489 1490 1530 1534 1565 1619 1636 1647 1654 1656 1667 1669 1670 1684 1685
[76] 1687 1691 1696 1703 1719 1724 1731 1732 1736 1745 1752 1769 1774 1786 1790
[91] 1794 1800 1806 1809 1822 1824 1828 1834 1835 1836 1837 1838 1843 1846 1869
[106] 1871 1874 1875 1877 1881 1890 1891 1894 1897 1898 1899 1902 1907 1918 1920
[121] 1922 1923 1928 1929 1936 1942 1945 1946 1948 1949 1953 1955 1958 1961 1979
[136] 1980 1989 1992 1994 1999 2004 2009 2032 2033 2037 2052  685  795  868 1004
[151] 1206 1481 1509 1535 1564 1646 1649 1658 1668 1728 1744 1865 1896 1993  690
[166]  713  715  738  833  870  900  960  972 1079 1111 1162 1250 1447 1524 1604
[181] 1622 1813 1903 1969 2024 2085 2107 2125 2129  702  761  773  851  859  871
[196]  872  884  937  957  977  979  997 1031 1035 1050 1109 1144 1182 1196 1221
[211] 1262 1263 1267 1271 1273 1275 1276 1277 1328 1334 1351 1362 1365 1380 1393
[226] 1395 1406 1407 1410 1425 1426 1437 1457 1472 1543 1567 1612 1613 1639 1682
[241] 1697 1709 1766 1777 1783 1787 1791 1808 1819 1839 1857 1860 1880 1887 1895
[256] 1912 1930 1963 2005 2030 2036 2043 2051 2105  704  844  924  951 1121 1232
[271] 1236 1385 1453 1458 1474 1560 1598 1742 1882 2022 2050  705  772  846  847
[286]  889  987  989 1023 1034 1089 1090 1127 1128 1129 1130 1153 1180 1202 1220
[301] 1230 1264 1265 1270 1401 1433 1445 1483 1585 1587 1595 1597 1638 1650 1653
[316] 1657 1666 1676 1681 1698 1701 1705 1706 1708 1722 1723 1733 1735 1749 1750
[331] 1751 1763 1764 1772 1773 1782 1789 1793 1798 1801 1807 1818 1847 1855 1861
[346] 1864 1867 1868 1872 1884 1886 1900 1908 1909 1917 1934 1951 1967 1977 1981
[361] 1988 1991 2001 2007 2008 2012 2031 2057 2120  706  777  874  890 1036 1056
[376] 1117 1133 1168 1197 1213 1332 1396 1397 1443 1521 1527 1586 1629 1641 1642
[391] 1675 1692 1707 1710 1716 1762 1815 1820 1823 1842 1859 1873 1910 1916 1919
[406] 1943 1959 1982 1996 2093 2103 2110 2163  778  852 1149 1150 1219 1231 1259
[421] 1307 1373 1375 1382 1413 1611 1643 1652 1683 1720 1743 1746 1770 1776 1784
[436] 1785 1814 1854 1889 1893 1914 1933 1947 1960 1962 1978 2000 2011 2018  780
[451]  796  895  897 1158 1249 1451 1466 1491 1635 1702 1721 1737 1797 1802 1821
[466] 1888 1913 1964 1990 2002 2014 2035  744  792  941  943 1126 1268 1317 1686
[481] 1844 1940 1957


Можно просто вектор нужных значений подставить и получить номера.

удалить их просто "данные[-номера, ]"


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- nastushka   Логистическая регрессия в R   28.06.2017 - 01:29
- - p2004r   Цитата(nastushka @ 28.06.2017 - 01:2...   28.06.2017 - 08:07
- - leo_biostat   Цитата(nastushka @ 28.06.2017 - 01:2...   28.06.2017 - 08:34
|- - Олег Кравец   Цитата(leo_biostat @ 28.06.2017 - 08...   28.06.2017 - 18:32
- - p2004r   Цитата(nastushka @ 28.06.2017 - 01:2...   28.06.2017 - 18:40
- - p2004r   Цитата(nastushka @ 28.06.2017 - 01:2...   28.06.2017 - 19:46
- - nastushka   p2004r, суперски leo_biostat, а можете как и p2004...   28.06.2017 - 20:39
|- - p2004r   Цитата(nastushka @ 28.06.2017 - 20:3...   28.06.2017 - 23:14
- - nastushka   Что касается данных, то такие переменные как: x3 x...   28.06.2017 - 21:23
|- - nokh   Цитата(nastushka @ 29.06.2017 - 00:2...   28.06.2017 - 22:38
- - nastushka   nokh, а как это сделать?)) Имеете ввиду регрессию ...   29.06.2017 - 11:46
- - nastushka   манагер одобрил удалять совпадающие наблюдения Под...   29.06.2017 - 18:01
|- - p2004r   Цитата(nastushka @ 29.06.2017 - 18:0...   29.06.2017 - 19:49
- - nastushka   фух) я запарилась в ручную это перебирать)) p2004r...   30.06.2017 - 18:23
|- - p2004r   Цитата(nastushka @ 30.06.2017 - 18:2...   30.06.2017 - 23:53
- - nastushka   p2004r смотрите, у меня родилась мысль вот резуль...   2.07.2017 - 15:21
|- - p2004r   Цитата(nastushka @ 2.07.2017 - 15:21...   2.07.2017 - 15:42
- - nastushka   p2004r, у меня все получилось:) Но возник такой в...   2.07.2017 - 20:54
|- - p2004r   Цитата(nastushka @ 2.07.2017 - 20:54...   3.07.2017 - 22:13
- - nastushka   Терпение и труд, все перетрут) Сделала, но вот гуг...   3.07.2017 - 17:25
|- - p2004r   Цитата(nastushka @ 3.07.2017 - 17:25...   3.07.2017 - 22:10
- - nastushka   К сожалению вопросы есть Кодstr(df) ...   4.07.2017 - 13:23
|- - p2004r   Цитата(nastushka @ 4.07.2017 - 13:23...   4.07.2017 - 20:18
- - nastushka   Y это isOneDay поскольку мне сдавать нужно ,я пере...   4.07.2017 - 14:54
- - nastushka   Да, Вы правы! p2004r, последний вопрос, интерп...   5.07.2017 - 17:51
|- - p2004r   Цитата(nastushka @ 5.07.2017 - 17:51...   5.07.2017 - 21:33
- - nastushka   с RoC получилось разобраться. А как мне в отчете п...   6.07.2017 - 17:15
|- - p2004r   Цитата(nastushka @ 6.07.2017 - 17:15...   8.07.2017 - 23:06
- - nastushka   p2004r, подскажите я рассчитала spec and sens как ...   12.07.2017 - 15:08
- - nastushka   spec=0,06,sens=0.94   12.07.2017 - 15:12
|- - p2004r   Цитата(nastushka @ 12.07.2017 - 15:1...   12.07.2017 - 18:49
- - nastushka   И такой вопросик data(ROCR.simple) threshold1 ...   12.07.2017 - 18:34
|- - p2004r   Цитата(nastushka @ 12.07.2017 - 18:3...   12.07.2017 - 18:43
- - nokh   Похоже мой ответ на письмо в личку не дошёл, дубли...   12.07.2017 - 18:35
|- - p2004r   Цитата(nokh @ 12.07.2017 - 18:35) По...   12.07.2017 - 18:41
- - nastushka   не-не он дошел, только что прочла:)))   12.07.2017 - 18:36
- - nastushka   поняла   12.07.2017 - 18:56
- - nastushka   я просто так считала   12.07.2017 - 18:59
- - nastushka   sensetivity=tp/(tp+fn) доля верных предсказаний п...   12.07.2017 - 19:00
- - DrgLena   spe=1-0,06=0,94   12.07.2017 - 19:24
- - nastushka   вы имеете ввиду, что 0,06 это чувствительность?   12.07.2017 - 19:46
|- - 100$   Цитата(nastushka @ 12.07.2017 - 19:4...   12.07.2017 - 20:35
- - DrgLena   Нет, вы привели таблицу из которой можно посчитат...   12.07.2017 - 20:37
- - nastushka   все поняла ошибку.   12.07.2017 - 20:45
- - nastushka   p2004r, здравствуйте, решила написать в своем же т...   5.08.2017 - 17:10
|- - p2004r   Цитата(nastushka @ 5.08.2017 - 17:10...   6.08.2017 - 14:29
- - nastushka   у меня AUc=0.55, в R считала, неужели мне никак мо...   6.08.2017 - 14:57
|- - p2004r   Цитата(nastushka @ 6.08.2017 - 14:57...   6.08.2017 - 16:39
- - nastushka   Кстати точно, попробую, прологарифмировать. Подска...   6.08.2017 - 17:53
|- - p2004r   Цитата(nastushka @ 6.08.2017 - 17:53...   6.08.2017 - 20:19
- - nastushka   p2004r, подскажите, пожалуйста, а как мне нарисова...   8.08.2017 - 11:45
|- - p2004r   Цитата(nastushka @ 8.08.2017 - 11:45...   8.08.2017 - 19:08
- - nastushka   p2004r, Ваше мнение, как Вы считаете имеет ли мест...   9.08.2017 - 15:43
|- - p2004r   Цитата(nastushka @ 9.08.2017 - 15:43...   10.08.2017 - 00:16
- - nastushka   Т.е. вы считаете, что такую верификацию из двух ме...   10.08.2017 - 11:16
|- - p2004r   Цитата(nastushka @ 10.08.2017 - 11:1...   10.08.2017 - 16:50
- - nastushka   p2004r, я пробовала работать с тремя этими пакетам...   12.08.2017 - 13:35
- - p2004r   Цитата(nastushka @ 12.08.2017 - 13:3...   14.08.2017 - 16:27


Добавить ответ в эту темуОткрыть тему