Цитата(TheThing @ 28.03.2014 - 11:17)

0. Питон + Pandas могут обрабатывать огромные массивы данных значительно быстрее и эффективнее чем R, грустно, но факт. Я привел эту солянку не из своих собственных размышлений, а после просмотра многих требований по вакансии data scientist на западе. Вы можете (и я могу) использовать только R в своей работе, этого никто не запрещает, но этого недостаточно, чтобы получить data analytics например в google, а я все таки всегда ориентировался на западные тенденции, поскольку они лет на 200 впереди наших. К тому же на западе, Вы найдете намного быстрее и более оплачиваемую работу, если Вы знаете SAS, а не R (грустно, но тоже факт). Нужна кому-то эта вакансия или не нужна - это след. вопрос, может у нас (или у Вас) в стране data scientis и так жируют..
1. R и S - это ведь не на 100% одно и тоже (хотя даже S вышел позже SAS). В своем 1 пункте я писал, что огромные институты использовали SAS и написали кучу кода, которую не будут переводить на R. Разве это не объясняет, почему люди не будут переходить на R? Вы пишите про S, но это ведь не объясняет почему люди используют SAS
2. Я также написал, что есть обходные пути обработки - можно дождаться (а можно и не дождаться) - но это все доп. пакеты, доп. функции, в SAS это работает по-умолчанию, просто разные модели хранения данных.
3. Иногда, наверное, лучше выбрать неизвестный проприетарный алгоритм от SAS, который был апробирован в течении 30 лет, чем известный open source от дяди Васи (Вы же согласны с тем, что среди 5000 пакетов есть и пакеты от Васей?

)
4. Всю и не нужно, я говорю о тенденциях, в общем, литература по SAS более качественная. Возьмите рандомную выборку того и другого и проведите анализ - это уже сделали люди (не из SAS) и пришли к выводу, что документация лучше в SAS. По своим собственным наблюдениям я тоже так считаю.
Я уважаю Вашу любовь к R (сам его очень люблю

), но Вы подаете информацию так, как-будто в R нет недостатков и это единственное, что нужно знать data scientist. Это ведь не так..
0. Никакой пандас считать быстрее лежащей в его основе библиотеки lapack не в состоянии
даже теоретически 
Безусловно есть хитрые схемы потоковых вычислений с очень хитрыми рекурсивными алгоритмами позволяющими полностью задействовать возможности кеширования данных современными процессорами и добится пиковой производительности процессора. Но это
никакого отношения к питону не имеет, весь такой код низкоуровневый, и его гораздо вероятнее написать как вставку сишного кода в R

Также могу заметить что питон и рядом не стоял с производительностью вот этого ---
http://r-statistics.livejournal.com/41800.html Вы к сожалению не прочитали ничего из моего предыдущего поста. Этим я считаю что тема "может ли R обрабатывать большие данные и делать это быстро" закрыта

Но чаще всего все упирается в забавные "техники программирования" которые большинство с неимоверным упорством использует, хотя достаточно прочитать "Введение в R" и начать жить нормальной хм... жизнью Вот наиболее спектакулярный и свежий пример
http://stackoverflow.com/questions/2908822...-operation-in-r1. SAS 1970го и SAS 2014 это тоже далеко "не одно и тоже", но вот сессия анализа в APL системе и сессия анализа в R практически неотличима
http://flibusta.net/b/156597 Прочитайте этюд с анализом "тормозного пути автомобиля"
2. Ничего не понял, "R весь состоит из пакетов, а SAS монолитный кусок" .... лучшечемгрузиныТМ?

Ну покупайте у Революшен готовое решение на базе R где всё встроено. Все равно на порядок дешевле SAS будет. Или купите за те же деньги
нормального программиста, и он Вам напишет макросы расширяющие синтаксис R для прозрачной работы именно так как Вам хочется. (хотя таких расширений, декларативно описывающих практически любой анализ, уже просто тонны существует).
3. Это уж простите
никогда не будет правдой.
4. Какие могут быть "тенденции", если пользователь не в состоянии успеть прочитать имеющийся пул литературы? Просто потому что её становится больше пока он читает то что есть ?

Литература по R это не сборник рецептов, это советы как грамотно "говорить на R". Научившись говорить человек использует язык для того чтобы описать все свои действия по анализу данных. Причем именно "описать" в отличии от императивных языков. И именно "говорить" поскольку R так же выразителен в своей предметной области. Любой алгоритм сводится в паре строк (смотрите пример выше с циклами).
По поводу "любви к R" вот мой ответ ---
http://molbiol.ru/forums/index.php?showtop...t&p=1468917