data.Science(R)

Анализ данных, машинное обучение, и визуализация в R

Контроль версий в RStudio

Контроль версий в RStudio при помощи Git

Для чего нужны системы контроля версий? Системы контроля версий (СКВ) — незаменимый инструмент для координации командной работы, который имеет множество преимуществ для работы и в сфере анализа данных. Совместное написание кода, регистрация изменений и откат к предыдущим версиям — все это стало необходимыми навыками в быстро развивающейся области науки о данных.  Что такое системы контроля версий? RStudio включает в себя встроенную поддержку Git — популярной системы управления версиями, и отлично работает в связке с Github — крупнейшим веб-сервисом для хостинга Git-репозиториев. Знакомство с GitHub становится незаменимым инструментом для любого, кто работает с данными. Это руководство поможет начать использовать СКВ в связке RStudio, Git и…
READ ARTICLE
wordcloud

N-граммная модель прогнозирования слов

Рассмотрим одну из тем, входящих в состав обработки естественного языка (Natural Language Processing, NLP), — тему прогнозирования слов. Далее я представлю модели, которые присваивают вероятность каждому возможному следующему слову. Те же самые модели можно расширить, чтобы присвоить вероятность любой последовательности слов и целому предложению. Эти знания будут полезными во многих областях: Распознавание речи; коррекция правописания; машинный перевод; или, например, чтобы успешно пройти специализацию Data Sciense на Coursera. Модели, которые присваивают вероятности последовательности слов, называются языковыми моделями (Language models). Под языковыми моделями, как правило, подразумевается вероятностное распределение последовательностей слов, которое пытается предугадать, как часто данная последовательность встречается в предложении. Например, для языковой модели,…
READ ARTICLE