data.Science(R)

Анализ данных, машинное обучение, и визуализация в R

Выгрузка в Word

Расширенное форматирование таблиц для выгрузки в Word

Несмотря на растущую популярность Open Source и онлайн приложений вроде Google Docs, выгрузка табличных данных в формат Microsoft Word остаётся не менее востребованной. В экосистеме R предусмотренны различные варианты интеграции с Word, каждый со своими ограничениями. Использование связки Rmarkdown и knitr для выгрузки в формат docx могло бы помочь, если бы не ограниченные базовые возможности R, которые предлагают весьма бедный инструментарий для редактирования внешнего вида таблицы. В R вы можете преобразовывать данные каким угодно образом: агрегировать столбцы и строки, выделять подгруппы, менять названия переменных и их порядок. Но, как только дело доходит до форматирования, — базовые возможности R ни в…
READ ARTICLE
ggplot2 руководство

ggplot2 — руководство по пакету

Что такое ggplot2? ggplot2 — популярный графический пакет, полноценная и законченная система, наследующая идеи "Графической грамматики" (Grammar of Graphics, отсюда в названии gg). Основная идея такова: составляйте график слой за слоем как кирпичик за кирпичиком и комбинируйте их, чтобы получить желаемый вид графического отображения. Основные строительные блоки таковы: Данные Визуальная схема Геометрический объект Статистическая трансформация Шкалы Система координат Регулировка позиции Панели Инсталляция и подготовка Данные необходимо поместить в текущий рабочий каталог. Мы будем использовать открытую базу пищевой ценности продуктов сети ресторанов McDonalds. Руководство предполагает базовый опыт работы в R. [crayon-5a163e689069c412579531/] Стурктура [crayon-5a163e68906a7574194414-i/] Функция [crayon-5a163e68906ac955713715-i/]  используется чтобы инициализировать базовую структуру графика,…
READ ARTICLE
Контроль версий в RStudio

Контроль версий в RStudio при помощи Git

Для чего нужны системы контроля версий? Системы контроля версий (СКВ) — незаменимый инструмент для координации командной работы, который имеет множество преимуществ для работы и в сфере анализа данных. Совместное написание кода, регистрация изменений и откат к предыдущим версиям — все это стало необходимыми навыками в быстро развивающейся области науки о данных.  Что такое системы контроля версий? RStudio включает в себя встроенную поддержку Git — популярной системы управления версиями, и отлично работает в связке с Github — крупнейшим веб-сервисом для хостинга Git-репозиториев. Знакомство с GitHub становится незаменимым инструментом для любого, кто работает с данными. Это руководство поможет начать использовать СКВ в связке RStudio, Git и…
READ ARTICLE
wordcloud

N-граммная модель прогнозирования слов

Рассмотрим одну из тем, входящих в состав обработки естественного языка (Natural Language Processing, NLP), — тему прогнозирования слов. Далее я представлю модели, которые присваивают вероятность каждому возможному следующему слову. Те же самые модели можно расширить, чтобы присвоить вероятность любой последовательности слов и целому предложению. Эти знания будут полезными во многих областях: Распознавание речи; коррекция правописания; машинный перевод; или, например, чтобы успешно пройти специализацию Data Sciense на Coursera. Модели, которые присваивают вероятности последовательности слов, называются языковыми моделями (Language models). Под языковыми моделями, как правило, подразумевается вероятностное распределение последовательностей слов, которое пытается предугадать, как часто данная последовательность встречается в предложении. Например, для языковой модели,…
READ ARTICLE