data.Science(R)

Анализ данных, машинное обучение, и визуализация в R

Выгрузка в Word

Расширенное форматирование таблиц для выгрузки в Word

Несмотря на растущую популярность Open Source и онлайн приложений вроде Google Docs, выгрузка табличных данных в формат Microsoft Word остаётся не менее востребованной. В экосистеме R предусмотренны различные варианты интеграции с Word, каждый со своими ограничениями. Использование связки Rmarkdown и knitr для выгрузки в формат docx могло бы помочь, если…
Читать
ggplot2 руководство

ggplot2 — руководство по пакету

Что такое ggplot2? ggplot2 — популярный графический пакет, полноценная и законченная система, наследующая идеи "Графической грамматики" (Grammar of Graphics, отсюда в названии gg). Основная идея такова: составляйте график слой за слоем как кирпичик за кирпичиком и комбинируйте их, чтобы получить желаемый вид графического отображения. Основные строительные блоки таковы: Данные Визуальная…
Читать
Контроль версий в RStudio

Контроль версий в RStudio при помощи Git

Для чего нужны системы контроля версий? Системы контроля версий (СКВ) — незаменимый инструмент для координации командной работы, который имеет множество преимуществ для работы и в сфере анализа данных. Совместное написание кода, регистрация изменений и откат к предыдущим версиям — все это стало необходимыми навыками в быстро развивающейся области науки о данных.  Что такое системы…
Читать
wordcloud

N-граммная модель прогнозирования слов

Рассмотрим одну из тем, входящих в состав обработки естественного языка (Natural Language Processing, NLP), — тему прогнозирования слов. Далее я представлю модели, которые присваивают вероятность каждому возможному следующему слову. Те же самые модели можно расширить, чтобы присвоить вероятность любой последовательности слов и целому предложению. Эти знания будут полезными во многих областях: Распознавание…
Читать