SlideShare una empresa de Scribd logo
Línea de
pensamiento
Elegimos la
tabla de donde
están los
datos...
...y con ellos...
...elegimos las
columnas que
vamos a
utilizar...
...y con ellos...
...filtramos
aquellos valores
que nos
interesan...
...y con ellos...
...creamos
nuevas
columnas...
...y con ellos...
...agrupamos
según nuestros
intereses...
...y con ellos...
resumimos los
datos
Código
Nombre
dataframe o
datatable
%>%
select(Nombres
Columnas)
%>%
filter(Nombre
Columnas y
Condición)
%>%
mutate(Nombre
nuevo campo =
Cálculo del
campo)
%>%
group_by(Nombre
Columnas por
cuyos valores se
quiere agrupar)
%>%
summarise(Nombre de las
cabecerasque se
mostrarán=Función quese
aplicará)
Ejemplo
Infoadex
%>%
select(MARCA_DIRECTA,INS,INV_EST
_IAD_EUROS,OCUPACION)
%>%
filter(INV_EST_IAD_EUROS>100)
%>%
mutate(COSTExINSERCION=
(INV_EST_IAD_EUROS/INS))
%>%
group_by(MARCA_DIRECTA)
%>%
summarise(Media_Inversion=mean(I
NV_EST_IAD_EUROS),Maximo_Coste
Insercion=max(COSTExINSERCION))
Manejodedatoscon
CheatSheet
byPedroHerreroPetisco
dplyr
Funciones más usadas para:
mutate summarise
first
• Primer valor de un vector
last
• Último valor de un vector
nth
• N-esimo valor de un vector
n()
• Valores de un vector
n_distinct
• Valores distintos de un sector
Funciones
de R base
Funciones
de dplyr
row_number
• Numera las filas
dense_rank
• Ranking de la variable
lead
• Copia los valores de una columna en la nueva moviéndolos una fila hacia arriba
lag
• Copia los valores de una columna en la nueva moviéndolos una fila hacia abajo
Operadores aritméticos
• + Suma; - Resta; *  Multiplicación; ^  Exponenciación; /  División; %% Resto
Operadores de comparación
• ==  Igual; !=Distinto; >  Mayor que; <  Menor que; >=  Mayor o igual; <=  Menor o igual
Operadores lógicos
• &  Y; |  O; !  No
mean
• Media
median
• Mediana
var
• Varianza
sd
• Desviación típica
sum
• Suma de los valores de un vector
max
• Valor máximo de un vector
min
• Valor mínimo de un vector
select
contains
• Selecciona las columnas que contiene una cadena de caracteres
ends_with
• Selecciona las columnas que terminan con una cadena de caracteres
starts_with
• Selecciona las columnas que empiezan con una cadena de caracteres
Ejemplo de uso
mutate
• Datos %>% mutate(PosicionMasUno=lag(Posicion)))
select
• Datos %>% select(contains(“Cabecera”))
summarise
• Datos %>% summarise(median(Cabecera))
Otros comandos del paquete dplyr:
distinct()
• Elimina las filas duplicadas
slice(a:b)
• Elije filas entre a y b
sample_n(n)
• Extrae una muestra aleatoria de n filas
Select(Columna_n;everything())
• Reordena las columnas
Datos%>%distinct()
• Si se quieren quitar las duplicaciones en base a una columna poner Datos%>%distinct(NombreColumna)
Datos%>%slice(10:20)
• Selecciona las filas de la 10 a la 20
Datos%>%sample_n(4)
• Extrae 4 filas aleatoriamente
Datos%>%select(Columna_n,Columna_d,everything())
• Ordena las columnas poniendo primero la Columna_n, después la Columna_d y después el resto de columnas
Manejodedatoscon
CheatSheet
byPedroHerreroPetisco
dplyr

Más contenido relacionado

PDF
MODELADO RUP UML
PPT
Strings Y Archivos En Lab View
PPTX
Cliente servidor
DOCX
Trabajo final uml_200609_19
PDF
Casos de éxito de TSP en México
PPTX
Graficas en matlab
PPTX
Ejercicios E-R con Erwin Data Modeler
DOCX
Taller laboratorio UML
MODELADO RUP UML
Strings Y Archivos En Lab View
Cliente servidor
Trabajo final uml_200609_19
Casos de éxito de TSP en México
Graficas en matlab
Ejercicios E-R con Erwin Data Modeler
Taller laboratorio UML

La actualidad más candente (20)

PPT
SIREN - Jornadas de Ingeniería de Requisitos Aplicada
PDF
Introduction to Robotics Analysis, Control, Applications (Saeed B. Niku) (Z-L...
PDF
Automatas y compiladores clase1
PDF
Diseño y Análisis de una Plataforma e-Commerce
PDF
Plantación de la Capacidad .pdf
PPTX
Calculo relacional
PDF
Doc 5 plan de configuración de software ieee-828 (cm)-01
TXT
Serie Fibonacci en C
ODP
Extreme Programming-Fases
PPTX
Matriz jacobiana inversa
DOCX
Ejercicios en clase Unidad II
DOCX
Ingeniería de requisitos
PDF
Tema N° 11 Lenguaje de Representación (UML y URN)
PDF
Scanner 3 d
PDF
2.3 fases de cobit
PPTX
Teoria de Colas
DOCX
5to laboratorio
PPTX
Diapositivas arquitectura registros
DOCX
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
PDF
Programacion concurrente
SIREN - Jornadas de Ingeniería de Requisitos Aplicada
Introduction to Robotics Analysis, Control, Applications (Saeed B. Niku) (Z-L...
Automatas y compiladores clase1
Diseño y Análisis de una Plataforma e-Commerce
Plantación de la Capacidad .pdf
Calculo relacional
Doc 5 plan de configuración de software ieee-828 (cm)-01
Serie Fibonacci en C
Extreme Programming-Fases
Matriz jacobiana inversa
Ejercicios en clase Unidad II
Ingeniería de requisitos
Tema N° 11 Lenguaje de Representación (UML y URN)
Scanner 3 d
2.3 fases de cobit
Teoria de Colas
5to laboratorio
Diapositivas arquitectura registros
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Programacion concurrente
Publicidad

Similar a CheatSheet manejo de datos con dplyr en R (20)

PPTX
Funciones de numeros complejos
PPT
эспадрилья чашаэспадрилья чашаэспадрилья чаша
PDF
Examen Parcial 2
PPTX
DOC
Manual Matlab 2008
PPT
Bases De Datos My Sql
PPTX
Arreglos Java
PPTX
Unidad III
PDF
012 capitulo 12 eda
PDF
Comandos mysql
PPTX
Excel Estadistico-Funciones estadisticas
PPTX
Aplicaciones informaticas
PPT
Informatica
PDF
Tt es dec03_paula1
PDF
Tt es dec03_paula1
PPTX
PDF
Comandos en consola de mysql desde el portal
PDF
comandos-mysql.pdf
PPTX
Material Clase BDD: Diseño de una Base de Datos
Funciones de numeros complejos
эспадрилья чашаэспадрилья чашаэспадрилья чаша
Examen Parcial 2
Manual Matlab 2008
Bases De Datos My Sql
Arreglos Java
Unidad III
012 capitulo 12 eda
Comandos mysql
Excel Estadistico-Funciones estadisticas
Aplicaciones informaticas
Informatica
Tt es dec03_paula1
Tt es dec03_paula1
Comandos en consola de mysql desde el portal
comandos-mysql.pdf
Material Clase BDD: Diseño de una Base de Datos
Publicidad

Último (20)

PPTX
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
DOCX
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
PPT
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
PDF
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
PPT
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
PPTX
Precio optimo de venta para un emprendimiento familiar
PDF
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
PDF
2425_s9_1_Bitacora_para_la_reflexion.pdf
PDF
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
PPTX
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
PDF
6°-Básico-Matemática-Diagrama-de-tallo-y-hoja_y_probabilidades.pdf
PPTX
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
PDF
Presentacion Gestion de Recursos DIA 1.pdf
PPTX
Las buenas costumbres en la familiaaaaaaa
PPTX
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
PPTX
Introducción al analisis de datos con Power bi
PDF
Mapa mental.pdf esquema de realización en general
PPTX
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
PPTX
Status Proyecto CIVIX INTELIGENCIA ARTIFICIAL
PPTX
Presentacion Capacitacion RC y RG (5).pptx
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
Precio optimo de venta para un emprendimiento familiar
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
2425_s9_1_Bitacora_para_la_reflexion.pdf
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
6°-Básico-Matemática-Diagrama-de-tallo-y-hoja_y_probabilidades.pdf
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
Presentacion Gestion de Recursos DIA 1.pdf
Las buenas costumbres en la familiaaaaaaa
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
Introducción al analisis de datos con Power bi
Mapa mental.pdf esquema de realización en general
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
Status Proyecto CIVIX INTELIGENCIA ARTIFICIAL
Presentacion Capacitacion RC y RG (5).pptx

CheatSheet manejo de datos con dplyr en R

  • 1. Línea de pensamiento Elegimos la tabla de donde están los datos... ...y con ellos... ...elegimos las columnas que vamos a utilizar... ...y con ellos... ...filtramos aquellos valores que nos interesan... ...y con ellos... ...creamos nuevas columnas... ...y con ellos... ...agrupamos según nuestros intereses... ...y con ellos... resumimos los datos Código Nombre dataframe o datatable %>% select(Nombres Columnas) %>% filter(Nombre Columnas y Condición) %>% mutate(Nombre nuevo campo = Cálculo del campo) %>% group_by(Nombre Columnas por cuyos valores se quiere agrupar) %>% summarise(Nombre de las cabecerasque se mostrarán=Función quese aplicará) Ejemplo Infoadex %>% select(MARCA_DIRECTA,INS,INV_EST _IAD_EUROS,OCUPACION) %>% filter(INV_EST_IAD_EUROS>100) %>% mutate(COSTExINSERCION= (INV_EST_IAD_EUROS/INS)) %>% group_by(MARCA_DIRECTA) %>% summarise(Media_Inversion=mean(I NV_EST_IAD_EUROS),Maximo_Coste Insercion=max(COSTExINSERCION)) Manejodedatoscon CheatSheet byPedroHerreroPetisco dplyr
  • 2. Funciones más usadas para: mutate summarise first • Primer valor de un vector last • Último valor de un vector nth • N-esimo valor de un vector n() • Valores de un vector n_distinct • Valores distintos de un sector Funciones de R base Funciones de dplyr row_number • Numera las filas dense_rank • Ranking de la variable lead • Copia los valores de una columna en la nueva moviéndolos una fila hacia arriba lag • Copia los valores de una columna en la nueva moviéndolos una fila hacia abajo Operadores aritméticos • + Suma; - Resta; *  Multiplicación; ^  Exponenciación; /  División; %% Resto Operadores de comparación • ==  Igual; !=Distinto; >  Mayor que; <  Menor que; >=  Mayor o igual; <=  Menor o igual Operadores lógicos • &  Y; |  O; !  No mean • Media median • Mediana var • Varianza sd • Desviación típica sum • Suma de los valores de un vector max • Valor máximo de un vector min • Valor mínimo de un vector select contains • Selecciona las columnas que contiene una cadena de caracteres ends_with • Selecciona las columnas que terminan con una cadena de caracteres starts_with • Selecciona las columnas que empiezan con una cadena de caracteres Ejemplo de uso mutate • Datos %>% mutate(PosicionMasUno=lag(Posicion))) select • Datos %>% select(contains(“Cabecera”)) summarise • Datos %>% summarise(median(Cabecera)) Otros comandos del paquete dplyr: distinct() • Elimina las filas duplicadas slice(a:b) • Elije filas entre a y b sample_n(n) • Extrae una muestra aleatoria de n filas Select(Columna_n;everything()) • Reordena las columnas Datos%>%distinct() • Si se quieren quitar las duplicaciones en base a una columna poner Datos%>%distinct(NombreColumna) Datos%>%slice(10:20) • Selecciona las filas de la 10 a la 20 Datos%>%sample_n(4) • Extrae 4 filas aleatoriamente Datos%>%select(Columna_n,Columna_d,everything()) • Ordena las columnas poniendo primero la Columna_n, después la Columna_d y después el resto de columnas Manejodedatoscon CheatSheet byPedroHerreroPetisco dplyr