SlideShare una empresa de Scribd logo
Feature
Selection
2
https://www.facebook.com/cristianqp
https://www.linkedin.com/in/jonaqp/
Jonathan Quiza
Grupo trabajo
remoto y actual
4
mate
no
ingen
iero
ingen
iero
no
Brasil Consultoria
5
Feature Selection
6
Es el proceso de ordenar las
características por el valor de
alguna función de puntuación,
que generalmente mide la
relevancia de la característica.
midiendo algunos criterios de la
característica
Qué es Feature Selection?
7
Caracteristicas
Univariado
Bivariados
Multivariados
8
características Univariado
Este método examinan los efectos de la variable
independiente sobre una única variable dependiente
Pearson correlation coefficient
Quasi Constants
Fisher-score
Chi-square
Mutual Information
9
características Multvariado
Similares a los univariados, pero tienen más de una
variable dependiente.
Dimensionality reduction algorithms
Linear classifiers such as support vector machine(gbt)
Recursive feature elimination(hibridos)
10
características Multvariado
Métodos
Selección
Características
Envoltura Embebido
Filtro
11
Filtro
Se seleccionan sobre la base de sus puntuaciones en
varias pruebas estadísticas para su correlación
A menudo criticados (conjunto de características no
optimizado para el clasificador usado)
Pearson correlation
Variance threshold
Linear discriminant analysis
Anova
Chi-Square
12
Envoltura
Se basa inferencias que se extrae del modelo anterior,
decidimos agregar o eliminar características de su subconjunto.
El problema es considerar cada combinación posible esto
tomaría una gran cantidad de tiempo y cómputo.
reduce esencialmente a un problema de búsqueda. Estos
métodos suelen ser computacionalmente muy caros.
Forward Selection
Backward Selection
Recursive Features
13
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost
14
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost
15
ENTONCES
16
¿Se pueden descartar
automáticamente las
variables con puntaje
pequeño?
17
La respuesta es NO!
Incluso las variables con puntaje
pequeño pueden mejorar la
separación de clases.
18
¿Puede una variable inútil
(osea con un puntaje
pequeño) ser útil junto
con otras?
19
La respuesta es SI!
La correlación entre las variables
y el objetivo no son suficientes
para evaluar la relevancia
20
Deep Learning librerias Apache Spark
Databricks - Plataforma para ejecutar aplicaciones Spark
BigDL: la biblioteca de Intel para un aprendizaje profundo de los marcos
de datos existentes.
TensorflowOnSpark - Aprendizaje profundo distribuido de Yahoo en
clusters de Big Data
El resto:
SparkNet: el marco de AMPLab para la capacitación de redes profundas
en Spark
DeepLearning4J - Utiliza el paralelismo de datos para entrenar en redes
neuronales separadas
DeepDist - Aprendizaje profundo a la velocidad de un rayo en Spark Vía
actualizaciones de gradiente estocástico paralelo
21
Referencias
 Feature selection for Classification (IDA’97).
 An Introduction to Variable and Feature Selection
(JMLR’03).
 Feature selection for text classification Based on
Gini Coefficient of Inequality (JMLR’03).
 A comparative study on feature selection in text
categorization (ICML’97).
 Scaling Up Machine Learning.
CREDITOS
Pydata Peru
Databricks
MLflow community
Pyspark community
22
THANKS!
Alguna Pregunta?
Jony327@gmail.com
https://www.linkedin.com/in/jonaqp/
23

Más contenido relacionado

PDF
Curse of dimensionality by MC Ivan Alejando Garcia
PDF
PDF
Introduccion a Machine Learning
PDF
Pass - Algoritmos de clasificacion
PDF
Examen parcial 2
PPTX
Tipos de algoritmos del Machine Learning
PPTX
ML QSAR Congreso de Química.pptx
PDF
Pruebas de Selección para Cargos de Data Scientist
Curse of dimensionality by MC Ivan Alejando Garcia
Introduccion a Machine Learning
Pass - Algoritmos de clasificacion
Examen parcial 2
Tipos de algoritmos del Machine Learning
ML QSAR Congreso de Química.pptx
Pruebas de Selección para Cargos de Data Scientist

Similar a Feature Selection (18)

PDF
Después de discutir las ideas generales sobre clasificación
PPTX
Evaluacion de sistemas de recomendacion
PPTX
Árboles de decisión, medidas de impurezas, overfitting.pptx
PDF
Que es Datamining y su importancia el rpoceso de KDD
PDF
Introducción al ML
PDF
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
PDF
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
PDF
Clasificadores Bayesianos: De datos a Conceptos
PDF
Refinando un modelo predictivo gracias al GIS con Python
PPTX
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
PDF
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
PDF
Sistemas clasificadores
PDF
Aprendizaje de Maquina y Aplicaciones
PDF
Introducción a temas de Machine Learning
PDF
BigData 101 / Cursillo (Parte3)
PDF
Tutorial weka
PDF
Introducción al Machine Learning
PDF
Machine Learning en Dispositivos de Fusión Nuclear
Después de discutir las ideas generales sobre clasificación
Evaluacion de sistemas de recomendacion
Árboles de decisión, medidas de impurezas, overfitting.pptx
Que es Datamining y su importancia el rpoceso de KDD
Introducción al ML
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Clasificadores Bayesianos: De datos a Conceptos
Refinando un modelo predictivo gracias al GIS con Python
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Sistemas clasificadores
Aprendizaje de Maquina y Aplicaciones
Introducción a temas de Machine Learning
BigData 101 / Cursillo (Parte3)
Tutorial weka
Introducción al Machine Learning
Machine Learning en Dispositivos de Fusión Nuclear
Publicidad

Último (20)

PPTX
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
PDF
Mapa mental de cultura social Historia Economica
PDF
Posiciones de EUA en el ranking de los países por IDH ajustado por desigualda...
PPTX
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
PDF
JsjsjskkskskskskskksjskwiwUltradiano.pdf.pdf
PPTX
DICTÁMENES MÉDICO-PSIQUIÁTRICOS Y PSICOLÓGICOS FORENSES 6.pptx
PDF
Proyecto Bootcamp - Entregables y Documentación.pdf
PPTX
DIAPOSITIVA DE TEORIA CRITICA EN EDUCACION - RAMOS ALANIA ANA MARIA.pptx
PDF
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
PPTX
Las buenas costumbres en la familiaaaaaaa
PDF
HIS. UNI R03 - CLAVES.pdfG05 HIS.UNI- MUNI.pdf
PDF
Estrategia de apoyo realizada por juan pablo
PDF
Manual de presentacion de la aplicacion Plugbot
PPTX
Diapos.pptxcscscscscscscscscscscscscscscsc
PPTX
GUERRAS INTERNACIONALES DE BOLIVIA .pptx
PPTX
D.4. Ciclos Mq While - Máximos - Mínimos.pptx
PPTX
ASTU_U3_EA_CLMR modelos del sistema turistico.pptx
PPTX
Grupo 008_Equipo 3_Evidencia 4_ATDI.pptx
PPTX
Status Proyecto CIVIX INTELIGENCIA ARTIFICIAL
PPTX
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
Mapa mental de cultura social Historia Economica
Posiciones de EUA en el ranking de los países por IDH ajustado por desigualda...
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
JsjsjskkskskskskskksjskwiwUltradiano.pdf.pdf
DICTÁMENES MÉDICO-PSIQUIÁTRICOS Y PSICOLÓGICOS FORENSES 6.pptx
Proyecto Bootcamp - Entregables y Documentación.pdf
DIAPOSITIVA DE TEORIA CRITICA EN EDUCACION - RAMOS ALANIA ANA MARIA.pptx
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
Las buenas costumbres en la familiaaaaaaa
HIS. UNI R03 - CLAVES.pdfG05 HIS.UNI- MUNI.pdf
Estrategia de apoyo realizada por juan pablo
Manual de presentacion de la aplicacion Plugbot
Diapos.pptxcscscscscscscscscscscscscscscsc
GUERRAS INTERNACIONALES DE BOLIVIA .pptx
D.4. Ciclos Mq While - Máximos - Mínimos.pptx
ASTU_U3_EA_CLMR modelos del sistema turistico.pptx
Grupo 008_Equipo 3_Evidencia 4_ATDI.pptx
Status Proyecto CIVIX INTELIGENCIA ARTIFICIAL
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
Publicidad

Feature Selection