MODULO EDUCATIVO DEL CURSO
DE MÉTODOS ESTADÍSTICOS
Autor: Msc. César A. Zatta Silva
Universidad Señor de Sipan
2011-I
INTRODUCCIÓN
Las acciones que acometemos hoy
se basan en un plan de ayer y
las expectativas del mañana.
Para satisfacer las necesidades de conocimiento sobre los Métodos Estadísticos, se
ha diseñado este módulo teniendo en consideración los objetivos señalados en las
competencias, capacidades y actitudes que el alumno debe alcanzar en este curso.
Se contempla en este curso que los estudiantes conozcan el origen de la palabra
estadística, las técnicas de recolección, organización, conservación, y tratamiento
de los datos para su análisis y posterior interpretación de la información.
En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que
partiendo de observaciones muestrales o históricas, crean modelos lógico-
matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno
con cierto grado de certidumbre medible.
El avance tecnológico en la informática ha contribuido enormemente al desarrollo
de la estadística, sobre todo en la manipulación de la información, pues en el
mercado existen paquetes estadísticos de excelente calidad como el SPSS y MS
Excel que ya existe en el computador sin mayores exigencias técnicas,
Contenido
Semana 1 Introducción, reseña histórica, contenidos. Objetivos. Definición de Estadística.
Conceptos básicos importantes. Importancia y objeto de la estadística. Elementos
básicos: Población, muestra, variable, unidad de estudio, parámetro. Clasificación de las
variables.
Semana 2 Organización y presentación de los datos. Tablas de distribución de frecuencias.
Tipos de tablas estadísticas. Procesamiento de datos en cuadros y gráficos estadísticos.
Semana 3 Métodos Estadísticos en la investigación, etapas de la investigación estadística:
Planeamiento, organización, análisis e interpretación de datos, formulación de
conclusiones. Técnicas de recolección de datos, observación, entrevista, cuestionario,
encuestas por muestreo, sistemas de recolección.
Semana 4 Medidas de Tendencia Central: Media Aritmética. Media Ponderada. Mediana.
Moda. Medidas de Posición: Cuartiles. Deciles y Percentiles.
Semana 5 Medidas de Dispersión. Descripción de las medidas de dispersión: Rango,
Desviación y Varianza para datos simples y agrupados, Coeficiente de Variación
Semana 6 Introducción al Cálculo de Probabilidades. Experimento aleatorio, espacio
muestral, suceso o evento. Definición de Probabilidad Clásica, Probabilidad de
Frecuencia Relativa, Probabilidad Subjetiva. Combinación, Variación, Permutación.
Semana 7 Probabilidad de un evento. Teorema de la adición y de la complementación. Reglas
de multiplicación y de probabilidad total. Probabilidad Condicional. Teorema de Bayes.
Semana 8 Variables aleatorias. Función de probabilidad. Variables aleatorias discretas y
continuas.
Distribuciones discretas de probabilidad. Distribución Binomial y de Poisson.
Distribuciones continuas de probabilidad. Distribución Normal. Uso de Tablas
Semana 9 Primer Examen Parcial
Semana 10 Introducción a la Inferencia Estadística. Métodos y distribuciones de muestreo.
Muestreo de la población. Métodos de muestreo probabilístico. Error de muestreo.
Distribución de muestreo de medias muestrales. Tamaño de muestra.
Semana 11 Introducción a la Teoría de la estimación Estadística.Estimaciones puntuales e
Intervalos de Confianza sobre parámetros.
Semana 12 Prueba de Hipótesis, introducción, hipótesis estadísticas, pasos para una verificación de
hipótesis. Hipótesis para la media poblacional. Prueba de Hipótesis para una varianza
poblacional y una proporción poblacional.
Semana 13 Análisis de tendencia o series de tiempo. Análisis de regresión, formas de encontrar la
regresión simple. Método de los mínimos cuadrados. La tendencia lineal.
Semana 14 Correlación y desviación estándar. Tasas y Números Índices, aplicación de los números
índices.
Semana 15 Control de Calidad y Procesos Estadísticos. Aplicación de la estadística en trabajo de
Investigación. Presentación de Diagnóstico en Proyecto Integrador.
Semana 16 Segundo Examen Parcial
Semana 1
ESTADÍSTICA
La Estadística es la ciencia que nos ofrece un conjunto de métodos y técnicas para: Recolectar,
Resumir, Procesar, Presentar , Analizar e Interpretar un conjunto de datos, con la finalidad de
conocer el problema, proyectar su comportamiento y colaborar en la toma de decisiones sobre
dicho problema.
Otra definición: La estadística es una rama de las matemáticas, constituye uno de los idiomas
esenciales para comunicarse en el mundo universal de la ciencia y la tecnología. Aquellos
profesionales que no conozcan Estadística tendrán serias dificultades para ser expertos en su
respectivo campo científico.
Importancia
Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para
organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la
tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas
descriptivas.
Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por
otras personas que intervienen en la toma de decisiones
Método que sigue la Estadística
Recolectar Resumir y Ordenar Procesar
E S T A D I S T I C A
Tomar decisiones Analizar e Interpretar Presentar
Clasificación: La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la
Estadística Descriptiva y la Inferencial.
Estadística Descriptiva: Comprende a los procesos de consolidación, resumen y descripción de
los datos recopilados. Consiste sobre todo en la presentación de datos en forma de tablas y
gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para
resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir
nada que vaya más allá de los datos, como tales.
Estadística Inferencial: Incluye procedimientos que permiten la extrapolación y generalización
sobre características que tipifican a todos los elementos de la población. Es decir, la inferencia
estadística es el proceso de hacer afirmaciones o predicciones sobre toda la población tomando
como base sólo a la información recabada a través de una muestra representativa.
CONCEPTOS FUNDAMENTALES
1. POBLACIÓN: Es el conjunto de todos los datos que intervienen en una investigación.
Al número de elementos de una población se denota por “N.”
Población finita: Es el conjunto finito de unidades de análisis donde se puede identificar a
un elemento inicial y/o a un elemento final.
Ejemplo: Población de hoteles de Lima, población de agencias de viaje existentes en la
ciudad de Cajamarca, turistas de nacionalidad alemana que ingresaron al Perú en el año
2000.
Población Infinita: Conjunto infinito de elementos donde no se podría identificar a una
unidad inicial ni a la unidad final.
Ejemplo: la población de los peces del mar, los árboles de la selva peruana
2. MUESTRA: Es una parte de la población y como tal es también un conjunto de datos.
Al número de elementos de una muestra se denota por “n”.
Una muestra tiene 2 características principales: Es representativa y es adecuada.
Muestra No Probabilística: Corresponde al subconjunto de observaciones elegidas
siguiendo un criterio de representatividad establecida arbitrariamente por el investigador.
Ejm. Analizo todos los ratones que son de color blanco del total de ratones
Muestra Probabilística: Comprende a las observaciones realizadas en unidades que han
sido elegidas siguiendo un criterio probabilístico, esto es a cada unidad de la población se
asigna probabilidad conocida para estar incluida como parte de la muestra. Ejm. Sacar 2
pelotas blancas de una canasta de 8 pelotas entre blancas y negras.
3. UNIDAD DE ESTUDIO: Es el objeto o elemento indivisible que será estudiado. Es
quien nos va a dar la información.
Ejemplo: Se va a estudiar la capacidad hotelera de la ciudad de Lima, se define la unidad
de análisis “hotel”
4. VARIABLE: Es una característica de estudio de una población, que toma diferentes
valores
Las variables son características observables referidas a la unidad de estudio. Se denota
por las letras X, Y, Z, etc. Se clasifican en:
4.1 Variable cualitativa : Son aquellas variables que expresan cualidades o atributos, y
que por tanto su medida no tiene un carácter numérico, esta variables pueden ser:
Nominales Sus valores representan un atributo a manera de etiqueta y no contiene
información sobre ordenamiento. Ejm. Sexo del cliente, nacionalidad del entrevistado,
etc.
Ordinales Sus valores sí representan un ordenamiento del atributo. Ejm. Grado de
educación del entrevistado, grado de satisfacción sobre la atención recibida por el cliente,
etc.
4.2 Variable Cuantitativa: Comprende aquellos conceptos que sí pueden ser expresados
en forma numérica porque corresponde a criterios de cantidad. Pueden ser:
v. c. Discretas Son variables que toman valores que se expresan en números enteros. Es
el resultado del proceso de conteo. Ejm. Número de empleados, Número de habitaciones,
Total de alumnos, etc.
v.c. Continuas Son aquellas variables que sus cantidades se expresan con números
reales, es decir, tienen parte fraccionaria. Son el resultado del proceso de medición. Ejm.
Ingresos totales mes de julio, costo de servicio diario del hotel, toneladas embarcadas,
etc.
Ejemplos:
El alumno deberá identificar las variables para las unidades de estudio siguiente
*UNIDAD DE ESTUDIO: Estudiante
Variables: Peso, edad, talla, tipo de sangre, color de ojos, ingreso familiar, número de hermanos,
etc.
*UNIDAD DE ESTUDIO: Empresa
Variables: Ventas, ganancias, número de trabajadores, número de computadoras, gastos en
publicidad, etc.
Práctica Calificada Nº 01
A. Determina la población y la muestra, y la variable de los siguientes ejemplos:
1. Tiempo dedicado a las tareas domésticas por los hombres y las mujeres que trabajan fuera
del hogar en Lambayeque
2. Estudios que quieren hacer las alumnas y los alumnos del Colegio Manuel Pardo al
terminar la Educación Secundaria
3. Intención de voto en unas elecciones municipales
4. Horas que dedican a ver televisión los estudiantes de educación primaria del colegio San
José
5. Número de aparatos de radio que hay en los hogares chiclayanos
6. Se quiere realizar un estudio para determinar la cantidad promedio de huevos que ponen
los pingüinos hembras en el período reproductivo en Puerto Maldonado.
7. Se quiere determinar la audiencia de cierto programa televisivo de televisión de aire.
8. Se requiere determinar el grado de afectación que tuvo la salmonella en las gallinas
provenientes de las granjas del empresario Gonzales
9. Se quiere estimar el grado de aceptación que tiene la mermelada de carambola en la zona
oeste de Chiclayo
B. De las siguientes variables, determinar cuáles son cualitativas y cuales son cuantitativas
discretas o cuantitativas continuas
1. Precio del pollo
2. Angulo de inclinación de los puentes
3. Grado de instrucción de los postulantes
4. Color de ojos de las finalistas
5. Peso promedio de las bolsas
6. Número de taxis que ingresan por hora a Chiclayo
7. Comida favorita
8. Número de goles marcados por la selección
9. Profesión que te gusta
10. Coeficiente intelectual de tus compañeros de clase
11. El color de los ojos de tus compañeros de clase
12. Temperaturas registradas en verano
13. Número de acciones vendidas en la Bolsa de valores
14. Diámetro de las ruedas de varios coches
15. Censo anual de los españoles
16. Número de libro en un estante
17. Litros de agua contenidos en un depósito
18. La profesión de una persona
19. Suma de puntos obtenidos en un lanzamiento de dados
C. Determina lo siguiente:
CASO Nº 01:
Dentro de los estudios sociales que realiza el Dr. Pauling sobre rendimiento y características
cognoscitivas de los alumnos pertenecientes al Colegio Público San Carlos, ha llegado a
resultados inesperados.
Unidad de estudio
Variable de estudio
Población
Muestra
CASO Nº 02
Un proveedor de servicios de línea blanca desea saber cuál es la marca preferida de cocinas de
las amas de casa pertenecientes a la ciudad de Chiclayo. Para llevar a cabo esta investigación,
selecciona a 120 amas de casa que fueron escogidas según la zona de la ciudad de Chiclayo.
Unidad de estudio
Variable de estudio
Población
Muestra
CASO Nº 03
Un investigador de mercado quiere saber cuál es la marca de detergente que más se utiliza o más
prefieren las amas de casa de la ciudad de Chiclayo. Para llevar a cabo esta investigación
selecciona una muestra de 504 amas de casa que fueron escogidas según zona o urbanización de
la ciudad de Chiclayo.
Unidad de estudio Amas de casa
Variable de estudio Marca de detergente (tipo cualitativa nominal)
Población Amas de casa de la ciudad de Chiclayo
Muestra 504 amas de casa
CASO Nº 04:
El Ingeniero de Producción de Cerveza Cristal en Motupe, dentro de su evaluación diaria, desea
saber si el brix (grado de azúcar), porcentaje de alcohol, tiempo de maduración, etc, han
cumplido con las parámetros de calidad en la producción del fin de semana.
Unidad de estudio Cerveza
Variable de estudio Brix, porcentaje de alcohol, tiempo maduración
(cuantitativa)
Población Producción de cerveza del fin de semana
Muestra Producción de cerveza de un día
CASO Nº 05:
Un investigador social desea saber cuáles son las características socio demográficas que influyen
en el rendimiento académico de los Estudiantes de la Universidad Señor de Sipan, de la
especialidad de Ingeniería Agroindustrial matriculados en el 2º Semestre-Año 2006.
Unidad de estudio Estudiante
Variable de estudio Características socio demográficas
Población Estudiantes matriculados de Ing. Agroindustrial de la USS
(cualitativa)
Muestra Alumnos matriculados del 2º semestre
CASO Nº 06:
El gerente del Grifo “San Luis” ubicado en el ovalo está haciendo un estudio de factibilidad para
determinar si es conveniente la instalación de un nuevo servidor de gasolina en dicho
establecimiento. Para realizar este estudio toma información sobre el tiempo que se demora en
dar el servicio y el tiempo que demora en llegar el usuario (automóvil).
Unidad de estudio Usuario de automóvil
Variable de estudio Tiempo en dar el servicio y tiempo llegar usuario
(cuantitativa)
Población Todos los clientes del grifo
Muestra Algunos clientes del grifo
CASO Nº 07
Un investigador de mercado quiere saber cuál es la marca de jabones que más se utiliza o más
prefieren las empleadas de casa de la ciudad de Tarapoto. Para llevar a cabo esta investigación
selecciona una muestra de 610 empleadas que fueron escogidas según zona o urbanización de la
ciudad de Tarapoto.
Unidad de estudio
Variable de estudio
Población
Muestra
Semana 2
ORGANIZACIÓN DE DATOS Y DISTRIBUCIONES DE
FRECUENCIA
Frecuencia: (fi) Número de individuos o elementos que pertenecen o aparecen en cada
categoría.
1. ORGANIZACIÓN DE VARIABLES CUALITATIVAS: Comprende la representación
gráfica de conceptos cualitativos y/o atributos que se registran para las unidades de análisis.
Ejemplo:
El número de turistas que registraron su ingreso por el aeropuerto de Chiclayo el mes de
Febrero, se registra según su nacionalidad
NACIONALIDAD Número de Turistas (fi)
Argentina 20
Boliviana 10
Brasileña 5
Venezolana 15
TOTAL 50
2. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS DISCRETAS: Comprende
clasificaciones de variables que sólo toman valores enteros, por tanto las unidades de análisis se
ordenan de acuerdo con sus propios valores. Ejm:
Las puntuaciones obtenidas por los 30 alumnos del curso de Física I, fueron:
[12,11,13,13,10,10,12,12,09,09,08,14,12,11,14,14,14,10,10,14,13,13,11,11,14,13,14,13,14,12]
Se consolida la información en una Tabla de Frecuencia:
Notas
Xi
Frecuencia
Absoluta ( fi )
Frecuencia
Relativa ( hi)
Frecuencia Acumulada
Absoluta
(Fi)
Relativa
(Hi)
08 1 0.03 1 0.03
09 2 0.07 3 0.10
10 4 0.13 7 0.23
11 4 0.13 11 0.36
12 5 0.17 16 0.53
13 6 0.20 22 0.73
14 8 0.27 30 1.00
TOTAL 30 1.00
El gráfico que corresponde a esta tabla de frecuencia se denomina: Histograma
Histograma de frecuencias absolutas Histograma de frecuencias absolutas acumuladas
3. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS CONTINUAS: Comprende
clasificaciones de unidades de análisis resultantes de una medición, que en ocasiones toman
valores decimales. Ejemplo:
El Gran Hotel Chiclayo, durante los últimos 32 días, el valor de las compras en revistas y
periódicos para la sala de recepción fueron:
Esta información diaria y dispersa no permitirá analizar su comportamiento, es necesario
resumirla en una tabla de frecuencia. Para organizar una tabla de frecuencia se deberá seguir el
procedimiento siguiente:
* Elegir el número de intervalos de clase ( k )
Se puede utilizar la regla se Sturges: k = 1 + 3.322 log n
Donde:k = número de intervalos
n = número de datos
En el ejemplo: k = 1 + 3.322 Log(32) = 5.967 = Aprox. 6 intervalos
* Determinar el Tamaño del Intervalo de Clase ( c )
c = A/k
A= Amplitud de los datos = (Observación máxima – Observación Mínima) = 10.2 – 5.2 =
5.0
k = 6
Por tanto: c = 5.0 / 6 = 0.8333 = Aproximadamente = 0.9
* Realizar la clasificación y el conteo de datos en cada clase construida
* Construir la Tabla de Frecuencia
Intervalo de clase
(escala de gasto)
Marca de Clase
Xi
Frecuencia
Absoluta
fi
Frecuencia
Relativa
hi
Frec. Acumul.
Absoluta
Fi
Frec. Acumul.
Relativa
Hi
[ 5.2 – 6.1 ) 5.65 3 0.094 3 0.094
[ 6.1 – 7.0 ) 6.55 5 0.156 8 0.250
[ 7.0 – 7.9 ) 7.45 9 0.281 17 0.531
[ 7.9 – 8.8 ) 8.35 7 0.219 24 0.750
[ 8.8 – 9.7 ) 9.25 5 0.156 29 0.906
[ 9.7 – 10.6 ) 10.15 3 0.094 32 1.000
TOTAL 32 1.000
Análisis de la distribución de frecuencias:
* ¿Cuántos días el hotel gastó “de 7.0 a menos de 7.9 soles”? : 9 días
* ¿Cuántos días el hotel gastó “menos de 7.9 soles”? : 17 días
* ¿Cuántos días el hotel gastó “menos de 9.7 soles”? : 29 días
* ¿Qué porcentaje de días el hotel gastó “menos de 7.9 soles”? : 53.1%
* ¿Qué porcentaje de días el hotel gastó “más de 7.9 soles”? : 46.9 %
Polígono de Frecuencias: Es la línea que une los puntos medios de los lados superiores (marcas
de clase) de un histograma. Los puntos o vértices del polígono de frecuencias están situados, por
tanto, en las marcas de clase, ya que estos corresponden a los puntos medios de los intervalos.
Histograma y Polígono de Frecuencias
USO DE MS EXCEL
Construcción tablas tipo A en EXCEL: Para variables cualitativas y cuantitativas discretas
Color f F h H
Azul =contar.si($B$2:$H$11;B14) 21
Rojo 16
Verde 13
Negro 8
Blanco 12
Construcción tablas tipo B en EXCEL: Para variables cuantitativas continuas
Las densidades de los materiales en estudio fueron:
n = contar (celda inicio: celda final)
K = numero de intervalos, con fórmula
Xmin= Valor Mínimo = MIN (celda)
Xmax= Valor Máximo = MAX( celda)
Rango = Max – Min
C = R/K
Intervalos f
= Frecuencia (datos; grupos) B2:H8 Todos los datos
= Frecuencia (B2:H8; D22:D28) D22:D28 La columna de datos del límite superior
PRESENTACIÓN DE DATOS MEDIANTE GRÁFICOS ESTADÍSTICOS
Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se
emplean para tener una representación visual de la totalidad de la información. Los gráficos
estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente
los hechos esenciales y compararlos con otros.
TIPOS DE GRÁFICOS
Gráficos de barras verticales
Representan valores usando trazos verticales, aislados o separados unos de otros, según la
variable a graficar sea discreta o continua. Pueden usarse para comparar y representar: una serie;
dos o mas series
Gráficos de barras horizontales
Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan
cuando los textos correspondientes a cada categoría son muy extensos. Pueden usarse para una
serie, dos o más series.
Gráficos de barras proporcionales
Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos que
componen un total. Las barras pueden ser: Verticales u Horizontales
Gráficos de líneas
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales
entre sí. Estos gráficos se utilizan para representar valores con grandes incrementos entre sí. Se
pueden usar para representar una serie, dos o más series.
Gráficos circulares
Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en
forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor
valor, según lo que se desee destacar. Pueden ser: En dos dimensiones o tres dimensiones
Gráficos de Áreas
En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un
período de tiempo. Pueden ser para representar una, dos o más series; en dos dimensiones o en tres
dimensiones.
PRACTICA CALIFICADA Nº 02
USANDO EL PAQUETE O SOFTWARE RESPECTIVO, RESOLVER LOS SIGUIENTES EJERCICIOS
1. ¿Qué es frecuencia absoluta?
2. Cómo se obtiene:
2.1 ¿La frecuencia acumulada?
2.2 ¿La frecuencia relativa?
2.3 ¿La frecuencia relativa acumulada
3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales,
utilizando solamente la frecuencia relativa? ¿Por qué?
4. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?
5. ¿Cómo se determina el número de intervalos y la amplitud de ellos?
6. ¿Qué es una marca de clase?
7. La siguiente tabla relaciona las ausencias al trabajo de 50 obreros, durante el mes de
octubre, en la fábrica de confecciones "La Unión".
1 0 2 1 3 1 4 3 2 5
3 2 4 2 0 3 1 2 0 2
1 1 0 1 0 0 1 2 1 3
4 0 2 3 2 0 0 2 5 2
2 4 2 1 3 1 2 1 0 2
7.1 Construir una distribución de frecuencias simple.
7.2 Sacar 3 conclusiones.
8. Años de experiencia de las 50 operarias de agro exportadora “La Calidad”
Ordenar la Información y responder:
8.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6
años?
8.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?
9. Peso de los sacos de ají páprika que fueron cosechados en los primeros 50 días de
producción de la empresa Exporta SAC
Construir una distribución de frecuencias y resaltar 3 conclusiones
10. Consumo de agua, en m3de 184 familias n un barrio residencial de una ciudad
durante el mes de octubre:
Construir una distribución de frecuencias por intervalos.
Comparar las distribuciones con intervalos y sin intervalos; y las conclusiones que de
ellas se deriven.
MÉTODOS ESTADÍSTICOS EN LA INVESTIGACION Y
RECOLECCIÓN DE LA INFORMACIÓN
Semana 3
El método estadístico, parte de la observación de un fenómeno, y como
no puede siempre mantener las mismas condiciones predeterminadas o a
voluntad del investigador, deja que actúen libremente, pero se registran
las diferentes observaciones y se analizan sus variaciones.
Para el planeamiento de una investigación, por norma general, se siguen
las siguientes etapas:
1. PLANTEAMIENTO DEL PROBLEMA
Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende
estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los
fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la
revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por
investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se
debe hacer una ubicación histórica y teórica del problema.
2. FIJACIÓN DE LOS OBJETIVOS
Luego de tener claro lo que se pretende investigar, debemos presupuestar hasta dónde queremos
llegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos.
Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe,
además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los
objetivos generales y los específicos.
3. FORMULACIÓN DE LAS HIPÓTESIS
Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su
formulación depende del conocimiento que el investigador posea sobre la población investigada. Una
hipótesis estadística debe ser susceptible de demostrar, esto es, debe poderse probar para su
aceptación o rechazo.
Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el
propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis
contraria se le llama Hipótesis Alternativa (H1).
4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE
MEDIDA
La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la
población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de
cuentas, es a ellas a las que se les hará la medición. La unidad de observación puede estar constituida
por uno o varios individuos u objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo
de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué
unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales
se ha de efectuar la toma de la información.
5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA
Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen
una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes;
una población puede estar constituida por los habitantes de un país o por los peces de un estanque,
así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una
ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término
infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de
un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado
como infinito.
Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar
las propiedades del conjunto del cual es obtenida.
En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es
aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos,
porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de
sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una
muestra con el fin de hacer inferencias respecto al total de la población.
Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra
debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad
de la investigación.
6. LA RECOLECCIÓN
Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha
de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en
las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de
la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de
los parámetros con la precisión establecida.
El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las
preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar
teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las
limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.
Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es
determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos
que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado.
7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN
Después de haber reunido toda la información pertinente, se necesita la depuración de los datos
recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población
por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las
preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o
nulidad de todo un cuestionario.
Separado el material de "desecho" con la información depurada se procede a establecer las
clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces
necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de
las diferentes variables que intervienen en la investigación.
El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente
dispendiosas, puedan ser realizadas en corto tiempo.
8. LA TABULACIÓN
Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector
sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un
titulo adecuado el cual debe ser claro y conciso.
La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los
diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones
especiales de la tabla, u otorguen los créditos a la fuente de la información.
9. LA PRESENTACIÓN
Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los
cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van
a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos
redundantes que, antes que claridad, crean confusión.
Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo
en función de las variables que relaciona, sino del lector a quien va dirigido el informe.
10. EL ANÁLISIS
La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones
de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa
medible en la toma de una decisión.
Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los
parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el
ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las
conclusiones definitivas.
11. PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo
problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca
de él.
MÉTODOS DE RECOLECCIÓN DE DATOS PARA UNA
INVESTIGACIÓN
Enunainvestigación científicaseprocede básicamenteporobservación,por
encuestasoentrevistasalossujetosdeestudioyporexperimentación.
FUENTES DE INFORMACIÓN
Unidades Estadísticas: Elementos componentes de la población estudiada.
Ejemplo: personal de una empresa, habitantes del distrito de Oyotún, etc.
La población en una investigación debe ser definida con precisión.
FUENTES DE INFORMACIÓN
PRIMARIAS SECUNDARIAS
Los datos provienen
directamente de la población
o muestra de la población
Los datos parten de datos pre-
elaborados, ejemplo: anuarios
estadísticos, de Internet, de medios
de comunicación.
Se subdividen
en:
Observación Directa:
Cuando el investigador toma
directamente los datos de la población.
Ejm: un científico realiza
un experimento.
Observación Indirecta:
Cuando los datos no son obtenidos
directamente por el investigador.
Usa un cuestionario u otro medio
para obtener los datos.
Debe realizar una encuesta
Deben ser analizadas bajo 4 preguntas básicas que son:
• ¿Es pertinente? cuando la información se adapta a los
objetivos
• ¿Es obsoleta? cuando ha perdido actualidad
• ¿Es Fidedigna cuando la veracidad de la fuente de
origen no es cuestionada
• y ¿Es digna de Confianza? si la información ha sido
obtenida con la metodología adecuada y honestidad
necesaria, con objetividad, naturaleza continuada y
exactitud
Encuesta: Constituye el término medio entre la observación y la experimentación. En
ella se pueden registrar situaciones que pueden ser observadas y en ausencia de
poder recrear un experimento se cuestiona a la persona participante sobre ello.
La encuesta es un método descriptivo con el que se pueden detectar ideas,
necesidades, preferencias, hábitos de uso, etc.
Modulometodosestadisticos2011 110329231153-phpapp01
Codificación. Una vez cumplimentados los cuestionarios, viene la fase de
recuento de las respuestas. Cuando estas son numéricas no hay ninguna
dificultad, pero cuando las preguntas han tenido una contestación no numérica, es
preciso traducir estas respuestas a números.
Esto se conoce con el nombre de codificación.
Por ejemplo:
¿Como ves el estado actual del Instituto?
Muy Bien …………….. 5
Bien …………….. 4
Regular …………….. 3
Mal …………….. 2
Muy Mal …………….. 1
No sabe/No contesta …………….. 0
EJEMPLO
DE
CUESTIONARIO
REPASO: En el siguiente blog www.ingenieriainvestigacazasi.blogspot.com
encontrará información adicional sobre los temas descritos, tales como:
 Ficha Técnica-Encuesta INEI 2007
 Modelo de Encuesta – INEI
 Caso – Preferencia por Leche Envasada
 Encuesta Servicio PLAZA VEA
 Estadística en la Investigación Científica
 Resultado Encuesta (Modelo Computacional)
Se solicita organizarse en grupos y
presentar el resultado de un
cuestionario aplicado a determinada
población sobre un tema libre.
MEDIDAS DE TENDENCIA CENTRAL
Semana 4
Las medidas de tendencia central,
llamadas así porque tienden a
localizarse en el centro de la
información, son de gran importancia
en el manejo de las técnicas estadísticas,
sin embargo, su interpretación no debe
hacerse aisladamente de las medidas de
dispersión, ya que la representatividad
de ellas está asociada con el grado de
concentración de la información.
Las principales medidas de tendencia central son:
1. MEDIA ARITMETICA:
Se conoce comúnmente como promedio. La media aritmética se calcula como la suma de todos los
valores que toma la característica en estudio dividida por el número total de unidades experimentales
observadas. En símbolos:
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80.
_
x = 21+32+15+59+60+61+64+60+71+80 = 52.3 años
10
Interpretación: La edad media de estos pacientes es de: 52.3 años
 Si se trata de datos agrupados se utiliza para variables discretas:
Donde: Xi = valores que toma la variable, fi = Frecuencia absoluta, n = total de datos
Ejemplo:
Un investigador social está interesado en conocer el número promedio de hijos en una muestra de 10 familias
entrevistadas para una encuesta en particular. Luego de efectuar el trabajo de recolección de datos, el listado
de las familias con su correspondiente número de hijos se formó la siguiente tabla:
Familia No Número de Hijos
1 2
2 4
3 4
4 3
5 4
6 3
7 3
8 3
9 6
10 3
Con esta información se construye la tabla de frecuencias de la siguiente manera:
Número de Hijos (Xj) Frecuencia (fj) Xjfj
2 1 2
3 5 15
4 3 12
6 1 6
Total 10 35
_
Luego: x = 35 = 3.5
10
Interpretación:
La familia promedio proporcionada por la encuesta es aquella que presenta entre 3 y 4 hijos; el valor 3,5 es el
resultado matemático del cálculo de la media aritmética pero no es un valor posible de la variable por su
propia definición.
 En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media
aritmética es similar al caso anterior, es decir :
_
Y = ∑Yi fi
n
Cuando se agrupan datos continuos en intervalos de clase, se pierde la información original. Luego, para
solucionar este problema, Yi se calcula como el promedio entre los extremos de cada intervalo, es decir Yi
representa el punto medio del intervalo de clase.
Ejemplo:
Calcular la media aritmética de la longitud de 100 tornillos fabricados por una máquina.(Tabla 1)
Luego: _
Y = ∑Yi fi = 1014,0 = 10,14 mm
N 100
Interpretación : En promedio el proceso productivo fabrica tornillos de 10,14 mm de longitud
2. MEDIANA: (Md o Me)
Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las
observaciones son mayores que este valor y el otro 50% son menores.
A continuación se muestran los criterios para construir la mediana. Se puede construir los siguientes criterios:
• Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos
criterios conduce al mismo resultado.
• Si n (tamaño de la muestra) es impar, entonces, la mediana coincide con el valor medio, el cual corresponde
al dato Xn/2.
• Si n (tamaño de la muestra) es par, no existe un solo valor medio, si no que existen dos valores medios, en
tal caso, la mediana es el promedio de esos valores, es decir, los sumamos y luego los dividimos por dos.
La Mediana para datos no agrupados
Ejemplo 1:
Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3 correspondientes al número de hijos de 15
empleados de una empresa. Para la obtención de la mediana se deberán de ordenar.
Tomemos el criterio de orden ascendente con lo que, tendremos:
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4
Por otro lado el número de datos n = 15, siendo el número de datos impar se elige el dato que se encuentra a
la mitad, una vez ordenados los datos, en este caso es 1.
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4
Mediana
Interpretación: El número mediano de hijos para estos empleados es 1.
Ejemplo 2:
Las calderas de una planta de energía de vapor a alta presión tuvieron las siguientes eficiencias en porcentajes:
90,3 - 91,6 - 90,9 - 90,4 - 90,3 - 91,0 - 87,9 - 89,4
El tamaño de la muestra, n=8, número par. Luego los ordenamos y la mediana es la semisuma de los valores
centrales o sea el promedio de esos valores.
87,9 - 89,4 - 90,3 - 90,3 - 90,4 - 90,9 - 91,0 - 91,6
Mediana = 90,3 + 90,4 = 90,35
2
Interpretación: El número mediano de eficiencia en porcentaje de las calderas de una planta de energía es de
90,35 % aunque el mismo no sea un valor posible de la variable.
 Hallar la mediana de los siguientes datos: 7,10,15,13,10,12
La Mediana para datos agrupados
Si tenemos datos agrupados en tablas simples de frecuencia, procedemos de la siguiente manera:
• Calculamos el orden que ocupa la Mediana, lo llamaremos orden de la mediana, cuya fórmula es:
Orden = n (este valor lo observamos en la frecuencia acumulada)
2
Ejemplo 1:
Supongamos que el gerente de personal de una empresa obtuvo los siguientes datos, correspondientes al
número de días que 19 de sus empleados faltan por enfermedad en un año.
Luego:
Orden = 19 = 9.5 (está contenido en Fj = 10)
2
Los datos se presentan en la siguiente tabla:
La mediana es 8
Interpretación: El 50 % de los 19 empleados faltan menos de 8 días y el 50% restante más de 8 días.
Ejemplo 2: Supongamos que la siguiente tabla corresponde a la vida útil en horas de 100 válvulas
Orden = 100 + 1 = 101 = 50,5
2 2
Esto nos indica que la mediana se encuentra entre el lugar 50 y el lugar 51. Pero, qué valores ocupan esos
lugares?
Por lo explicado anteriormente, desde el lugar 38 y hasta el lugar 57, hay valores 39. Luego el valor número
50 y el valor número 51 son 39. Entonces:
Mediana = 39 + 39 = 39
2
 Si los datos están agrupados en intervalo de clase, veamos cómo se calcula la mediana
Ejemplo: Tenemos los siguientes datos agrupados en una Tabla de Frecuencia que representan los montos de
40 préstamos personales, en dólares, en una compañía financiera de consumidores. (Tabla Nº 4)
En este caso se emplea la siguiente fórmula:
Dónde:
Li = Límite Inferior del intervalo que contiene a la Mediana
Fi-1 = Frecuencia Acumulada en la clase anterior i-ésima
fi = Frecuencia en la clase que contiene a la mediana
Hi-1 = Frecuencia Relativa Acumulada en la clase anterior i-ésima
hi = Frecuencia Relativa en la clase que contiene a la mediana
c =Tamaño del intervalo de clase.
Mediana = 930.64
3. MODA: (Mo)
La moda es el valor que aparece con mayor frecuencia, es decir, el que ocurre más frecuentemente.
Se dice que cuando un conjunto de datos tiene una moda la muestra es unimodal, cuando tiene dos modas
bimodal, cuando la muestra contiene más de un dato repetido se dice que es multimodal y un último caso es
cuando ningún dato tiene una frecuencia, en dicho caso se dice que la muestra es amodal.
Moda para datos no agrupados
Si tenemos datos sin agrupar, la encontramos fácilmente observando cuál es el valor que más se repite.
Ejemplos:
1.- Determinar la moda del siguiente conjunto de datos:
a).- 1, 2, 3, 3, 4 , 5, 6, 7, 7, 3, 1, 9, 3
Respuesta: La moda de este conjunto de datos es igual a 3 y si considera unimodal.
b).- 1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 2, -3, 4, 6, 3, 3
Respuesta: Las modas de este conjunto de datos son 3 y 4 ya que ambas tienen la más alta frecuencia, por lo
que la muestra es bimodal
c).- 1, 2, 3, 4, 5, 6, 7, 8, 9
Respuesta: La muestra no contiene ningún dato repetido por lo que se considera que la muestra es amodal.
Moda para datos agrupados
 En datos agrupados en tablas simples de frecuencias, nos fijamos que valor corresponde a la
mayor frecuencia absoluta. En la siguiente tabla
En este ejemplo, la mayor frecuencia absoluta es 4, que corresponde al valor 10. Luego la Moda es
10.
Interpretación: La cantidad de días más frecuente que los empleados faltan por enfermedad es 10.
 En datos agrupados en intervalos de clases, existen varios métodos para calcular la Moda. Cada
método puede darnos un valor diferente, pero aproximado, para un mismo conjunto de datos.
Se puede hallar de la siguiente manera:
Donde: Li= extremo inferior de la clase modal
d1= (fi – fi-1), d2 = ( fi – fi+1)
Ejemplo: Hallar la moda de la tabla Nº 4
Solución: Mo = 685
Interpretación: El monto de préstamos personales en dólares más frecuente otorgados por una compañía
financiera de consumidores es de 685 dólares.
MEDIDAS DE POSICIÓN NO CENTRALES.
CUARTILES
Los cuarteles de una distribución, como si nombre lo indica, son valores de la variable que dividen al
conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos que contienen la misma
cantidad de datos.
Para calcular los cuartiles de una distribución de frecuencias se procede del mismo modo que en el
caso de la mediana, salvo que ahora dividiremos a la distribución de la variable en cuatro partes
iguales en lugar de dos.
A partir de esta definición es evidente que la mediana coincide con el segundo cuartil. Los cuarteles
se simbolizan con la letra Q.
Ejemplo:
Supongamos que un veterinario ha registrado los pesos de 8 pollos de seis semanas de vida y ordenó
de menor a mayor, obteniendo:
150 - 151 - 152 - 154 - 155 - 156 - 157 - 159 gramos.
La mediana de este conjunto de datos estará posicionada entre el 4º y 5º valor de la serie, siendo:
Mediana = Q2 = 154,5 gramos
El primer cuartel Q1, debe dividir a la primera mitad de la serie en dos partes iguales, por lo cual Q1
se ubicará entre el 2º y el 3º valor de la serie.
Luego:
Q1 = 151,5 gramos
Del mismo modo Q3, el tercer cuartel, divide a la segunda mitad de la serie en dos partes iguales.
Es decir:
Q3 = 156,5 gramos
Interpretación:
Si Q1 = 151,5 gramos significa que el 25 % de los pollos tendrán un peso inferior a 151,5 gramos y
el 75 % un peso superior a ese valor.
Si Q2 = 154,5 gramos significa que el 50 % de los pollos tendrán un peso inferior a 154,5 gramos y
el 50% restante superior a ese peso.
Si Q3 = 156,5 gramos significa que el 75 % de los pollos tendrán un peso inferior a 156,5 y un 25%
será superior a ese peso.
* Cuando se trata de cuartiles para datos agrupados continuos, se aplica la fórmula de interpolación:
Dónde: n/4: es el número total de observaciones dividido por 4
Fj-1 : es el mayor de las frecuencias acumuladas que no supera a n/4
Fj : es la frecuencia acumulada que le sigue a Fj-1
Xj-1 : es el extremo inferior del intervalo que tiene como frecuencia acumulada F.
c ó h : amplitud de dicho intervalo
Para la tabla No 1 (longitud de los tornillos), calcular Q1 y Q3.
Respuestas: Q1= 8,36 mm
Q3= 11,57mm
Interpretación: Q1= Este valor indica que el 25% de los tornillos miden menos de 8,36 mm mientras
que el 75% restante mide más de 8,36mm
Q3 = Este valor indica que el 75% de los tornillos miden menos de 11,57 mm mientras que el 25%
restante mide más de 11,57mm.
PERCENTILES:
Los percentiles de una distribución, como su nombre lo indica, son valores de la variable, que
dividen al conjunto de datos (ordenados de menor a mayor) en cien partes iguales.
Los percentiles tienen el mismo significado y la misma forma de cálculo que los cuartiles. Así,
cuando se habla del percentil 15 se quiere expresar que es el valor de la variable que deja el 15% de
los datos a su izquierda y el 85 % de los mismos a su derecha o lo que es lo mismo decir que es el
valor de la variable que deja al 15 % de los datos por debajo de él y el 85% por encima.
Se puede emplear la siguiente fórmula:
Li = Límite Inferior del intervalo que contiene al Percentil
Fi-1 = Frecuencia Acumulada en la clase anterior k-ésima
fi = Frecuencia en la clase que contiene al Percentil
c =Tamaño del intervalo de clase.
k = 1%, 2%, 3%, ... , 97%, 98%, 99% Percentiles
Práctica Calificada Nº 04
1. ¿Qué es una medida de tendencia central?
2. ¿Cuáles son las principales medidas de tendencia central?
3. Defina: media aritmética mediana y moda.
4. ¿Cuándo se utiliza la media aritmética ponderada?
5. Enuncie las propiedades de la media aritmética
6. Para cada información de los ejercicios del capítulo 3, calcular e interpretar la media aritmética, la
mediana y la moda.
7.
Elaborar la tabla de frecuencia y determinar las medidas de tendencia central
8. Los siguientes datos representan las temperaturas observadas al proceso de fermentación en un día
cualquiera de producción de cerveza “ALE”. Determine utilizando intervalos: la media, mediana y
moda a la siguiente tabla de frecuencia:
25 33 27 20 14 21 33 29 25 17
31 18 16 29 33 22 23 17 21 26
13 20 27 37 26 19 25 24 25 20
25 29 33 17 22 25 31 27 21 14
24 7 23 15 21 24 18 25 23 24
9. Los estadísticos del programa de “Comida Sobre Ruedas”, el cual lleva comidas calientes a
enfermos confinados en casa, desean evaluar sus servicios. El número de comidas diarias que
suministran aparece en la siguiente tabla de frecuencia. Calcular la media, mediana y la moda.
Número de
comidas por día
Número de
días
0 - 5 3
5 - 10 6
10 - 15 5
15 - 20 8
20 - 25 2
25 - 30 3
10.Las edades de 50 de los directores ejecutivos de las mejores corporaciones de la nación reportadas
aparecen en la siguiente tabla de frecuencias. Calcule e interprete la media, la mediana y la moda.
Además, calcule e interprete: Q1 y P15.
Edades Frecuencias
50 y menos de 55 8
55 y menos de 60 13
60 y menos de 65 15
65 y menos de 70 10
70 y menos de 75 3
75 y menos de 80 1
11. Una granja ganadera registró durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer
(en kilogramos) fue el siguiente:
22,31,33,34,35,36,37,38,38,39,40,40,40,41,41,42,42,42,42,42,43,43,44,45,46,46,46,46,50
12. Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvieron en
la siguiente tabla resultante.
Calcular la el promedio y la mediana para datos agrupados y no agrupados; y
comparar resultados
13. Ingresando a la biblioteca Digital E-libro , de la USS, busquen en el libro:
Título Estadística
Autor: Colegio24hs
Editorial: Colegio24hs
Publicado: 2004
Y desarrollen los ejercicios 1 al 5, de la página 47 a la 49 según corresponda a encontrar la media
aritmética, la mediana, y la moda.
MEDIDAS DE DISPERSIÓN
Semana 5
Las medidas de dispersión muestran la variabilidad de una
distribución, indicando por medio de un número la tendencia de
los datos a dispersarse respecto al valor central o media. Cuanto
mayor sea ese valor, mayor será la variabilidad, cuanto menor sea,
más homogénea será a la media. Así se sabe si todos los casos son
parecidos o varían mucho entre ellos.
Las medidas de dispersión más usuales son:
1. RANGO ESTADÍSTICO, AMPLITUD Ó RECORRIDO.
Es la medida de variabilidad más fácil de calcular. Es la diferencia entre el valor mínimo y el valor
máximo en un grupo de números. Para averiguar el rango de un grupo de números:
 Ordenamos los números según su tamaño
 Restamos el valor mínimo del valor máximo
R= Xmáx. - Xmín.
Ejemplo:
a. Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se
encuentran en un rango de:
Rango = 100 – 1 = 99
b. Hallar el rango de los conjuntos: x= 12, 6, 7, 3, 15, 10, 18, 5
y= 9, 3, 8, 8, 9, 8, 9, 18
En ambos casos, rango: 18 – 3 = 15; sin embargo si ordenamos se ven como sigue:
x = 3, 5, 6, 7, 10, 12, 15, 18 y = 3, 8, 8, 8, 9, 9, 9, 18
hay mucha más dispersión en “x” que en “y”, por lo que “y” consiste esencialmente en ochos y
nueves, pero en este caso el rango no indica diferencia entre ambos conjuntos, no es una buena
medida de la dispersión. Cuando hay valores muy extremos, el rango es una pobre medida de la
dispersión.
2. LA VARIANZA. (S2
ó δ2
)
Es una variable estadística que mide la dispersión de los valores respecto a un valor central (media).
Específicamente, la varianza es una medida de que tan cerca o que tan lejos están los diferentes
valores de su propia media aritmética.
Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando
más cerca estén las Xi a su media menos es la varianza. La Varianza es el cuadrado de la
desviación estándar
 Para datos no agrupados
 Para datos agrupados
La variancia de los valores: (x1 x2 … xk) que ocurren con las frecuencias (f1 f2 … fk) es:
3. DESVIACION ESTANDAR (S ó δ) . (ó DESVIACIÓN TIPICA)
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar
ese problema se define otra medida de dispersión, la desviación estándar, que se halla como la raíz
cuadrada de la varianza. La desviación estándar o desviación típica nos informa sobre la dispersión
de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos.
Desviación Estándar: S = √S2
ó δ = √ δ2
(Es la raíz cuadrada de la varianza)
Propiedades de la Desviación Estándar
A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de
las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza):
1. La desviación estándar es siempre un valor no negativo S
2. Es la medida de dispersión óptima por ser la más pequeña.
3. La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
4. Si a todos los valores de la variable se le suma una misma constante la desviación estándar no
varía.
5. Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
queda multiplicada por el valor absoluto de dicha constante.
Para el ejemplo anterior, la desviación estándar es 1.293 soles.
4. COEFICIENTE DE VARIABILIDAD
Es una medida de variabilidad de los datos que se expresa en porcentaje, en la cual se compara la desviación
estándar con el respectivo valor del promedio de los datos, se expresa en porcentaje:
Practica Calificada Nº 05
1. ¿Cuál es la utilidad de las medidas de dispersión?
2. ¿Cuáles son las principales medidas de dispersión?
3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables que posean
diferente magnitud o diferente unidad de medida?
4. Para cada una de las informaciones de las unidades 2 y 4 de las sesiones anteriores, calcular e
interpretar:
4.1 Rango
4.2 Desviación media
4.3 Desviación Estandar
4.4 Coeficiente de variabilidad
5. La tabla de frecuencias exhibe las edades de una muestra de 36 personas que asistieron a una película:
Años f
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Hallar:
a. La media
b. La varianza
c. La desviación
6. La siguiente tabla muestra los coeficientes de inteligencia de 480 niños de una escuela elemental
C.I. 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126
fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2
Calcula:
a) El C.I. promedio de los niños estudiados
b) Su desviación.
7. El entrenador de un equipo de baloncesto duda entre seleccionar a Elena o María. Los puntos
conseguidos por cada una, en una semana de entrenamiento fueron:
Elena 18 23 22 24 19 25 16
María 18 26 18 28 22 17 18
a. ¿Cuál de las dos tiene mejor media?
b. Calcula la desviación típica. ¿Cuál de las dos es más regular?
c. Si tú fueras el entrenador, a quién seleccionarías?
INTRODUCCIÓN A LAS PROBABILIDADES
Semana 6
“Los planes corresponden al hombre,
las probabilidades a Dios.”
Proverbio chino
1. EXPERIMENTO ALEATORIO:
Es cualquier hecho o fenómeno cuyo resultado no puede predecirse antes de que suceda.
Ejemplo:
- Rendir un examen y observar su resultado
- Tirar una moneda y observar cual de las caras queda hacia arriba
- El lanzamiento de 2 dados paralelamente y observar el puntaje obtenido
- Elegir un cliente del restaurante y preguntar su opinión sobre el servicio recibido.
2. ESPACIO MUESTRAL:
Es el conjunto de todos los resultados posibles de un experimento aleatorio. Se representa
comúnmente con la letra S.
Ejemplos:
* En el experimento aleatorio de lanzar una moneda 3 veces
El espacio muestral es un conjunto formado por 8 elementos:
* En el experimento aleatorio de lanzar un par de dados, el espacio muestral es:
3. EVENTO O SUCESO:
Es un subconjunto de elementos que pertenecen al espacio muestral y que cumple una
característica determinada. Ejemplos:
* Del espacio muestral, lanzamiento de un dado; el evento
A= puntaje obtenido es mayor de 3
A= [4,5,6]
* Al lanzar una moneda 3 veces, el evento de obtener por lo menos dos caras es:
E = [(C,C,C), (C,C,S), (C,S,C), (S,C,C)] ; tiene 4 elementos
* Al lanzar un par de dados, el evento “la suma es igual a 7” será:
4. PROBABILIDAD
Es una medida que expresa la “tasa de ocurrencia de un evento a largo plazo”. El valor de esta
medida está comprendido entre [0 y 1].
La probabilidad de que ocurra un evento A se define como el valor que corresponde al número de
casos “favorables” entre el número de casos “posibles”:
Ejemplos:
 Si se lanza un dado, cual es la probabilidad de obtener un puntaje impar. Rpta. 0.5
 De un juego de 52 naipes se extrae una carta al azar (aleatoria), cuál es la probabilidad de obtener
un puntaje mayor de 9. Rpta. 0.3077
 Si se lanza un dado 2 veces cuál es la probabilidad de que:
- Se obtenga un puntaje igual a 8 - Se obtenga un puntaje <= a 4
- Se obtenga un puntaje < a 5 pero >= a 2
OPERACIONES CON PROBABILIDADES
1. Eventos Mutuamente Excluyentes
Dos eventos son mutuamente excluyentes cuando “no pueden ocurrir los dos al mismo tiempo”, es
decir la ocurrencia de uno de ellos impide automáticamente la ocurrencia del otro. Por tanto, si 2
eventos son mutuamente excluyentes no habrá intersección entre ellos.
Si el evento A y el evento B son excluyentes:
A∩B = 0, Luego P(A∩) = 0
Ejemplo: Los clientes de una agencia de turismo se clasifican según nacionalidad y edad:
¿Cuál es la probabilidad de elegir un cliente joven o adulto?
P(J U A) = P(J) + P(A) = 130 + 40 = 170 = 0.85
200 200 200
2. Intersección de Eventos: En el ejemplo anterior, calcular la probabilidad de que un cliente
elegido sea Joven o Extranjero:
P(J U E) = P(J) + P(E) – P(J∩E) = 130 + 80 - 30 = 180 = 0.9
200 200 200 200
Si A y B son no excluyentes: P(A U B) = P(A) + P(B) – P(A∩B)
“o” = unión “y” = intersección
Ejemplos:
1. De la urna que tienes a la derecha, sacamos una bola a azar y anotamos su número
a) Describe el espacio muestral. ¿Cuántos casos tiene?
b) Describe los siguientes sucesos:
Bola Roja = A; Bola Verde = B; Bola Azul = C; Bola Roja con número
impar = D; Bola con número par = F
c) Calcula la probabilidad de cada uno de los sucesos anteriores
2. ¿Cuál es el espacio muestral correspondiente al lanzamiento de una moneda? ¿Cuál es la
probabilidad de cada una de las dos caras?
3. Si se lanza un dado, cuál es la probabilidad de obtener un puntaje impar
4. Al extraerse una carta de un juego de 52 naipes, cual es la probabilidad de que ésta sea de
color rojo o tenga un puntaje menor de 5.
5. En una encuesta aplicada a 50 estudiantes secundarios, 22 alumnos manifestaron inclinación por la
Química, 28 por Estadística y 10 alumnos por ambos cursos. Si se selecciona al azar a uno de estos
alumnos:
a) ¿Cuál es la probabilidad de que les guste Química o Estadística?
b) ¿De qué se incline por Química y Estadística?
c) ¿Qué no le guste ninguno de los 2 cursos?
6. En un salón de clase hay 15 alumnos y 24 alumnas, la tercera parte de los hombres y la mitad de
mujeres son de Chiclayo. Hallar la P[ ] de que sea alumno ó sea de Chiclayo; y de que sea alumna y
que haya nacido fuera de Trujillo.
TÉCNICAS DE CONTEO
Repaso de Factoriales
n! = 1x2x3x4x……xn
0! = 1
1! = 1
PERMUTACIÓN “Pn”
Una permutación es un conjunto de arreglos diferentes de n en n elementos de un total de n
Se lee: Pn = permutación de n elementos.
Fórmula: Pn = n!
Ejemplo:
1. De cuántas formas diferentes se pueden sentar 3 personas ABC en 3 asientos consecutivos:
[ ABC, ACB, BAC, BCA, CAB, CBA ] P3 = 3! = 6
2. Cuántas juntas directivas diferentes se podrían formar con las personas ABC y D, si dicha junta
tiene los cargos de Presidente, Vicepresidente, Secretario y Tesorero.
P4 = 4! = 24 juntas
m
COMBINACIÓN C = m!
n (m-n)! n!
Se lee: “combinación de n en n elementos de un total de m”
Son arreglos diferentes de n en n elementos de un total de m, en los cuales no interesa el orden en
que se presentan.
Ejm. Se desea elegir un comité de 3 personas entre 8 candidatos, cuantos comités diferentes pueden
formarse:
8
C 3 = 8! = 8! 56 formas diferentes
(8-3)! 3! 5! 3!
m
VARIACIÓN V = m!__
n (m-n)!
Se lee: “Variación de n en n elementos de un total de m”. Sí interesa el orden de los elementos.
Ejm. Se desea formar una junta directiva con los cargos de presidente, secretario y tesorero. Si hay 8
candidatos, cuantas juntas directivas diferentes se podría formar:
8! = 8! = 8x7x6x5! = 336 formas diferentes
(8-3)! 5! 5!
Ejemplos para el Aula:
1. Si un conjunto A tiene 5 elementos. ¿Cuántas duplas se pueden formar con los elementos de
A?.
2. En el concurso de belleza de Miss Universo, se suelen elegir primero 15 semifinalistas, luego
se eligen 5 finalistas. ¿De cuántas formas diferentes se pueden ocupar las 5 primeras
posiciones entre las 15 semifinalistas?
3. La junta directiva de la compañía ABC consta de 15 miembros. ¿De cuántas formas se puede
elegir presidente, vicepresidente y secretario?
4. ¿Cuántos equipos de basquet de cinco hombres se pueden formar de una escuadra de 12
hombres si no tienen en cuenta las posiciones de juego?
5. En una clase de estadística hay 30 estudiantes 24 hombres y 6 mujeres. ¿De cuántas formas
distintas se puede construir un comité de cuatro estudiantes?
¿De cuántas formas distintas se puede construir un comité de cuatro estudiantes si dos deben
ser mujeres?
Practica Calificada N° 06
ACTIVIDAD Nº 1
A continuación se describen varias situaciones. Contesta la pregunta, en cada caso, razonando las respuestas:
a) En una clase de 30 alumnos, 12 chicos y 18 chicas, cada uno escribe su nombre en una papeleta y la
introduce en una caja. ¿Qué es más probable que aparezca el nombre de una chica o de un chico?
b) Se lanza un dado cúbico con las caras numeradas del 1 al 6. ¿Qué es más probable que salga el 5 o el 1?
c) Si lanzas una ficha cuyas caras son verde y rojo ¿qué color esperas que salga?
ACTIVIDAD Nº 2
Indica el espacio muestral de los siguientes sucesos:
a) Obtener par, al lanzar un dado cúbico con las caras numeradas del 1 al 6.
b) Lanzamos dos monedas al aire.
c) Obtener impar al lanzar un dado cúbico.
ACTIVIDAD Nº 3
En cada uno de los siguientes experimentos aleatorios, diga cuál es la probabilidad de que ocurra el suceso
que se indica:
a) CESTA I CESTA II b) BOLSA I BOLSA II
Se extrae una pieza de fruta Se extrae una bola
Suceso: OBTENER UNA PERA Suceso: OBTENER UNA BOLA VERDE
ACTIVIDAD Nº 4
Resolver:
1. Hallar la probabilidad de sacar por suma 4 o 11 al lanzar dos dados.
2. Una urna tiene 8 bolas rojas, 5 amarillas y 7 verdes. Se extrae una al azar, calcular la probabilidad de que:
Sea roja.
Sea verde.
Sea amarilla.
3. Se extrae aleatoriamente una baraja de un juego de 52 cartas. ¿Cuál es la probabilidad de que la carta
seleccionada?
a) Sea un “as”
b) Sea una carta negra ó un número menor de 5
c) Sea número 8 y de color rojo
4. De 100 personas que fueron consultadas sobre sus preferencias a la hora de realizar un deporte, 50
practicaban fútbol, 40 practicaban baloncesto y 30 practicaban ciclismo. Además, 25 personas practicaban
futbol y baloncesto, 15 practicaban fútbol y ciclismo, y 12 practicaban baloncesto y ciclismo. Por último, tan
sólo 5 personas practicaban los tres deportes. El resto no sabe o no contesta.
a) Representa el diagrama de Venn correspondiente.
b) Calcula las siguientes probabilidades: P(practicar fútbol), P(practicar fútbol y baloncesto), P(practicar sólo
ciclismo), P(practicar los tres deportes), P(practicar alguno de los tres deportes), P(no practicar ninguno de los
tres deportes.
Permutaciones, Combinaciones, Variaciones
1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de
modo que no estén en el mismo dedo?
2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?
3. Con los números 1,2,3,4,5 y 6:
3.1 ¿Cuántos números distintos de siete cifras podríamos formar?
3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos
números?
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el
número de casos posibles?
5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos
y por dos números tres?
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar.
Engarzando las 25 bolitas en un hilo, ¿cuántos collares distintos podrá realizar?
7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la
palabra educación? ¿y con la palabra vacaciones?
8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una
fiesta, acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas
¿De cuántas formas posibles puede estar compuesta la pareja encargada de dicha
misión?
9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata,
fresa y cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán
fabricar?
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se
han dado en total 21 besos, ¿cuántas personas había?
11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras
pueden adjudicarse las medallas de oro, plata, bronce?
12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente,
secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?
PROBABILIDADES CONDICIONALES
Semana 7
Hasta ahora se ha estudiado la probabilidad absoluta de un evento, es decir sin relacionarlo uno con
otro. Sin embargo pudiera ser de interés calcular la probabilidad de que ocurra un evento de cierto
espacio muestral “S” a la luz de que otro evento de ese mismo espacio “S” ocurra.
Sean A y B dos eventos de un mismo espacio muestral S. La probabilidad condicional de A, dado
que ha ocurrido B (o viceversa), está dado por:
P[ A/B ] = “ probabilidad de que ocurra A habiendo sucedido B”
P[ A/B ] = P[A∩B] = n (A∩B)
P[B] n(B)
P[B/A] = “probabilidad de que ocurra B habiendo sucedido A”
P[ B/A ] = P[B∩A] = n (B∩A)
P[A] n(A)
Ejemplos:
1. En una empresa el 50% de trabajadores trabaja por la mañana, el 30% lo hace por las tardes y el 20% tanto
en la mañana como por la tarde; si se escoge aleatoriamente a un trabajador cualquiera:
a) Cual es la probabilidad de que trabaje en la mañana si se conoce que labora en la tarde
b) Cual es la probabilidad de que trabaje por las tardes si se conoce que labora por la mañana
SOLUCIÓN
A= labora en la mañana …………. 50%
B= labora en la tarde …………….. 30%
A Π B = labora en los dos turnos … 20%
a) P[A/B] = P[A ∩ B] = 20/30 = 2/3 ó 66.67%
P[B]
b) P[B/A] = P[B ∩A] = 20/50 = 2/5 ó 40%
P[A]
2. De todos los alumnos que el ciclo pasado llevaron los cursos de Estadística Aplicada y Matemática I, se
tienen los siguientes datos:
El 20% desaprobaron Matemática I
El 35% desaprobaron Estadística Aplicada
El 10% desaprobaron ambos cursos
Si se escoge aleatoriamente a un alumno que lleva estos cursos, cual es la probabilidad de que este:
a) Haya sido desaprobado en Matemática I conociéndose que fue desaprobado en Estadística Aplicada
b) Haya sido desaprobado en Estadística Aplicada conociéndose que fue desaprobado en Matemática I
c) De que haya sido desaprobado en Matemática I ó Estadística Aplicada
SOLUCIÓN:
M = desaprobó Matemática I =20%
E = desaprobó Estad. Aplicada =35%
M ∩ E = desaprobaron ambos cursos = 10
a) P[M/E] = 10/35 = 2/7 = 28,57%
b) P[E/M] = 10/20 = ½ = 50%
c) P[E UM] = P[E] + P[M] – P[E ∩M] = 35/100 + 20/100 – 10/100 = 9/20 = 45%
3. En la parte preferencial de un teatro solamente hay 120 asientos, los cuales son de 2 colores, azules o
negros; algunos son de madera y otros son metálicos. El resumen se presenta en el recuadro siguiente:
Asientos Metálicos Madera Total
Azul 35 45 80
Negro 18 22 40
Total 53 67 120
Si se selecciona aleatoriamente uno de estos asientos, calcule la probabilidad de que este sea:
a) De color azul
b) De color negro metálico
c) El asiento elegido sea de madera
d) Sea de color azul si se sabe que es de metal
e) El asiento sea de madera si se sabe que es de color negro
f) El asiento no sea de color azul
SOLUCIÓN
A= Azul, N=Negro, M=Metálico, Ma=Madera
a) P[A] = n(A)/n(S) = 80/120 = 2/3 = 66.47%
b) P[N ∩M] = n(M ∩N)/n(S) = 18/120 = 9/60 = 3/20 = 15%
c) P[Ma] = 67/120 = 55.83 %
d) P[A/M] = P[A ∩M] / P[M] = n(A ∩M) / n(M) = 35/53 = 66.04%
e) P[M/N] = P[Ma ∩N]/ P[N] = n(Ma ∩N)/n(N) = 22/40 = 11/20 = 55%
Complemento de un suceso=> P[M’]= 1 – P[M]
Sea de color azul: P[A], complemento = 1 – P[A]
f) P[A]’ = 1 – P[A] = 1 - 80/120 = 40/120 = 4/12 = 1/3 = 33.33%
TEOREMA DE BAYES
Es un caso particular de la probabilidad condicional.
Si A1, A2, A3, …, An, son sucesos mutuamente excluyentes de los cuales al menos uno de los
sucesos Ai (i=1,2,3,…,n) debe ocurrir y siendo B un suceso cualquiera del espacio muestral, la
probabilidad de que ocurra el suceso “Ak” habiendo ocurrido B se puede definir como:
P[Ak / B] = P[Ak] . P[B/Ak]
∑ P[Ai] . P[B/Ai]
Ejemplo 1
1. En una empresa el 50% de trabajadores pertenecen al área técnica profesional, el 30% son
oficinistas y el 20% pertenecen al área de personal de servicio; se sabe además que el 8, 9 y 10% de
los técnicos profesionales, oficinistas y personal de servicio respectivamente son provincianos.
a) Represente las condiciones enunciadas en un árbol de probabilidades
b) Si se selecciona al azar un trabajador, cual es la probabilidad de que este sea técnico
profesional o personal de servicio.
c) Sea técnico profesional si se conoce que es provinciano
d) Sea de personal de servicio si se sabe que es de la capital
SOLUCIÓN
T= técnico profesional P=provinciano
O=oficinistas C=capital
S=personal servicio
a) Árbol de probabilidades
b) P[T U S] = P[T] + P[S] – P[T ∩ S] = 50/100 + 20/100 – 0 = 70/100 = 70%
c) P[T/P] = _________50/100 x 8/100_______________________
50/100x8/100 + 30/100x9/100 + 20/100x10/100
= 50 x 8_____________ = ___400 = 400/870 = 40/87 ó 45.98%
50x8 + 30x9 + 20x10 400+270+200
d) P[S/C] = P[S].P[C/S]
P[T].P[C/T] + P[O].P[C/O] + P[S].P[C/S]
= 20/100 . 90/100
50/100x92/100 + 30/100x91/100 + 20/100x90/100
= 1800 = 1800 / 9130 = 180/913 ó 19.72 %
4600 + 2730 + 1800
Ejemplo 2
El 70% de los pacientes de un hospital son mujeres y el 20% de ellas son fumadoras. Por otro lado el
40% de los pacientes hombres son fumadores. Se elige al azar un paciente del hospital. ¿Cuál es la
probabilidad de que sea fumador?
Solución Diagrama de Árbol para el ejemplo:
Ejemplo 3
Consideremos un control de calidad de una empresa en el cual se desea saber la probabilidad de que
un determinado artefacto tenga una vida útil superior a las 1200hs. Para ello el dpto. de Control de
Calidad separa 500 unidades de la producción y mide la vida útil de cada unidad. Los resultados de
observan en la siguiente tabla:
Duración(en hs) Frec. Abs.(fi) Frec. Relat.
Menos de 800 10 2%
800 a 899 40 8%
900 a 999 55 11%
1000 a 1099 70 14%
1100 a 1199 85 17%
1200 a 1299 115 23%
1300 a 1399 84 17%
1400 a más 41 8%
Total 500 100%
P(A) = 115 + 84 +41 ó = 23% + 17% + 8%
500 = 48%
Práctica Calificada N° 07
Ejercicio 1:
Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas
producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%,
4% y 5%.
a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa.
b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido
producida por la máquina B.
c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza
Ejercicio 2:
Tras un estudio estadístico en una ciudad se observa que el 70% de los motoristas son varones y, de
estos, el 60% llevan habitualmente casco. El porcentaje de mujeres que conducen habitualmente con
casco es del 40%. Se pide:
a. Calcular la probabilidad de que un motorista elegido al azar lleve casco.
b. Se elige un motorista al azar y se observa que lleva casco. ¿Cuál es la probabilidad de que sea
varón?
Ejercicio 3:
En una ciudad, el 35% vota al partido A, el 45% vota al partido B y el resto se abstiene. Se sabe
además que el 20% de los votantes de A, el 30% de los de B y el 15% de los que se abstienen, son
mayores de 60 años. Se pide:
a. Hallar la probabilidad de que un ciudadano elegido al azar sea mayor de 60 años.
b. Hallar la probabilidad de que un ciudadano mayor de 60 años se haya abstenido.
Ejercicio 4:
Los alumnos de Primero de Biología tienen que realizar dos pruebas, una teórica y otra práctica. La
probabilidad de que un estudiante apruebe la parte teórica es de 0.6, la probabilidad de que apruebe
la parte práctica es de 0.8 y la probabilidad de que apruebe ambas pruebas es 0.5.
a. ¿Son independientes los sucesos aprobar la parte teórica y la parte práctica?
b. ¿Cuál es la probabilidad de que un alumno no apruebe ninguno de los dos exámenes?
c. ¿Cuál es la probabilidad de que un alumno apruebe solamente uno de los dos exámenes?
d. Se sabe que un alumno aprobó la teoría. ¿Cuál es la probabilidad de que apruebe también la
práctica?
Ejercicio 5:
El 35% de los créditos de un banco es para vivienda, el 50% para industrias y el 15% para consumo
diverso. Resultan fallidos el 20% de los créditos para vivienda, el 15% de los créditos para industrias
y el 70% de los créditos para consumo. Calcula la probabilidad de que se pague un crédito elegido al
azar.
Ejercicio 6:
El volumen de producción en tres plantas diferentes de una fábrica es de 500 unidades en la primera,
1000 unidades en la segunda y 2000 en la tercera. Sabiendo que el porcentaje de unidades
defectuosas producidas en cada planta es del 1%, 0.8% y 2%, respectivamente, calcula la
probabilidad de que al seleccionar una unidad al azar sea defectuosa.
Ejercicio 7:
El 20% de los empleados de una empresa son ingenieros y otro 20% son economistas. El 75% de los
ingenieros ocupan un puesto directivo y el 50% de los economistas también, mientras que de los no
ingenieros y no economistas solamente el 20% ocupan un puesto directivo. ¿Cuál es la probabilidad
de que un empleado directivo elegido al azar sea ingeniero?
VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS
DISTRIBUCIONES DE PROBABILIDADES
Semana 8
En el cálculo de probabilidades, generalmente, es más
sencillo identificar los eventos numéricamente, y no con
la simple descripción del suceso que pueda ocurrir, es
más, en muchas ocasiones no podemos registrar todos los
sucesos inmersos en el espacio muestral del experimento.
Debemos recurrir a cuantificar esos símbolos iniciales en
números reales que se puedan operar matemáticamente.
Variable Aleatoria
Definición: Una variable aleatoria es una función definida sobre un espacio muestral a los
números reales. Si ese espacio muestral especificado como dominio es numerable, decimos
que la variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.
En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria X: el
número de sellos obtenido.
En la tirada de dos dados si X es la suma obtenida:
FUNCIÓN DE PROBABILIDAD
Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos, los
cuales desde luego, tienen asociada una probabilidad de ocurrencia.
1. Función de Probabilidad f(x)=p(X=x): Es una función definida sobre una variable aleatoria a los
reales en el intervalo [0,1] que cumple con los axiomas de la teoría de la probabilidad.
2. Función de Distribución F(x)=p(X=x)
Es la acumulada de una función de probabilidad.
-: Limite inferior de la variable X
Ejemplo:
En el Lanzamiento de una Moneda,
X: Número de Sellos
Ejemplo:
X es la Suma Obtenida en el Lanzamiento de dos Dados:
Ejemplo: ¿ Cuál es la probabilidad que un disparo impacte a menos de 15 cm del centro? ¿ a más de
9 centímetros? ¿Entre 7 y 14 centímetros?
CUESTIONARIO Y EJERCICIOS PROPUESTOS
1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria continua, función
de probabilidad y función de distribución.
2. En el ejercicio de la ficha de dominó, si X representa la diferencia absoluta entre los dos
números, representar y calcular la probabilidad de ocurrencia de los siguientes eventos:
2.1 La diferencia sea menor o igual a 5
2.2 La diferencia sea mayor que 2
2.3 La diferencia sea mayor que 2 pero menor o igual 5
2.4 La diferencia sea mayor que 5 ó menor que 3
DISTRIBUCIÓN BINOMIAL
Modulometodosestadisticos2011 110329231153-phpapp01
Modulometodosestadisticos2011 110329231153-phpapp01
DISTRIBUCIÓN DE POISSON
La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del
tiempo ó del espacio. Es el caso del número de llamadas que entran a una central telefónica en una
unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, los baches por
kilómetro en una autopista, los artículos defectuosos que hay en un lote de producción; amén de su
utilización como aproximación binomial cuando p es muy cercano a cero, o n superior a 30. (p<0.1 ,
n>30).
La función de probabilidad de Poisson es:
Ejemplo:
Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que un
una hora determinada:
1. Atienda menos de 5 personas
2. Atienda más de 8 personas
3. Atienda más de 5 pero menos de 8 personas
4. Atienda exactamente 7 personas
Consultando la tabla para la distribución de Poisson:
Ejemplo:
En cierto núcleo poblacional, el 0.5% es portador del V.I.H. En una muestra de 80 personas, cual es
la probabilidad:
1. De que haya alguna persona portadora.
2. No haya personas portadoras.
Solución:
DISTRIBUCIÓN NORMAL
Dada la caracterización propia de este modelo continuo, donde coinciden las medidas de tendencia
central, media, moda y mediana; la simetría respecto a estos parámetros y la facilidad de su
aplicación hacen de la distribución normal, una herramienta de uso común, máxime que la mayoría
de las variables económicas y sociales se ajustan a una función normal.
La distribución normal, también es útil como aproximación de los modelos binomial y poisson
expuestos anteriormente, y yendo un poco más adelante, sustentados en el teorema del “límite
central” podemos afirmar que, cuando el tamaño de la muestra es lo suficientemente grande,
podemos asumir el supuesto de normalidad para una suma de variables.
La forma acampanada de la variable normal, resalta la perfección de esta curva definida por los
parámetros
Sin embargo, existen infinitas distribuciones normales, ya que por cada media aritmética ó
varianza diferente se describe una función también diferente:
Normal Diferente Media Igual Varianza
Normal Diferente Varianza Igual Media
Las gráficas de este tipo son muy corrientes: Hay pocos individuos en los
extremos y un aumento paulatino hasta llegar a la parte central del
recorrido, donde está la mayoría de ellos.
DEFINICIÓN :
Es la distribución más importante en la estadística.
Es una distribución simétrica con respecto a su promedio, teniendo la media,
mediana y moda el mismo valor. El valor máximo ocurre cuando
U = Me = Mo
x y σ,
En el caso de la
Distribución normal de
parámetros
dicha función viene dada
por:
<= >=
Z = x – u
δ
Casos:
I. P [x≤x] = P [ Z ≤ x – u ]
δ
II. P [x≥x] = 1 – P[x ≤ x] = 1 – P[ Z ≤ x – u ]
δ
III. P[a ≤ x ≤ b] = P[x ≤ b] – P[x ≤ a]
= P[Z ≤ b – u ] – P[Z ≤ a – u ]
δ δ
a) Tenga un contenido mayor a 1020 cm3
u = promedio = 1000 cm3
σ = 30 cm3
P [x > 1020]
= 1 – P[ x ≤ 1020]
= 1 – P[ z ≤ 1020 – 1000 ]
30
= 1 – P [ z≤ 0,67] Buscar en tablas 0,67
= 1 – 0,74857 = 025143 ó 25.14%
b) Tenga un contenido menor a 975 cm3
P[ x < 975 ]
P [ z ≤ 975 – 1000 ]
30
P [ z ≤ -0.833] = 0,20327 ó 20.33%
c) Contenga entre 980 y 1030 cm3
P [980 ≤ x ≤ 1030]
P [ z≤ 1030 – 1000 ] – P[z ≤ 980 – 1000 ]
30 30
P [ z≤ 1 ] – P [z ≤ -0.666 ] ……………………….. Ver en tablas
0.84134 - 0.25143
0.58991 ó 58.99%
2. Una prueba acelerada de duración en un gran número
de pilas alcalinas tipo D, reveló que la duración media
para un caso específico antes que falle es 19 h. La
distribución de las duraciones se aproxima a una
distribución normal. La desviación estándar de la
distribución fue de 1.2 h.
Calcular:
a) Probabilidad que dure más de 21 horas
b) Probabilidad que dure como máximo 17.8 horas
c) Probabilidad de que su duración esté comprendida
entre 18.7 y 19.3 h
Nota: Las tablas utilizadas en esta sesión, se encuentran
colgadas en el Aula Virtual de la USS y en el blog:
www.ingenieriainvestigacazasi.blogspot.com
Practica Calificada N° 08
1. La probabilidad de que un visitante efectúe una compra en un almacén, durante un
día dado es 0.8. Si al negocio entran 20 clientes, ¿cuál es la probabilidad de que el
almacén realice:
1.1 Exactamente 16 ventas?
1.2 Menos de 17 ventas?
1.3 Más de 14 ventas?
1.4 Exactamente 5 ventas?
1.5 ¿Cuál es el número esperado de ventas?
2. Si un almacén tiene en promedio 5 ventas por hora. ¿Cuál es la probabilidad de que
en una hora determinada:
2.1 Haya exactamente 4 ventas?
2.2 Haya más de 3 ventas?
2.3 No se efectúen ventas?
3. Una de cada 10 personas mayores de 40 años de una comunidad, sufren de
hipertensión. Se toma una muestra de 50 personas mayores de 40 años.
Utilizando primero la distribución binomial y luego la aproximación a la distribución
de Poisson, responder y comparar los resultados:
3.1 ¿Cuál es la probabilidad que haya más de 4 hipertensos?
3.2 ¿Cuál es la probabilidad que haya exactamente 5hipertensos?
4. Un lote de arandelas tiene un diámetro normal con media 10 milímetros y
desviación típica 0.5 milímetros. Se toma una arandela al azar. ¿Cuál es la
probabilidad de que tenga un diámetro:
4.1 Superior a 10.5 milímetros?
4.2 Entre 9 y 11 milímetros?
4.3 Menos de 9 milímetros?
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
Semana 10
La preparación de un proyecto de investigación es una
tarea compleja, ya que se han de tener en cuenta multitud de
aspectos para que el documento final contemple todos los
apartados que cualquier estructura estándar considera y para
que todos los investigadores sepan con qué y cómo deben
proceder en todas las etapas de ejecución del estudio planteado.
Uno de los dilemas que se presenta cuando se inicia la
elaboración del proyecto es decidir sobre los individuos o
elementos que se incluirán en el estudio: qué características
tendrán «criterios de inclusión y exclusión», a cuántos pacientes
se estudiará «tamaño de la muestra» y cómo se elegirán para
que entren a formar parte del estudio «técnica de muestreo».
Estudiar a toda la población, que sería la manera más exacta de conocer lo que se pretende
estudiar, es casi imposible en la práctica. Entre los motivos que lo impiden se encuentran la falta de
tiempo, la escasez de recursos humanos y económicos, la dificultad para acceder a todos los sujetos,
etc., por lo que se estudia sólo a una parte de ellos, para, posteriormente, generalizar o inferir los
resultados obtenidos a toda la población.
Por tanto, cuando se habla de sujetos de estudio, se ha de diferenciar claramente entre
población, muestra e individuo.
TEOREMA DEL MUESTREO
DISEÑO DE MUESTRA
1. Definir la Población Meta: Conjunto de Elementos que poseen la información
que se busca
2. Determinar el Marco de la Muestra: Lista o grupo de indicaciones para
identificar a la población meta
Listas:
 Directorio Telefónico de Organizaciones
 Lista de correo
3. Seleccionar las Técnicas de Muestreo
TÉCNICAS NO PROBABILÍSTICAS:
Es aquella en la cual los elementos del conjunto población no tienen la misma probabilidad
de ser seleccionado.
1. Por Conveniencia: Su principal debilidad es el nombre, ya que, para muchas personas el
nombre da a entender que se está haciendo la selección de las unidades de análisis amañando
las respuestas, situación que no es cierta, toma su nombre, debido a que se busca obtener una
representatividad de la población consultando o midiendo unidades de análisis que pueden ser
accesadas con relativa facilidad. Es uno de los muestreos con mayor uso, dado esa
particularidad.
2. Por Juicio: Se busca seleccionar a individuos que se juzga de antemano tienen un
conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información
aportada por esas personas es vital para la toma de decisiones. En el área de vacunas
sintéticas, el Dr. Patarroyo, es considerado una eminencia, luego sería un personaje ideal para
hablar sobre esa temática. Si se utilizará un método aleatorio, probablemente quedarían en la
muestra algunas personas con poco dominio sobre el tema en estudio.
N o P r o b a b ilís t ic o
Por
Conveniencia
Por
Juicio
Por
Cuota
Por
BoladeNieve
Simple
Sistemático
Por
Grupo
Estratificado
Áreas
T E C N IC A S D E
M U E S T R E O
P ro b a b i l í s t i c o
3. Por Cuota: Se asemeja al muestreo estratificado en el sentido que busca representatividad
de diferentes categorías o estratos de la población objeto de estudio, sin embargo, para la
selección de esas unidades no usa el azar: Es uno de los más usados en la práctica.
4. Por Bola de Nieve: Este muestreo no es tan común, pero que tiene su aplicabilidad en
diversos casos, se pretende localizar a algunos individuos, de tal manera que estos, lleven a
otros y así sucesivamente. Su aplicabilidad, esta mayoritariamente en estudios con
poblaciones de difícil ubicación y/o identificación, como es el caso de: drogadictos, enfermos
de VH Sida, personas son hábitos escasos etc.
TÉCNICAS PROBABILÍSTICA:
Es aquella mediante la cual cada uno de los elementos de la población tienen la misma
oportunidad de ser seleccionados
Clases de Muestreo Probabilístico
1. Muestreo Aleatorio Simple: Es aquel en que cada uno de los elementos tiene la misma
oportunidad de ser seleccionados. Generalmente se realiza con la ayuda de números
aleatorios.
2.Muestreo Sistemático: Es aquella técnica en la que después de seleccionarse
aleatoriamente el 1er elemento de la muestra, el resto de elementos se selecciona mediante un
sistema particular, como por ejemplo de 10 en 10.
3.Muestreo Estratificado: Es aquel que divide a la población en áreas o estratos, después de
lo cual considera a cada uno de ellos para sacar parte de la muestra total.
Generalmente este tipo de muestreo se efectúa en forma proporcional al número de elementos
de cada estrato, es decir, en función a sus porcentajes con respecto al número total de
elementos de la población.
Ejemplo Aplicativo
1. Una empresa decide premiar a sus trabajadores por el éxito obtenido en la última campaña,
sorteando 10 pasajes entre ellos a la ciudad del Cuzco, incluyendo bolsa de viaje.
Haga la selección de los trabajadores favorecidos en forma aleatoria simple, utilizando una
tabla de números aleatorios.
Punto de partida: Columna 8 y fila 5
Respuesta
Números leídos en la tabla:
…………………………………………………………………………………
Los trabajadores seleccionados fueron:
2. Efectúe la selección de los 10 trabajadores del ejemplo anterior mediante un muestreo aleatorio
sistemático. Escoja aleatoriamente entre los 8 primeros trabajadores a uno y luego seleccione los
restantes de tres en tres (contando a partir del primer trabajador seleccionado).
Punto de partida para seleccionar al primero: Columna 3 y fila 7.
Primer trabajador seleccionado es el número: ……………………….
Trabajadores restantes: ………………………………………………
3. Supongamos que el dueño de la Empresa decide premiar a sólo 15 trabajadores, pero en la
premiación deben estar trabajadores de todas las áreas en forma proporcional a la cantidad que
aparece en la lista.
Solución
Tenemos la siguiente distribución de trabajadores por sección:
Jefatura 3
Of. de Auditoría Interna 8
Of. de Asesoría Jurídica 5
Of. de Planeamiento y Desarrollo 7
Secretaría General 6
Of. de Administración 6
Total 35
Hacemos la siguiente tabla de distribución
Área de Trabajo N’ Trabajadores Porcentaje % N’ Trabajador
Considerado
Jefatura 3 8.57 1
Of. de Auditoría Interna 8 22.86 3
Of. de Asesoría Jurídica 5 14.29 2
Of. de Planeamiento y
Desarrollo
7 20.00 3
Secretaría General 6 17.14 3
Of. de Administración 6 17.14 3
Total 35 100 15
 Se halla primero el porcentaje individual que representa cada trabajador en su área
 Ahora, en la nueva repartición el total es 15 trabajadores, entonces para hallar la
cantidad de trabajadores por área se calcula de la sgte. manera:
15 ------ 100%
X ------ 8.57%
X : 8.57 * 15 X = 1.29 trabajador, equivale a 1
100
Una vez determinado el número a seleccionar en cada estrato, en cada uno de ellos se aplica
muestreo aleatorio simple.
Modulometodosestadisticos2011 110329231153-phpapp01
TAMAÑO DE LA MUESTRA
El tamaño de la muestra es el número de sujetos que componen la muestra
extraída de una población, necesarios para que los datos obtenidos sean
representativos de la población
Conceptos:
 Parámetro: Característica de la Población
 Estadístico: Característica de la Muestra
EL TAMAÑO DE LA MUESTRA DEPENDE DE TRES ASPECTOS:
1. NIVEL DE PRECISIÓN: ó Error Muestral
El Error Muestral o Error de Estimación es el error a causa de
observar una muestra en lugar de la población completa, también es
la diferencia entre un estadístico y su parámetro correspondiente.
La estimación de un valor de interés, como la media o el porcentaje, estará
generalmente sujeta a una variación entre una muestra y otra.
Estas variaciones en las posibles muestras de una estadística pueden,
teóricamente, ser expresadas como errores muestrales, sin embargo,
normalmente, en la práctica el error exacto es desconocido. El error muestral
se refiere en términos más generales al fenómeno de la variación entre
muestras.
2. NIVEL DE CONFIANZA ESTIMADO (z)
Probabilidad de que un intervalo de confianza incluya el parámetro de la
población.
Ejemplo:
Si Confianza es de 99%, la desconfianza es 1%
γ = 0.99
α = 0.01
α/2 0.99 α/2
F(z) = 0.995
z = 2.58
* Nivel de Confianza 99%  z = 2.58
98%  z = 2.33
97%  z = 2.17
96%  z = 2.05
95%  z = 1.96
94%  z = 1.88
93%  z = 1.81
92%  z = 1.75
91%  z = 1.70
90%  z = 1.64
El Intervalo de Confianza está compuesto por: Límite Superior y Límite
Inferior
3. CARÁCTER FINITO O INFINITO DE LA POBLACIÓN:
Se considera finita cuando se conoce la población y es infinita cuando no se
conoce el total de la población.
Cálculo de “n” (Tamaño de la muestra)
Caso I: Para proporciones o porcentajes (variable cualitativa)
~ Para población infinita o
grande
(N desconocida)
n = z2
.p.q
~ Para población finita (N conocida)
n = N.z2
.p.q
(N-1).D2
+z2
.p.q
Dónde: z: nivel de confianza
D: error aceptado/precisión requerida
p: probabilidad de éxito que ocurra el suceso
q: probabilidad que no ocurra el suceso
NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el tamaño
de la muestra de la siguiente manera:
n = ____n____
(1 + n/N)
NOTA2: Si no se conoce el dato previo de p y q, se asume que cada uno de ellos vale
50%, es decir: p = q = 0.50 = 50%
Cuando se supone p=q=0.50, se obtiene el máximo tamaño de muestra, es
decir que para cualquier tamaño de p y q, “n” sea menor.
Caso II: Para promedios (variable cuantitativa)
~ Para población infinita o
grande (N desconocida)
n = (z .σ / D) 2
~ Para población finita (N conocida)
n = N.z2
. σ 2
__
(N-1).D2
+ z2
. σ2
Dónde σ2
= varianza
NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el
tamaño de la muestra de la siguiente manera:
n = ____n____
(1 + n/N)
NOMENCLATURA
n = Número de elementos de la muestra
N = Número de elementos de la población o universo
P/Q = Probabilidades con las que se presenta el fenómeno.
Cuando el valor de P y de Q sean desconocidos o cuando la encuesta abarque
diferentes aspectos en los que estos valores pueden ser desiguales, es conveniente
tomar el caso más adecuado, es decir, aquel que necesite el máximo tamaño de la
muestra, lo cual ocurre para P = Q = 50, luego, P = 50 y Q = 50.
Z = Valor crítico correspondiente al nivel de confianza elegido
E = Margen de error permitido (determinado por el responsable del estudio).
Ejercicios Resueltos de Tamaño de Muestra
1. Suponga que las estaturas de los hombres de cierto país tienen distribución normal con
desviación estándar de 2.5 pulgadas. ¿De qué tamaño se debe tomar la muestra si se desea
determinar un intervalo de confianza del 95% para la media con un error de estimación de
0.5?
Solución
Datos: δ = 2.5” n = (z. δ / D)2
z = 95% = 1.96 n = (1.96x2.5/0.5)2
D = 0.5 n = 96.04
n = 96 hombres
2. Un analista desea estimar el salario promedio de los trabajadores de una compañía
determinada con un margen de error de $250 y una confianza del 90%. Se estima que la
desviación estándar de los salarios no es mayor de $1000. ¿Cuál es el número de
expedientes que deben muestrearse como mínimo para satisfacer este objetivo de
investigación?
Solución
Datos: D = 250 n = (z. δ/D)2
z = 90% = 1.64 n = (1.64x1000/250)2
δ = 1000 n = 43.03
n = 43 expedientes
3. El rector de una universidad particular desea estimar el costo promedio de un año de
estudios con un error de estimación menor a $500 y con una probabilidad del 95%. Suponga
que la universidad solo tiene 1500 alumnos y que el costo tiene una desviación estándar
aproximada de $4000. ¿Cuántos alumnos deben seleccionarse?
Solución
Datos: D = 500 n = _____N . z2
. δ2
____
z = 95% = 1.96 (N-1).D2
+ z2
. δ2
N = 1500
δ = 4000 n = 1500 . (1.96) 2
. (4000)2
(1499)(500)2
+ (1.96)2
.(4000)2
n = 211.3597
n = 211 alumnos
En este caso se hace la comprobación:
n = 211 = 0.14 > 0.05
N 1500
Se debe corregir a: n _ = 211 = 185 estudiantes
1 + n_ 1 + 211
N 1500
Interpretación: Se debe tomar en cuenta a 185 estudiantes para que el resultado tenga una
confianza del 95% y una precisión de 500$ ( un error no mayor a $500)
4. Se desea estimar el peso promedio de 800 naranjas. Para ello se va a escoger aleatoriamente
cierto # de ellas. Se desea que el erro de estimación sea máximo de 3 gr con una confianza
del 90%. ¿Cuántas naranjas deben seleccionarse?. Suponga que la varianza es
aproximadamente de 144 gramos al cuadrado.
Solución
Datos: N = 800 n = N . z2
. δ2
_____
D = 3 grs (N-1).D2
+ z2
. δ 2
z = 1.64
δ2
= 1.44 n = 800 . (1.64) 2
. (144)
799.(3)2
+ (1.64)2
.144
n = 40.885
n = 41 naranjas
En este caso se hace la comprobación:
n = 41 = 0.05125 > 0.05
N 800
Se debe corregir a: n _ = 41 = 39 naranjas
1 + n_ 1 + 41
N 800
Interpretación: Se debe considerar a 39 naranjas para que el peso promedio calculado tenga
una confianza del 90%, con un error máximo de 3 gramos.
5. Se desea estimar en cierta ciudad la proporción de estudiantes que están a favor de la
legalización de las drogas prohibidas. El error de estimación que se requiere es del 1% y un
nivel de confianza del 99%. ¿Cuántos estudiantes deben incluirse en la muestra?
Solución
Datos: D = 0.01 n = z 2
. p .q
z = 99% = 2.58 D2
p = q = 0.50
(no hay información previa ) n = (2.58)2.(0.5)(0.5)
(0.001)2
n = 16641 estudiantes
Interpretación: Para que el % de estudiantes calculado tenga una confianza del 99% con un
error no mayor de 1% se debe encuestar a 16641 estudiantes.
6. El jefe de personal de una empresa desea realizar una encuesta para determinar la
proporción de trabajadores que está a favor de un cambio en el horario de trabajo. Como es
imposible consultar a los 500 trabajadores en un lapso razonable, procede a escoger
aleatoriamente cierto # de trabajadores para entrevistarlos; determine el número de
trabajadores que debe entrevistarse si desea que la proporción estimada presente un error
máximo del 5% y un nivel de confianza del 95%.
Solución
Datos: N = 500 n = N. z2
. p.q__
D = 0.05 (N-1).D2
+ z2
.p.q
z = 95% = 1.96
p = q = 0.50 n = 500 . (1.96) 2
. (0.50)2
499.(0.05)2
+ (1.96)2
.(0.50)2
n = 217.49
n = 217 trabajadores
En este caso se hace la comprobación:
n = 217 = 0.434 > 0.05
N 500
Se debe corregir a: n _ = 217 = 151 trabajadores
1 + n_ 1 + 217
N 500
Interpretación: Para que el porcentaje de trabajadores que están a favor del cambio de
horario calculado tenga una confianza del 95% y un error no mayor al 5%, se deben
considerar como muestra 151 trabajadores.
7. Un prospecto de comprador desea estimar el promedio de ventas por cliente (en $) en una
tienda de juguetes ubicada en un aeropuerto. Con base en datos de otras tiendas similares, se
estima que la desviación estándar de ese tipo de ventas es de aprox. $32. ¿Qué tamaño de
muestra se debe utilizar como mínimo, se desea estimar las ventas promedio con un margen
de error de $8 y un intervalo de confianza del 99%?
Solución
Datos: δ = $32 n = (z. δ/D)2
D = 8 n = ( 2.58 x 32 )2
z = 99% = 2.58 8
n = 107
Interpretación: Para que el promedio de ventas calculado sea aceptado con un 99% de
confianza y un error que no sobrepase los 8 dólares, el tamaño a considerar debe ser de 107
ventas.
 El error generalmente no debe sobrepasar a un cuarto de la desviación estándar, si
sobrepasa la muestra es pequeña.
8. Un administrador universitario desea estimar la proporción de estudiantes inscritos en
programas de postgrado en administración de empresas, que también tienen licenciaturas en
la misma área, con un margen de error del 0,05 y una confianza del 90%. Determine el
mínimo tamaño de la muestra si:
a) No existe ninguna base para estimar el valor apropiado de la proporción antes de tomar la
muestra
b) Si una información previa señala que la proporción no es mayor de 30%
Solución
a) Datos: D= 0.05 n = [ 1.64 x o.50]2
z = 90% = 1.64 0.05
p = q = 0.50
n = 268.96
n = 269
b) Datos: p = 0.30 n = (1.64)2
.(0.30).(0.70)
q = 0.70 (0.05)2
D = 0.05
z = 1.64 n = 225.93
n = 226 estudiantes
Practica Calificada N° 10
1. Queremos ajustar una máquina de refrescos de modo que el promedio del líquido dispensado quede
dentro de cierto rango. La cantidad de líquido vertido por la máquina sigue una distribución normal con
desviación estándar 0´15 decilitros. Deseamos que el valor estimado que se vaya a obtener comparado
con el verdadero no sea superior a 0´2 decilitros con una confianza del 95%.¿De qué tamaño debemos
escoger la muestra?
2. Es necesario estimar entre 10.000 establos, el número de vacas lecheras por establo con un error de
estimación de 4 y un nivel de confianza del 95%. Sabemos que la varianza es 1.000. ¿Cuántos establos
deben visitarse para satisfacer estos requerimientos?
3. Una máquina llena cajas con cierto cereal. El supervisor desea conocer con un error de estimación de
máximo 0´1 y un nivel de confianza del 90%, una media estimada del peso. Como la varianza era
desconocida se procedió a escoger una muestra piloto. Los resultados fueron los siguientes: 11´02, 11´14,
10´78, 11´59, 11´58, 11´19, 11´71, 11´27, 10´93, 10´94. ¿Cuántas cajas debe escoger para que se cumplan
los requisitos propuestos?
4. Se desea conocer el peso promedio de una determinada clase de pescado con un error de estimación de
0´02 y con un nivel de confianza del 99%. Por datos anteriores se sabe que el peso mínimo es 1´48 libras
y el máximo es de 2´47 libras.¿De qué tamaño debe escoger la muestra? Suponga que los pesos de estos
pescados se distribuyen normalmente.
5. Se desea hacer una encuesta para determinar la proporción de familias que carecen de medios
económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima
a 0´35. Se desea determinar un intervalo de confianza del 95% con un error de estimación de 0´05. ¿De
qué tamaño debe tomarse la muestra?
6. Un productor de semillas desea saber con un error de estimación del 1% el porcentaje de semillas que
germinan en la granja de su competidor. ¿Qué tamaño de muestra debe tomarse para obtener un nivel de
confianza del 95
7. Se desea realizar una encuesta entre la población juvenil de una determinada localidad para determinar
la proporción de jóvenes que estaría a favor de una nueva zona de ocio. El número de jóvenes de dicha
población es N=2.000. Determinar el tamaño de muestra necesario para estimar la proporción de
estudiantes que están a favor con un error de estimación de 0´05 y un nivel de confianza del 95
8. Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un
estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2
libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el
error de estimación es a lo más de 4 libras?
9. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una
desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se desea tener 96% de
confianza que la media real esté dentro de 10 horas de la media real?
10. Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se desea saber de
que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo.
11. En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Canadá,
se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se
quiere tener 95% de confianza de que la estimación de P esté dentro de 0.02?
12. Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción
del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué
tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de
0.10?
TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA
Semana 11
La inferencia estadística es el proceso de usar resultados muestrales
para obtener conclusiones respecto a las características de una
población.
En esta sección estudiaremos los procedimientos estadísticos que
permitan estimar dos parámetros de una población: la media y la
proporción.
Razón para estimar
Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales, sin
que tengan la información pertinente completa y con una gran incertidumbre acerca de lo que
pueda deparar el futuro, pero con la intención de que las estimaciones constituyan una buena
aproximación de los parámetros desconocidos de la población.
Estimador
Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza para
deducir la estimación.
Estimación
Es un valor específico observado de un estimador, por lo que asigna uno o varios valores
numéricos a un parámetro de una población sobre la base de datos de muestra.
Tipos de estimación
a) Estimación puntual:
Consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de un
parámetro de una población que es desconocido.
Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno
de estimación es prácticamente improbable que el valor de la estimación coincida con el
verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación
con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro.
Una solución a ello no los brindan los estimadores por Intervalos de Confianza.
b) Estimación por intervalo:
Es la estimación de un parámetro de la población dado por dos números que forman un
intervalo que contiene al parámetro con una cierta probabilidad.
Conceptos básicos
Nivel de Confianza
Está asociado con la probabilidad de que el intervalo de confianza contenga al parámetro de la
población y es expresado en porcentaje. Los niveles de confianza que más se utilizan son 90%,
95% y 99%.
Lo denotaremos por 1, donde es un valor tal que 0 1. Note que a medida que e
acerca a 0, 1se acerca a 1, ésto significa que aumenta la probabilidad de que el intervalo
construido contenga al verdadero valor del parámetro que estamos estimando.
Nivel de Significación:
Llamaremos así al valor de .
Límites de Confianza
Son el límite inferior y superior de un intervalo de confianza.
Modulometodosestadisticos2011 110329231153-phpapp01
ESTIMACIÓN ESTADÍSTICA PARA MEDIAS MUESTRALES
CASO I Muestra Grande: n ≥ 30
µ = δ . z
√n
Dónde: z = distribución normal
CASO II Muestra Pequeña: n < 30
µ = s . t
√n
Dónde: s = desviación estándar
t = distribución t-Student; se calcula usando el grado de confianza
y los grados de libertad.
Ejemplo:
Si δ = 95% (0.95) y n = 8
∞ = 5% (0.05)
 p = 0.95 + 0.025 = 0.975 (también se halla p = 1 - ∞/2)
 Grados de libertad: n-1 = 8 – 1 = 7
 Con p = 0.975 y n =7 , se lleva a la tabla de la función de
distribución t-Student, donde t = 2.447
Ejemplos de uso de la tabla:
 Para δ= 90% y n = 25, calcular t-Student (1,711)
 Para p=0.95 y n=18, calcular t-Student (1.740)
Ejemplo 1
Se desea estimar la experiencia docente promedio de los profesores de cierta universidad, y para
tal efecto se toma una muestra de 8 de ellos, siendo los resultados de experiencia medidos en
años los siguientes: (δ = 95%)
{11,9,7,13,10,5,7,12} años
Solución
Hallamos
= (11+9+7+13+10+5+7+12)/8 = 9.25
S2
= ∑(xi - )2
=(11-9.25)2
+ (9-9.25)2
+ (7-9.25)2
+ … + (12-9.25)2
n - 1 7
S = √7.62 = 2.76
µ = 9.25 2.76 . 2.447
√8
Usando: +, tenemos 11.56 años
-, tenemos 6.94 años
Entonces la estimación queda:
µ = [6.94 años – 11.56 años]
Interpretación: La experiencia estimada promedio de los docentes de la universidad evaluada
está entre: 6.94 y 11.56 años con una confianza del 95%.
Si tenemos que δ + ∞ = 1
Confianza δ ∞ ∞/2 p= 1-∞/2
0.90 (90%) 0.10 0.05 0.950
0.95 (95%) 0.05 0.025 0.975
0.99 (99%) 0.01 0.005 0.995
Ejemplo 2
Se tomó una muestra aleatoria de 50 candidatos que se presentan a realizar la prueba de
suficiencia en el departamento de selección, donde se tiene una media de 150 puntos y una
desviación de 63 puntos. Calcular el intervalo de confianza del 95%
Solución
Se trata del caso I, dónde: µ = δ . z
√n
= 150 , δ = 63 , Confianza 95%  z = 1.96
µ = 150 63 . 1.96
√50
150 + 14.369 150 - 14.369
164.369 135.631
Los límites de confianza están entre
135.631≤ µ ≤ 164.369
Ejemplo 3
Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra
de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el
río. Suponga que los datos siguen una distribución normal con una desviación estándar de 0.3.
Solución
La estimación puntual de es 2.6.
* El valor de z del 95% es 1.96, por lo tanto el intervalo lo calcularíamos como:
2.6  
 √
y por tanto [2.5,2.7] con una confianza del 95%.
En otras palabras, la probabilidad de que la concentración media de zinc esté entre
2.5 y 2.7 gramos por mililitro es de 0.95.
* Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el
intervalo será más amplio:
2.6 2.575*0.3
√36

    [2.47,2.73]
la probabilidad de que la concentración media de zinc esté entre 2.47 y 2.73
gramos por mililitro es de 0.99.
Ejemplo 4
Extraemos una muestra de 61 estudiantes universitarios, ellos responden a una prueba de
inteligencia en la que alcanzan una media de 80 y una varianza de 100. ¿Entre qué límites se
hallará la verdadera inteligencia media de los estudiantes, a un nivel de confianza del 99%?
Solución
1- ∞ = 0.99  ∞ = 0.01  1 - ∞/2 = 0.995
2-
El tamaño muestral es mayor que 30, por tanto buscamos en las tablas la
distribución t de Student t0.995 (60) = 2.66
Sabemos que = 80 y s = 10 . Sustituyendo en el intervalo de confianza tenemos:
[80 – 2.66 10 , 80 + 2.66 10
√61 √61
por tanto,  [76.57,83.43] con un nivel de confianza del 99%.
Practica Calificada N° 11
I. ESTIMACION PUNTUAL
1. Los siguientes datos corresponden a los pesos (en kilogramos) de 15 hombres escogidos
al azar y que trabajan en una empresa: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77,
70,69. Estime el peso promedio y la desviación estándar.
2. Entre los miembros de una comunidad se escogieron 150 personas al azar y se les
preguntó si estaban de acuerdo con los programas que el gobierno estaba desarrollando
para prevenir el consumo de drogas; la encuesta dio como resultado que 130 sí estaban de
acuerdo. Estime la proporción de los que estaban de acuerdo y el error estándar.
3. De las 50 aulas que tiene un edificio de la facultad de matemáticas se escogieron al azar 5
y se determinó el número de alumnos que había en cada una de ellas en la primera hora
de clases. Estime el número de alumnos que hay en el edificio si todas las aulas se
encuentran ocupadas a esa hora, y si el numero de alumnos en cada una de las aulas
inspeccionadas fue: 24, 35, 16, 30, 28.
4. Teniendo en cuenta los datos del problema I, estime el error del peso promedio.
5. Teniendo en cuenta los datos del problema III, estime el error del número total de
estudiantes.
II. ESTIMACIÓN POR INTÉRVALOS
1. Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un
contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de
nicotina de estos cigarrillos sigue una distribución normal con una desviación
estándar de 1 miligramo.
a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero
contenido promedio de nicotina en estos cigarrillos.
b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9
miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado?
2. El tiempo(en minutos) que tardaron 15 operarios para familiarizarse con el manejo
de una máquina moderna adquirida por la empresa fue: 3,4, 2,8, 4,4, 2,5, 3,3, 4,
4,8, 2,9, 5,6, 5,2, 3,7, 3, 3,6, 2,8,4,8. Suponga que los tiempos se distribuyen
normalmente.
3. Determine e interprete un intervalo del 95% de confianza para el verdadero
tiempo promedio
4. el instructor considera que el tiempo promedio requerido por la población de
trabajadores que recibe instrucción sobre esta m quina es superior a 5 minutos,
¿qué se puede decir de acuerdo con el intervalo hallado?
5. Se desea medir la diferencia entre dos categorías de empleados en la actividad de
seguros. Una est formada por personas con título superior y la otra por personas
que sólo tienen estudios secundarios. Tomamos una muestra de 45 empleados
entre los primeros y la media de ventas resulta ser 32. Tomamos 60 empleados del
segundo grupo y la media es 25. Suponga que las ventas de los dos grupos se
distribuyen normalmente con varianzas de 48 para los titulados superiores y 56
para los de estudios secundarios.
6. Calcule e interprete un intervalo del 90% de confianza para la verdadera
diferencia de las medias.
7. De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias sean
iguales?
8. Se registraron los siguientes datos, en minutos, que tardan algunos hombres y
mujeres en realizar cierta actividad en una empresa, los cuales fueron
seleccionados aleatoriamente.
HOMBRES MUJERES
n1=14 n2=25
Media=17 Media=19
Varianza=1,5 Varianza=1,8
9. Suponga que los tiempos para los dos grupos se distribuyen normalmente y que
las varianzas son iguales, aunque desconocidas.
10.Calcule e interprete un intervalo de confianza del 99% para la verdadera
diferencia de medias.
11.De acuerdo con el intervalo hallado, ¿hay evidencia de que los dos tiempos
promedio son iguales?
12.Una fábrica desea saber la proporción de amas de casa que preferirían una
aspiradora de su marca. Se toma al azar una muestra de 100 amas de casa y 20
dicen que les gustaría la máquina. Calcule e interprete un intervalo del 95% de
confianza para la verdadera proporción de amas de casa que preferirían dicha
aspiradora.
13.Se está considerando cambiar el procedimiento de manufactura de partes. Se
toman muestras del procedimiento actual así como del nuevo para determinar si
este último resulta mejor. Si 75 de 1.000 artículos del procedimiento actual
presentaron defectos y lo mismo sucedió con 80 de 2.500 partes del nuevo,
determine un intervalo de confianza del 90% para la verdadera diferencia de
proporciones de partes defectuosas.
14.Un fabricante de baterías para automóvil asegura que las baterías que produce
duran en promedio 2 años con una desviación estándar de 0,5 años. Si cinco de
estas baterías tienen duración 1,5, 2,5, 2,9, 3,2, 4 años, determine un intervalo del
95% para la varianza e indique si es cierta la afirmación del fabricante.
15.Tomando en cuenta los datos del problema IV, determine un intervalo del 90% de
confianza para el cociente de varianzas
TEORÍA ESTADÍSTICA DE LAS DECISIONES
PRUEBA DE COMPROBACIÓN DE HIPÓTESIS
Semana 12
Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra
aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se
puede emplear el método de muestreo y el teorema del valor central lo que permite explicar
como a partir de una muestra se puede inferir algo acerca de
una población, lo cual nos lleva a definir y elaborar una
distribución de muestreo de medias muestrales que nos permite
explicar el teorema del limite central y utilizar este teorema
para encontrar las probabilidades de obtener las distintas
medias maestrales de una población.
Pero es necesario tener conocimiento de ciertos datos de la
población como la media, la desviación estándar o la forma de
la población, pero a veces no se dispone de esta información.
En este caso es necesario hacer una estimación puntual que es
un valor que se usa para estimar un valor poblacional. Pero una
estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina
intervalote confianza y se espera que dentro de este intervalo se encuentre el parámetro
poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un
rango de valores en el que se espera se encuentre el parámetro poblacional
En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca
de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra.
Definición de HIPÓTESIS
Hipótesis es una aseveración de una población elaborado con el propósito de ponerla a prueba.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría
de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
Las hipótesis estadísticas se establecen
entonces para tomar decisiones sobre el valor de algún parámetro poblacional.
A partir de las siguientes premisas, elaborar un planteamiento de Hipótesis:
 un maestro parte de la premisa de que el estudiante asiste al curso con el deseo de
aprender.
 un electricista debe partir de la premisa de que la conexión eléctrica que va a revisar
está viva con corriente eléctrica;
 la sociedad parte de la premisa de que una persona es inocente hasta tanto se
pruebe lo contrario mas allá de duda razonable;
 dependiendo del lugar donde vivamos, podemos partir de la premisa de que la
persona que maneja el otro vehículo en la intersección respetará la señal de Pare o
Alto;
 un médico investigador parte de la premisa de que el nuevo medicamento no surtirá
efecto alguno;
 un sicólogo parte de la premisa de que dos grupos de individuos sometidos a
tratamientos distintos no mostrarán diferencias en su comportamiento.
Tipos de Hipótesis
La premisa de la cual se parte sobre el comportamiento de la población se conoce como la
hipótesis nula. Se le llama nula pues la misma generalmente indica, por ejemplo, que la media
poblacional es cero; que no hay diferencia entre los parámetros asociados a grupos en la
población; o que el medicamento no es efectivo en la población de pacientes.
La hipótesis nula se denota usualmente en símbolos por H0. El cero nos recuerda que se parte de
la premisa de que el efecto es nulo o que las diferencias entre los grupos es cero.
Al hacer investigaciones es usual pensar en una hipótesis de investigación, tal como: demostrar
que el medicamento es efectivo; demostrar que hay una diferencia significativa en la ejecución
en una prueba entre individuos que durmieron toda la noche e individuos que no durmieron, o
que unas plantas tratadas con hormonas crecen más que el grupo control. Esta hipótesis, lo que el
investigador desea demostrar sobre la población, se conoce como la hipótesis alternativa y se
denota por Ha.
En conclusión
Lo que el investigador desea demostrar es parte de la hipótesis alternativa y no de la nula por
varias razones. Una razón es que partir de una premisa contraria a lo que deseamos demostrar, y
luego encontrar evidencia concreta que nos lleve a rechazarla es un argumento más contundente
que presumir que lo queremos demostrar es cierto para luego encontrar evidencia que apoya
nuestro reclamo.
En este último caso puede reclamarse que observamos esos resultados sencillamente porque de
acuerdo con nuestra premisa, esperábamos que así fuera. Otra razón es que de esta manera
podemos controlar matemáticamente la probabilidad de cometer algunos tipos de error.
Ejemplo 1
Una persona es arrestada y se le acusa de cometer algún crimen. Inicialmente, esta persona es
considerada inocente. Usando los datos o evidencia disponible el fiscal debe demostrar que sin
duda razonable, la persona en efecto cometió el crimen.
En el caso de un acusado, la hipótesis nula es que el individuo es inocente. Sin embargo, para
decidir que un individuo no es culpable, no basta con observar muchas acciones o evidencia
consistentes con su inocencia, las que por sí solas generalmente no demuestran su inocencia. Por
el otro lado, observar comportamiento culposo permite llegar eventualmente a la decisión de
encontrar al individuo culpable, rechazando la hipótesis nula.
Ejemplo 2
Una maestra desea investigar si el refuerzo positivo a sus estudiantes les ayuda a obtener un
mejor desempeño en el próximo examen. Para esto divide aleatoriamente a sus estudiantes en
dos grupos. Al grupo A les felicita cuando hacen algo bien y les refuerza positivamente, mientras
que al grupo B les trata neutralmente. La metodología de enseñanza es la misma para ambos
grupos.
La hipótesis nula en este caso es que no hay diferencia entre los grupos en la puntuación
promedio en la prueba, es decir, ambas medias son iguales: H0: μA = μB, lo cual se puede
escribir en forma equivalente H0: μA - μB = 0. La hipótesis alternativa contiene el resultado que
el maestro desea probar, que la puntuación promedio del grupo A es mayor que la obtenida por
los estudiantes del grupo B, H0: μA > μB.
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación del
Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada
cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así
se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de
reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser
posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la
diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente
parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente
sea pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado
exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos
dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida.
Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal.
TEST DE HIPÓTESIS O CONTRASTE DE HIPÓTESIS
 Es una prueba de decisión que se establece a partir de la hipótesis nula con el fin de
aceptarla o rechazarla.
 Región Crítica: Es la región del espacio muestral que, de acuerdo con un determinado
test, obliga a rechazar la hipótesis nula si se encuentra en ella el estadístico de contraste.
 Región de Aceptación: Es la región del espacio muestral que, de acuerdo con un
determinado test, obliga a admitir la hipótesis nula, si se encuentra en ella el estadístico
de contraste.
La prueba de comprobación de hipótesis se realiza mediante un procedimiento sistemático de 5
pasos
Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no
a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia.
Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos
rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al
valor especificado del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le
denota mediante la letra griega α, también es denominada como nivel de riesgo, este termino es
mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es
verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará
la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de
confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en
la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de
rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística
de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba
que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa
la región de no rechazo de la de rechazo.
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se
rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos
los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se
toman, si las muestras son de la prueba son iguales a 30 o más se utiliza el estadístico z, en caso
contrario se utiliza el estadístico t.
Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤
H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200
En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)
poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba
es z y se determina a partir de:
El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se
determina por la ecuación:
En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional
desconocida se utiliza el valor estadístico t.
Paso 4: Formular la regla de decisión
Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones
en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los
valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la
suposición de que la hipótesis nula es verdadera, es muy remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con
el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en
una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la
hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula
cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la
hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
Importante!
Región Crítica o de Rechazo:
Una región crítica o de rechazo es una parte de la curva de z o de la curva t donde se
rechaza H0.
La región puede ser de una cola o de dos dependiendo de la hipótesis alterna.
Ejemplos Para H1
:  > valor aceptado, la región de rechazo está dada por:
(cola derecha, z ó t)
Para H1
:  < valor aceptado, la región de rechazo está dada por:
(cola izquierda, z ó t)
Para H1
:   valor aceptado, la región de rechazo es de dos colas y está dada
por:
(2-colas, z ó t)


/2/2
Ejemplo en la cual se indica el procedimiento para la prueba de
hipótesis
El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la
UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no
este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se
considera el nivel de significancia de 0.05
Datos:
Día Usuarios Día Usuarios Día Usuario
1 356 11 305 21 429
2 427 12 413 22 376
3 387 13 391 23 328
4 510 14 380 24 411
5 288 15 382 25 397
6 290 16 389 26 365
7 320 17 405 27 405
8 350 18 293 28 369
9 403 19 276 29 429
10 329 20 417 30 364
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación
estándar poblacional desconocida.
Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
Paso 03: Calculamos o determinamos el valor estadístico de prueba
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras
es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en
la formula reemplazando a la desviación estándar de la población.
Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se
muestra en el cuadro que sigue.
Columna1
Media 372.8
Error típico 9.56951578
Mediana 381
Moda 405
Desviación estándar 52.4143965
Varianza de la muestra 2747.26897
Curtosis 0.36687081
Coeficiente de asimetría 0.04706877
Rango 234
Mínimo 276
Máximo 510
Suma 11184
Cuenta 30
Nivel de confianza (95.0%) 19.571868
Paso 04: Formulación de la regla de decisión.
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la
mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las
dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis
alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En
caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.
Paso 05: Toma de decisión.
En este último paso comparamos el estadístico de prueba calculado mediante el Software
Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el
estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto
no se confirma el supuesto del Jefe de la Biblioteca.
Practica Calificada N° 12
1. Una máquina llena botellas que contienen cierta vitamina; se supone que el peso promedio de
vitamina en cada botella es de 32 gramos, con desviación estándar de 0,06 gramos. En una
comprobación sistemática para ver que la máquina funciona adecuadamente, se toman
aleatoriamente 46 botellas llenas y se advierte que contienen un promedio de 32,1 grs. A un nivel
de significación de 0,05:
a) ¿Se puede afirmar que la máquina funciona adecuadamente?
b) Se puede afirmar que la máquina está llenando un promedio mayor a 32 gramos con una
significación de 1%?
2. Las cajas de cereal producidas en una fábrica deben contener un contenido de 16 onzas. Un
inspector tomó una muestra que arrojó los sgtes. pesos en onzas: 15.7, 15.7, 16.3, 15.8, 16.1,
15.9, 16.2, 15.9,15.8 y 15.6.
Indicar si es razonable que el inspector usando un nivel de significación del 5%. Ordene se multe
al fabricante.
3. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo
tanto reducen la cantidad de oxígeno disuelto disponible para los peces y otras formas de vida
acuática. El Ministerio del Ambiente requiere un mínimo de 5 partes por millón de oxígeno
disuelto para que el contenido de oxígeno sea suficiente para la vida acuática. Seis muestras de
oxígeno tomadas de un río durante la estación de poco agua tuvieron: 4.9, 5.1, 4.9, 5.0, 5.0 y 4.7
partes por millón de oxígeno disuelto (ppm) . ¿Hay suficiente evidencia en los datos que
indiquen que el oxígeno disuelto es menor que 5 partes por millón? Haga la prueba usando una
significación del 5%
4. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo
tanto reducen la cantidad de oxígeno disuelto disponible por los peces y otras formas de vida
acuática. Un inspector de contaminación sospecha que cierta comunidad está descargando
desperdicios semitratados en el río. Para verificar su teoría, obtuvo 5 muestras de agua del río
seleccionadas al azar en una ubicación anterior a la ciudad y otras 5 en una ubicación posterior a
la ciudad. Las cantidades de oxígeno disuelto en partes por millón fueron:
Antes de la ciudad 4.8 5.2 5.0 4.9 5.1
Después de la ciudad 5.0 4.7 4.9 4.8 4.9
¿Proporcionan los datos suficiente evidencia para concluir que el contenido medio de oxígeno en
las ubicaciones que están después de la ciudad es menor que el de las ubicaciones que están antes
de la ciudad?. Use una significación del 5%.
5. Dos métodos para enseñar a leer fueron aplicados a dos grupos de niños de escuela elemental
seleccionados al azar y se compararon sobre la base de una prueba de comprensión de lectura
administrada al final del período de aprendizaje. Las medias y varianzas muestrales calculadas a
partir de las puntaciones obtenidas en la prueba fueron:
Método Nº de niños en grupo Promedio Varianza
1 11 64 52
2 14 69 71
Con los datos proporcionados se podrá afirmar que hay una diferencia significativa entre los
promedios obtenidos por cada método?. Con el 5% de significación
6. Se realiza un experimento para comparar los tiempos medios requeridos para la absorción de
los medicamentos A y B. 10 personas seleccionadas al azar fueron asignadas a cada
medicamento. Cada persona recibió una dosis oral del medicamento correspondiente y se
observó el tiempo en minutos hasta que el medicamento llegó a un nivel específico en la sangre.
Las medias y las varianzas para las dos muestras son los siguientes:
Medicamento A Medicamento B
Xa = 27.2 min Xb = 33.5 min
Sa = 16.36 min Sb = 18.92 min
¿Proporcionan los datos suficiente evidencia para concluir que existe diferencia entre los tiempos
medios de absorción para los 2 medicamentos?. Use significación del 10%.
7. Los salarios en una industria particular tiene una distribución normal con promedio de
$23.20 y una desviación estándar de $4.5. Si una compañía en esta industria que emplea 40
trabajadores les paga en promedio $21.20, ¿puede ser acusada esta compañía de pagar
salarios inferiores con un nivel de significación del 1%?
8. Un fabricante de televisores afirma que en promedio el 90% de sus televisores de color no
necesita ninguna reparación durante sus dos primeros años funcionamiento. El IPC
selecciona una muestra aleatoria de 100 tv y encuentra que 15 de ellos necesitan alguna
reparación durante sus 2 primeros años de operación. ¿Presentan los datos evidencia
suficiente como para que el IPC pueda afirmar que el fabricante está mintiendo?. Considere
una significación del 5%.
9. Un laboratorio farmacéutico ha elaborado un medicamento para tratar la presión sanguínea
alta. El laboratorio afirma que el medicamento efectivamente baja la presión en el 80% de los
casos. Si 175 de 225 pacientes tratados con el medicamento experimentaron una disminución
sustancial de la presión sanguínea. ¿Concluiría usted que el laboratorio ha exagerado a la
efectividad del medicamento?. Utilice un nivel de significación de 0.01
10. El instituto de relaciones familiares informa que el 50% de los matrimonios que viven en la
localidad llegan a una corte de divorcios dentro de su primer año de casados. ¿Qué
conclusiones puede sacarse acerca de la valides de este informe si una muestra aleatoria de
400 matrimonios, solo 193 fueron a una corte de divorcios dentro de su primer año de
casados?. Utilice una significación del 1%.
11. Una firma de ventas con descuento está considerando la compra de una gran partida de
discos de un proveedor que afirma que en promedio, solo el 2% de losa discos tiene fallas. Al
examinar 400 de estos discos, la firma encuentra 15 imperfectos. ¿Realizará la firma la
afirmación del proveedor si exige una significación del 5%?
12. ¿Existe una diferencia en la proporción de hombres universitarios versus mujeres
universitarias que fuman por lo menos una caja de cigarrillos al día? Una muestra de 500
alumnos de una universidad reveló que 70 fumaban por lo menos una cajetilla por día. Una
muestra de 400 alumnas reveló que 72 fumaban al menos una cajetilla de cigarros
diariamente. Al nivel de significación de 0.05¿existe una diferencia entre la proporción de
alumnos y alumnas que fuman por lo menos una cajetilla diaria, o la diferencia en las
proporciones puede ser atribuida a error de muestreo?
13.Se sabe que la desviación típica de las notas de cierto examen de Matemáticas es 2,4. Para
una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven estos datos para
confirmar la hipótesis de que la nota media del examen fue de 6, con un nivel de confianza del
95%?
14. Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de abstención en las
próximas elecciones será del 40% como mínimo. Se elige al azar una muestra aleatoria de 200
individuos, con derecho a voto, 75 de los cuales estarían dispuestos a votar. Determinar con
un nivel de significación del 1%, si se puede admitir el pronóstico.
15. Un informe indica que el precio medio del billete de avión entre Canarias y Madrid es, como
máximo, de 120 € con una desviación típica de 40 €. Se toma una muestra de 100 viajeros y
se obtiene que la media de los precios de sus billetes es de 128 €.
¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de partida?
16. La duración de las bombillas de 100 W que fabrica una empresa sigue una distribución
normal con una desviación típica de 120 horas de duración. Su vida media está garantizada
durante un mínimo de 800 horas. Se escoge al azar una muestra de 50 bombillas de un lote y,
después de comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de
significación de 0,01, ¿habría que rechazar el lote por no cumplir la garantía?
17. El control de calidad una fábrica de pilas y baterías sospecha que hubo defectos en la
producción de un modelo de batería para teléfonos móviles, bajando su tiempo de duración.
Hasta ahora el tiempo de duración en conversación seguía una distribución normal con media
300 minutos y desviación típica 30 minutos. Sin embargo, en la inspección del último lote
producido, antes de enviarlo al mercado, se obtuvo que de una muestra de 60 baterías el
medio de duración en conversación fue de 290 minutos. Suponiendo que ese tiempo sigue
siendo Normal con la misma desviación típica:
¿Se puede concluir que las sospechas del control de calidad son ciertas a un nivel de
significación del 2%?
18. Se cree que el nivel medio de protombina en una población normal es de 20 mg/100 ml de
plasma con una desviación típica de 4 miligramos/100 ml. Para comprobarlo, se toma una
muestra de 40 individuos en los que la media es de 18.5 mg/100 ml. ¿Se puede aceptar la
hipótesis, con un nivel de significación del 5%?
19. Las puntuaciones en un test que mide la variable creatividad siguen, en la población general
de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha
implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha
proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8,
23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.
A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
SERIES TEMPORALES /
ANÁLISIS DE REGRESIÓN LINEAL
Semana 13
Toda institución, ya sea la familia, la empresa o el
gobierno, necesita realizar planes para el futuro si
desea sobrevivir o progresar.
La planificación racional exige prever los sucesos
del futuro que probablemente vayan a ocurrir.
La previsión se suele basar en lo ocurrido en el
pasado.
La técnica estadística utilizada para hacer
inferencias sobre el futuro teniendo en cuenta
lo ocurrido en el pasado es el ANÁLISIS DE
SERIES TEMPORALES.
SERIE TEMPORAL
Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un
conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo.
Ejemplos
• Nº de accidentes laborales graves en las empresas de más de 500 empleados de Lima, durante
los últimos 5 años.
• Ventas de nuestra empresa en los últimos 10 años.
• Cantidad de lluvia caída al día durante el último trimestre.
Los datos son de la forma (yt, t) donde:
yt Variable endógena o dependiente
t Variable exógena o independiente
Nota: realmente sólo hay una variable a estudiar que es yt. En el análisis de regresión teníamos
dos variables (explicábamos una variable a partir de la otra). Aquí sólo hay una variable
(explicamos una variable a partir de su pasado histórico).
Ejemplo
Los datos siguientes corresponden al número de contratos nuevos realizados por
las empresas de menos de 10 empleados, en Sevilla, durante el período 1996-
2000.
Componentes de una serie temporal:
- La tendencia.
- Las variaciones cíclicas.
- Las variaciones estacionales.
- Las variaciones accidentales.
LA TENDENCIA (T)
Es una componente de la serie temporal que refleja su evolución a largo plazo.
Puede ser de naturaleza estacionaria o constante (se representa con una recta paralela al eje de
abscisas), de naturaleza lineal, de naturaleza parabólica, de naturaleza exponencial, etc.
Ejemplo para la tendencia
LAS VARIACIONES CÍCLICAS (C)
Es una componente de la serie que recoge oscilaciones periódicas de amplitud superior a un año.
Estas oscilaciones periódicas no son regulares y se presentan en los fenómenos económicos
cuando se dan de forma alternativa etapas de prosperidad o de depresión.
Ejemplo para las variaciones cíclicas
Supongamos que tenemos las ventas trimestrales de un supermercado en el período 1990-1994,
expresadas en millones de pesetas constantes del año 1990.
LAS VARIACIONES ESTACIONALES (E)
Es una componente de la serie que recoge oscilaciones que se producen alrededor de la
tendencia, de forma repetitiva y en períodos iguales o inferiores a un año.
Su nombre proviene de las estaciones climatológicas: primavera, verano, otoño e invierno.
Ejemplos de variaciones estacionales
- En Navidad las ventas de establecimientos se suelen incrementar.
- El consumo de gasolina aumenta la primera decena del mes y disminuye en la última.
- El clima afecta a la venta de determinados productos: los helados se venden fundamentalmente
en verano y la ropa de abrigo en invierno.
LAS VARIACIONES ACCIDENTALES (A)
Es una componente de la serie que recoge movimientos provocados por factores imprevisibles
(un pedido inesperado a nuestra empresa, una huelga, una ola de calor, etc). También reciben el
nombre de variaciones irregulares, residuales o erráticas.
¿Cómo actúan estas 4 componentes?
Manual de Estadística Pag. 66
• Modelo Aditivo : yt=T+C+E+A
• Modelo Multiplicativo: yt=T·C·E·A
• Modelo Mixto : yt=T·C·E+A
¿Cómo detectamos el modo en que interactúan las componentes de una serie temporal?
¿Esquema aditivo o multiplicativo?
1º) Calculamos 2 tipos de indicadores:
Ci= Y(i,t+1) / Y(i,t)
di=Y(i,t+1) / Y (i,t)
2º) Calculamos los coeficientes de variación para las series formadas por los dos
indicadores, y si:
CV Ci < CV di ------------- Esquema multiplicativo
CV di < CV Ci ------------- Esquema aditivo
EJEMPLO:
Según la ECL, las horas no trabajadas por trimestre y trabajador entre 1992 y 1997
son:
¿Qué esquema de agregación es el más apropiado?
2º) Calculamos los Coeficientes de variación de ambas distribuciones:
INTRODUCCION AL ANÁLISIS DE REGRESIÓN LINEAL
Hasta ahora hemos hecho la
tabulación y el análisis para
una sola variable.
Pero los investigadores,
además de analizar una
información en forma
individual, generalmente se
interesan en establecer
cruces y buscar relaciones
entre diferentes variables.
AJUSTE DE CURVAS Y EL MÉTODO DE MÍNIMOS CUADRADOS
Relaciones entre Variables: En la práctica encontramos a menudo que existen relaciones entre
dos(o más) variables. Por ejemplo; los pesos de las personas dependen en cierta medida de sus
alturas, las circunferencias de los círculos dependen de los radios, el rendimiento de un atleta
depende de su edad, estatura y peso; la presión de una masa de gas dada depende de su volumen
y de su temperatura, etc.
Es deseable expresar tales relaciones en forma matemática determinando una ecuación que
conecte a las variables.
Ajuste de Curvas:
Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que
muestren valores correspondientes de las variables bajo consideración. Supongamos que X e Y
denotan la altura y peso de personas adultas; entonces una muestra de N individuos revelaría las
alturas X1, X2, …, XN y los pesos correspondientes Y1, Y2, …, YN.
El próximo paso es marcar los puntos (X1, Y1), (X2, Y2), …, (XN, YN) sobre un sistema de
coordenadas rectangulares.El conjunto de puntos se llama un diagrama de dispersión. Ejemplos:
El problema general de hallar ecuaciones de curvas aproximantes que se ajusten a un conjunto de
datos se llama ajuste de curvas.
La herramienta de análisis Regresión realiza un análisis de regresión lineal utilizando el método
de los "mínimos cuadrados" para ajustar una línea a una serie de observaciones. Puede utilizar
esta herramienta para analizar la forma en que los valores de una o más variables independientes
afectan a una variable dependiente.
Por ejemplo, puede analizar de qué modo inciden en el rendimiento de un atleta varios factores:
la edad, la estatura y el peso. Basándose en un conjunto de datos de rendimiento, la regresión
determinará la incidencia de cada uno de los factores en la medición del rendimiento y podrán
utilizarse estos resultados para predecir el rendimiento de un atleta nuevo no sometido a ninguna
prueba.
Mínimos cuadrados
Es una técnica de Análisis numérico encuadrada dentro de la optimización matemática, en la
que, dados un conjunto de pares se intenta encontrar la función que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los
datos.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de
mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.
También es importante que los datos recogidos estén bien escogidos, para que permitan
visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular,
véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros
problemas de optimización pueden expresarse también en forma de mínimos cuadrados,
minimizando la energía o maximizando la entropía.
La recta de mínimos cuadrados que aproxima el conjunto de puntos
(X1, Y1), (X2, Y2), ….,(XN, YN) tiene por ecuación:
Y = ao + a1X
Al resolver simultáneamente las ecuaciones, podemos hallar las constantes ao y a1 de las
fórmulas:
ao = (∑Y)( ∑X2
) – (∑X)( ∑XY) a1 = N ∑XY – (∑X)( ∑Y)
N ∑ X2
– (∑ X)2
N ∑ X2
– (∑ X)2
Ejercicios:
1. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente
acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al
ajuste de la recta mediante mínimo cuadrado.
X 1.0 1.5 2.0 2.5 3.0 3.5 4.2
Y 1.46 2.14 2.63 2.99 3.32 3.69 4.44
2. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente
acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al
ajuste de la recta mediante mínimo cuadrado.
x 2 3 6 10 20 30
y 126.1 141.5 170.1 193.2 228.0 250.3
Regresión Lineal
Teniendo ya conocimiento de la intensidad de la relación entre las variables, manifestada a
través del diagrama de dispersión, podemos ensayar el ajuste de un modelo estadístico que se
adapte mejor a las “n” observaciones; lo que lleva por nombre regresión.
Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos
cuadrados, que produce estimaciones con menor error cuadrático promedio.
Ajuste Rectilíneo (Método de los Mínimos Cuadrados)
La forma general de una ecuación de línea recta es: y = a + bx
donde:
X : Variable independiente
Y : Variable dependiente
a : Término independiente o intercepto
b : Coeficiente de X
Debemos establecer los parámetros “a” y “b” de la ecuación para poder expresar los valores de
la variable Y en función de los valores de la variable X.
Ejemplo:
Se realizó un experimento con una balanza, colocando gradualmente peso en el platillo y
verificando la elongación del resorte.
Se tomaron las siguientes mediciones
de elongación para diferentes pesos,
obteniendo los siguientes resultados:
Se pide establecer la relación entre las variables
participantes de este suceso.
SOLUCIÓN
1. Definimos las variables:
Peso: variable independiente (X)
Elongación; variable dependiente (Y)
2. Elaboramos el gráfico de dispersión
De este gráfico, podemos inferir que las variables tienen un comportamiento lineal.
Por lo tanto debemos encontrar la recta que mejor se ajuste a los datos.
Utilizamos el método de los mínimos cuadrados para encontrar la recta.
F Elongación
0 0
5 1,5575
10 1,2905
15 3,1539
20 4,2276
25 4,6604
30 5,2013
35 6,9964
40 7,0740
45 9,7069
50 10,4643
55 11,4457
60 11,8001
65 12,1885
70 14,7024
75 15,8981
80 15,0221
85 17,6232
90 18,9859
95 19,6699
100 19,7012
105 21,1213
3.
Obteniendo los valores de los coeficientes siguientes:
a = -0.15974784 b = 0.204333921
La ecuación de la recta quedaría:
Y = -0.1597 + 0.2043
Partiendo de esta ecuación, vamos a inferir y hallar los valores de elongación cuando el
peso es: 28, 72 y 110
X Y X^2 X*Y
F Elongación
0 0 0 0
5 1,5575 25 7,7873
10 1,2905 100 12,905
15 3,1539 225 47,309
20 4,2276 400 84,552
25 4,6604 625 116,51
30 5,2013 900 156,04
35 6,9964 1225 244,87
40 7,0740 1600 282,96
45 9,7069 2025 436,81
50 10,4643 2500 523,22
55 11,4457 3025 629,51
60 11,8001 3600 708,01
65 12,1885 4225 792,25
70 14,7024 4900 1029,2
75 15,8981 5625 1192,4
80 15,0221 6400 1201,8
85 17,6232 7225 1498
90 18,9859 8100 1708,7
95 19,6699 9025 1868,6
100 19,7012 10000 1970,1
105 21,1213 11025 2217,7
Practica Calificada N° 13
1. El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue un patrón
lineal. Se calculó una recta de regresión mediante el método de mínimos cuadrados con datos
de alturas de niñas norteamericanas de 4 a 9 años y el resultado fue: intercepto a=80 y
pendiente b=6. La variable dependiente y es la altura en cm y x es la edad en años.
- Interprete los valores estimados del intercepto y de la pendiente.
- Cuál será la altura predicha de una niña de 8 años.
- Cuál será la altura predicha de una mujer de 25 años. Comente el resultado.
2. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista Field
Crops Research, los datos usados en la investigación son:
Duración 92 92 96 100 102 102 106 106 121 143
Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3
Con x = la duración de la cosecha de porotos de soya en días, y = rendimiento de la cosecha en
toneladas por hectárea.
- Estime la recta de regresión mediante el método de mínimos cuadrados. Interprete los
estimadores en el contexto de la pregunta.
- ¿Existe una relación lineal significativa entre la duración y el rendimiento de la
cosecha?
- Verifique los supuestos.
- Estime el rendimiento si la duración de la cosecha fue de 104 días
3. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente
intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de
15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la salida adjunta.
CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90
Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6
- Encuentre e interprete el coeficiente de correlación r.
- Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la
pregunta.
- Verifique los supuestos de regresión.
- ¿Existe una relación lineal significativa entre el número de hermanos y el coeficiente
intelectual?
4. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas en lactantes
desnutridos. Se realizan 20 determinaciones de ingestión y absorción cuyos resultados se
muestran en la tabla que sigue:
- Estime a y b mediante el método de mínimos cuadrados. Interprete los coeficientes de
regresión.
- ¿Existe una relación lineal significativa entre la ingestión y la absorción de grasas?
- Verifique los supuestos
- ¿Cuánto vale la suma de los residuos calculados para las 20 determinaciones?
Conteste SI o NO a las siguientes preguntas:
- El gráfico de residuos muestra que la relación entre la ingestión y la absorción de grasas es
lineal
- El gráfico de residuos se puede usar para determinar si los residuos están normalmente
distribuidos.
- El gráfico de residuos se puede usar para verificar el supuesto de homocedasticidad.
5. La tabla más abajo presenta los datos sobre el número de cambios de aceite al año (x) y el
costo de la reparación (y, en miles de pesos) de una muestra aleatoria de 10 autos de una
cierta marca y modelo.
# cambios aceite 3 5 2 3 1 4 6 4
costo en miles de peso 150 150 250 200 350 200 50 125
- Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad y valores
extremos.
- Encuentre la recta de regresión de mínimos cuadrados.
- Interprete los valores estimados del intercepto y de la pendiente.
- Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de aceite.
- Si cambia x por y, obtendrá la misma recta de regresión?
- Calcule el residuo para la primera observación (x=3, y=150).
- Verifique los supuestos de la regresión lineal.
ANÁLISIS DE CORRELACIÓN/
TASAS Y NÚMEROS INDICE
Semana 14
CORRELACIÓN
En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la
relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre
sí y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables.
El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador,
teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir
relacionar lo que sea razonable y no datos cuya asociación sea desde cualquier punto de vista
absurda.
Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las
variables (xi,yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de
dispersión, donde se advierte la tendencia o no, de la información representada.
A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas
no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable
dependiente “Y”.
Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más
acostumbrado es el Coeficiente de correlación, definido como:
, donde:
Algunas consideraciones importantes sobre el coeficiente de correlación lineal:
 Es una cantidad sin dimensiones, es decir no depende de las unidades empleadas. Por
ejemplo, si se está buscando hallar el coeficiente de correlación entre el peso y la altura de los
niños en determinada ciudad, entonces el resultado será el mismo independientemente de si el
peso de todos los niños se mide en Kilogramos o en gramos e independientemente de si la
altura de todos los niños se mide en metros o centímetros.
 Se verifica siempre que:
 Si el coeficiente de correlación es igual a 1, entonces hay una correlación lineal positiva
perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente positiva, es
decir una recta que crece, o sea que cuando x aumenta, entonces también lo hace y.
 Si el coeficiente de correlación es igual a -1, entonces hay una correlación lineal negativa
perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente negativa, es
decir una recta que decrece, o sea que cuando x aumenta, entonces y disminuye.
 En cualquier otro caso, para aceptar si hay una correlación lineal aceptable, no hay ninguna
regla estricta. Normalmente, para aceptar la existencia de dicha correlación, el coeficiente
debe ser mayor que 0,7 o menor que -0,7. En caso contrario, se suele rechazar la existencia de
correlación lineal.
¿Qué puede deducirse si se rechaza la existencia de correlación lineal si, por ejemplo, se
encuentra un coeficiente de correlación lineal de 0,3 entre dos variables?
 Lo único que puede deducirse es que los datos no se ajustan a una recta.
 Pero esto no significa que no haya relación entre ellos dado que podrían ajustarse a una
parábola o a cualquier otra curva. Sólo se deduce que no hay correlación lineal aunque
pudiera haber una correlación no lineal.
 Este es el gran inconveniente del coeficiente de correlación lineal: no sirve para decidir si
hay o no una posible relación entre dos variables, sólo sirve para decidir si hay o no una
posible relación lineal entre dos variables.
 Ello hace que, definitivamente, la única manera de decidir inicialmente si debe
sospecharse o no la existencia de relación entre dos variables es estudiar detenidamente
el diagrama de dispersión correspondiente, o sea la nube de puntos.
 Y, en su caso, sólo después habrá que decidir con que curva se intentan ajustar los datos.
Para resolver
Usando los ejercicios de análisis de regresión de la semana anterior, se pide
calcular el Coeficiente de Correlación y determinar la fuerza de la correlación entre
variables.
TASAS e INDICES
Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea
general de su tendencia o comportamiento; pero para efectos de establecer comparaciones
adecuadas del mismo fenómeno con otra región, o su ocurrencia a través del tiempo, se
utilizan ciertos indicadores denominados tasas e índices.
Tasa
Una tasa es la resultante de una fracción, en donde el numerador está contenido dentro del
denominador:
Ejemplos: D = R_ * 1000
M
D: Tasa de deserción escolar.
R: Número de retiros durante el año.
M: Número total de matriculados durante el año
TE = PEAO * 1000
PEA
TE: Tasa de empleo.
PEAO: Población económicamente activa ocupada.
PEA : Población económicamente activa.
Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es
100, 1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc.
En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes:
TM = D * 1000
P
Donde:
TM : Tasa de mortalidad.
D : Número de defunciones en un periodo y área dada.
P : Población total en esa área a mitad del periodo.
TN = N * 1000
P
Donde
TN : Tasa de natalidad
N : Número de nacidos vivos ocurridos en un periodo y área dada
P : Población total del área a mitad del periodo.
TC = M * 1000
P
Donde:
TC : Tasa de nupcialidad.
M : Número de matrimonios efectuados en un periodo y área dada.
P : Total de la población a mitad del periodo.
Ejemplo:
El siguiente cuadro muestra la evolución de la tasa de desempleo en Colombia, resultados
obtenidos de la encuesta nacional de hogares para los periodos comprendidos entre los años
1.990 –2.000
Índice
Un número índice, como comúnmente se le llama, es un indicador de los cambios relativos
de una o más variables a través del tiempo.
Entre las principales aplicaciones de los números índice, está la de establecer comparaciones
entre los indicadores de las diferentes zonas geográficas, profesiones , grupos étnicos etc.
Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o
"periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es,
que no se hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de
imprevisto), que incidan en el valor de la variable para ese periodo.
Además debe considerarse un periodo reciente que haga comparables los diferentes valores
de las variables consideradas.
Índice Simple
Un número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de
los valores de la serie cronológica, por el valor correspondiente al "periodo base" previamente
definido.
1 Índice de Base Fija
Ip = Pn * 100, si la variable se refiere a precios
Po
Iq = Qn * 100, si la variable se refiere a cantidades
Qo
Ip : Índice de precios
Pn: Precio del artículo en el periodo n
P0 : Precio del artículo en el periodo base
Iq : Índice de cantidades
Qn : Cantidad del artículo en el periodo n
Q0 : Cantidad del artículo en el periodo base
Consumo promedio de energía en la fábrica de confecciones “La Textil”
En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998
respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla
se han calculado los índices de cantidades sin considerar los precios.
Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las
cantidades:
Valor relativo = Pn * Qn * 100
Po * Qo
Índice de Base Móvil
Solo hemos considerado, los índices simples de base fija, esto es, con un periodo base
determinado. Es común que interese comparar un índice con el índice del periodo
inmediatamente anterior, en consecuencia se debe fijar el periodo base en el periodo anterior al
referenciado, y así sucesivamente hasta completar la serie, al cual se le nombra índice de base
móvil.
CUESTIONARIO Y EJERCICIOS PROPUESTOS
1. ¿Qué es una tasa?
2. ¿Qué es un índice?
3. ¿Para qué se utilizan los números índices?
4. ¿Cómo se construye un número índice simple?
5. ¿Cómo se construye un número índice compuesto?
6. Los precios y las cantidades de un articulo X vienen dados en la siguiente tabla:
Tomando como año base 1995, calcular para los otros años:
6.1 Los índices de precios.
6.2 Los índices de cantidades.
6.3 Los índices de valores.
7. A continuación se relacionan los precios y las cantidades del año base, de cuatro
artículos diferentes:
CONTROLES DE CALIDAD Y PROCESOS ESTADÍSTICOS
Semana 15
Orígenes y evolución de la calidad
Previo a la conformación de los primeros grupos humanos organizados de importancia, las
personas tenían pocas opciones para elegir lo que habrían de comer, vestir, en donde vivir y
como vivir, todo dependía de sus habilidades en la cacería y en el manejo de herramientas, así
como de su fuerza y voluntad, el usuario y el primitivo fabricante eran, regularmente, el mismo
individuo.
La calidad era posible definirla como todo aquello que contribuyera a mejorar las precarias
condiciones de vida de la época prehistórica, es decir, las cosas eran valiosas por el uso que se
les daba, lo que era acentuado por la dificultad de poseerlas.
Conforme el ser humano evoluciona culturalmente y se dinamiza el crecimiento de los
asentamientos humanos, la técnica mejora y comienzan a darse los primeros esbozos de
manufactura; se da una separación importante entre usuario o cliente y el fabricante o proveedor.
La calidad se determinaba a través del contacto entre los compradores y lo vendedores, las
buenas relaciones mejoraban la posibilidad de hacerse de una mejor mercancía, sin embargo, no
existían garantías ni especificaciones, el cliente escogía dentro de las existencias disponibles.
Conforme la técnica se perfecciona y las poblaciones se transforman poco a poco en pueblos y
luego en ciudades de tamaño considerable, aparecen los talleres de artesanos dedicados a la
fabricación de gran variedad de utensilios y mercancías, cada taller se dedicaba a la elaboración
de un producto, eran especialistas en ello y basaban su prestigio en la alta calidad de sus
hechuras, las que correspondían a las necesidades particulares de sus clientes. En esta etapa
surge el comerciante, sirviendo de intermediario entre el cliente y el fabricante.
Los gurús de nuestros días
Los gurús de esta nueva etapa idealizan las funciones y dinámica de la organización para
insertarlas en un nuevo modelo de comportamiento, relaciones y disciplinas. Entre estos
tenemos:
W. EDWARDS DEMING (1900-1993)
William Edwards Deming nació en 1900 en Wyoming, E.U., se
dedicó a trabajar sobre el control estadístico de la calidad. Japón
asumió y desarrollo los planteamientos de Deming, y los convirtió en
el eje de su estrategia de desarrollo nacional. En 1950 W. Edward
Deming visitó Japón, dando conferencias sobre Control de Calidad. A
dichas conferencias asistieron un grupo numeroso y seleccionado de
directivos de empresas para crear las bases sobre las que instaurar el
Premio Deming, premiando a aquellas instituciones o personas que se
caracterizaran por su interés en implantar la calidad.
JOSEPH MOSES JURAN (1904-199)
Nace en Rumania en 1904 y es otra de las grandes figuras de la
calidad. Se traslada a Minnesota en 1912. Es contemporáneo de
Deming. Después de la II Guerra Mundial trabajó como consultor.
Visita Japón en 1954 y convierte el Control de la Calidad en
instrumento de la dirección de la empresa. Imparte su conferencia
sobre: "Gestión Sistemática del Control de Calidad". Se le descubre a
raíz de la publicación de su libro, desechado por otras editoriales:
"Manual de Control de Calidad". Su fundamento básico de la calidad,
es que sólo puede tener efecto en una empresa cuando ésta aprende a
gestionar la calidad.
KAORU ISHIKAWA (1915-)
El representante emblemático del movimiento del Control de Calidad
en Japón es el Dr. Kaoru Ishikawa. Nacido en 1915, se graduó en la
Universidad de Tokio el año 1939 en Química Aplicada. Fue profesor
en la misma Universidad, donde comprendió la importancia de los
métodos estadísticos, ante la dispersión de datos, para hallar
consecuencias. Desarrolla el Diagrama Causa-Efecto como
herramienta para el estudio de las causas de los problemas.
Parte de que los problemas no tienen causas únicas, sino que suelen
ser, según su experiencia, un cúmulo de causas. Sólo hay que buscar
esta multiplicidad de causas, colocarlas en su diagrama.
¿Qué es Control Estadístico de la Calidad (CEC)?
Es una metodología orientada a la mejora de procesos
productivos/servicios basada en la utilización de criterios estadísticos
Comenzando con la aportación de Shewhart sobre reconocer que en todo proceso de producción
existe variación (Gutiérrez:1992), puntualizó que no podían producirse dos partes con las
mismas especificaciones, pues era evidente que las diferencias en la materia prima e insumos y
los distintos grados de habilidad de los operadores provocaban variabilidad. Shewhart no
proponía suprimir las variaciones, sino determinar cuál era el rango tolerable de variación que
evite que se originen problemas.
Para lograr lo anterior, desarrolló las gráficas de control al tiempo que Roming y Dodge
desarrollaban las técnicas de muestreo adecuadas para solamente tener que verificar cierta
cantidad de productos en lugar de inspeccionar todas las unidades. Este periodo de la calidad
surge en la década de los 30’s a raíz de los trabajos de investigación realizados por la Bell
Telephone Laboratories.
En su grupo de investigadores destacaron hombres como Walter A. Shewhart, Harry Roming y
Harold Dodge, incorporándose después, como fuerte impulsor de las ideas de Shewhart, el Dr.
Edwards W. Deming (Cantú:1997).
Estos investigadores cimentaron las bases de lo que hoy conocemos como Control Estadístico de
la Calidad (Statistical Quality Control, SQC), lo cual constituyó un avance sin precedente en el
movimiento hacia la calidad.
Causas de variación
Existen variaciones en todas las partes producidas en el proceso de manufactura. Hay dos fuentes
de variación:
- variación aleatoria se debe al azar y no se puede eliminar por completo.
- variación asignable es no aleatoria y se puede reducir o eliminar.
Nota: la variación puede cambiar y cambiará la forma, dispersión y tendencia central de la
distribución de las características medidas del producto.
Diagramas de diagnóstico
Controles o registros que podrían llamarse "herramientas para asegurar la calidad de una
fábrica", esta son las siguientes:
o Hoja de control (Hoja de recogida de datos)
o Histograma
o Análisis paretiano (Diagrama de pareto)
o Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado)
o Estratificación (Análisis por Estratificación)
o Diagrama de scadter (Diagrama de Dispersión)
o Gráfica de control
La experiencia de los especialistas en la aplicación de estos instrumentos o Herramientas
Estadísticas señala que bien aplicadas y utilizando un método estandarizado de solución de
problemas pueden ser capaces de resolver hasta el 95% de los problemas.
En la práctica estas herramientas requieren ser complementadas con otras técnicas como son:
o La lluvia de ideas (Brainstorming)
o La Encuesta
o La Entrevista
o Diagrama de Flujo
o Matriz de Selección de Problemas, etc…
¿QUÉ PRETENDE EL CEC ?
 REDUCIR LA VARIABILIDAD Y LA DISPERSIÓN
 HACER LAS COSAS “BIEN A LA PRIMERA”
 PREVENIENDO LOS FALLOS EN LUGAR DE CORREGIR SUS
EFECTOS.
 LAS DECISIONES SE TOMAN EN FUNCIÓN DE DATOS Y NO DE
PERCEPCIONES SUBJETIVAS.
 CORREGIR LOS PROCESOS DEFECTUOSOS EN VEZ DE LOS
PRODUCTOS/SERVICIOS DEFECTUOSOS
NATURALEZA DE LOS PROBLEMAS ESTADÍSTICOS
1. Problema con la tendencia central
2. Problema con las Medidas de Dispersión
Modulometodosestadisticos2011 110329231153-phpapp01
TRABAJO FINAL:
Presentación de Proyecto Integrador: Diagnóstico de Caso de Estudio con
Aplicación de Métodos Estadísticos

Más contenido relacionado

PDF
Leithold - formulario integrales
DOCX
Monografia de sistema de unidades
PDF
Ejercicios en integral
PDF
77535350 fisica-ejercicios-resueltos-soluciones-ondas-electromagneticas-ecuac...
PDF
MOMENTO DE UNA FUERZA
PPSX
Localización de puntos en el plano tridimensional (3D)
PDF
Electrostatica test
PDF
laboratorio de física i equilibrio de fuerzas
Leithold - formulario integrales
Monografia de sistema de unidades
Ejercicios en integral
77535350 fisica-ejercicios-resueltos-soluciones-ondas-electromagneticas-ecuac...
MOMENTO DE UNA FUERZA
Localización de puntos en el plano tridimensional (3D)
Electrostatica test
laboratorio de física i equilibrio de fuerzas

La actualidad más candente (20)

PDF
Sistema internacional de unidades (si)
PPTX
Proporcionalidad octavo
PDF
Reglas para usar el sistema internacional de unidades
PPTX
Aplicaciones del cálculo a la ingeniería
PDF
FACTORES DE INTEGRACIÓN
PPTX
Coordenadas polares e integrales triples
PPT
Ondas mecanicas2
DOCX
Solución de Los Ejercicios Libro Vallejo Zambrano UNIDAD 1 Vectores
DOCX
Clasificacion de matrices y operaciones entre matrices(suma, producto de una ...
PPTX
Clase 3. estatica
PPT
Serie de-taylor-y-maclaurin
DOC
Ecuaciones de onda
PDF
Aplicaciones de la Transformada de Laplace. 3 ejercicios resueltos por Ing. R...
PDF
Graficas en papel log log
PPTX
Movimiento de centro de masas de un sistema de particulas
PDF
Solucionario de Física I
PDF
Teoremas y criterios de series
DOCX
informe de sustancias y mezclas
PPT
Problemas Resueltos De Equilibrio EstÁtico
PDF
Prefijos Del Sistema Internacional
Sistema internacional de unidades (si)
Proporcionalidad octavo
Reglas para usar el sistema internacional de unidades
Aplicaciones del cálculo a la ingeniería
FACTORES DE INTEGRACIÓN
Coordenadas polares e integrales triples
Ondas mecanicas2
Solución de Los Ejercicios Libro Vallejo Zambrano UNIDAD 1 Vectores
Clasificacion de matrices y operaciones entre matrices(suma, producto de una ...
Clase 3. estatica
Serie de-taylor-y-maclaurin
Ecuaciones de onda
Aplicaciones de la Transformada de Laplace. 3 ejercicios resueltos por Ing. R...
Graficas en papel log log
Movimiento de centro de masas de un sistema de particulas
Solucionario de Física I
Teoremas y criterios de series
informe de sustancias y mezclas
Problemas Resueltos De Equilibrio EstÁtico
Prefijos Del Sistema Internacional
Publicidad

Destacado (20)

PDF
Modulo Estadística 2011
PDF
Ejercicios resueltos-de-estadistica
PDF
Probabilidadyestadistica
PPTX
Matematicas 7°
PPTX
Seminario 5 parte 3
PPTX
Seminario 5. 2
PPTX
PresentacióN EstadíStica Inicio
PPTX
Trigo final
PPTX
Generalizaciones falsas y contraejemplos
PPSX
Trigonometria aplicada ft
PDF
Guía de trabajo nº1 datos y azar octavos años
PPTX
Experimentos con arreglos ortogonales
DOCX
Evaluaciones Namine
PPTX
Angulos de elevación y depresión
DOC
Pruebas tablas y gráficos 5º y 6ºdocx
PPTX
Combinatoria
PPT
Ingenieria de calidad
PDF
Estadistica aplicada norberto.guarin.salazar
PPTX
Caracterizacion de dos variables cualitativas.
DOCX
Prueba tablas y frecuencias
Modulo Estadística 2011
Ejercicios resueltos-de-estadistica
Probabilidadyestadistica
Matematicas 7°
Seminario 5 parte 3
Seminario 5. 2
PresentacióN EstadíStica Inicio
Trigo final
Generalizaciones falsas y contraejemplos
Trigonometria aplicada ft
Guía de trabajo nº1 datos y azar octavos años
Experimentos con arreglos ortogonales
Evaluaciones Namine
Angulos de elevación y depresión
Pruebas tablas y gráficos 5º y 6ºdocx
Combinatoria
Ingenieria de calidad
Estadistica aplicada norberto.guarin.salazar
Caracterizacion de dos variables cualitativas.
Prueba tablas y frecuencias
Publicidad

Similar a Modulometodosestadisticos2011 110329231153-phpapp01 (20)

PDF
Guía métodos estadísticos.
PDF
MODULO-DE-APRENDIZAJE-ESTADÍSTICA-2020 (1).pdf
PPT
Estad Gener I
PPTX
1ra clase tm 2014
PPTX
anÁlisis__y_presentaciÓn_de_datos_-_sergio_nieto.pptx
PPTX
Estadistica
PPT
Fundamentos de estadistica jose noe
PPTX
Clase 1 estadistica generalidades
PPT
2009 Ii 01 Estadistica Descriptiva Ii
DOCX
La estadistica
PPTX
Capitulo 1
PPTX
Capitulo 1
PPTX
Estadistica semana 1
PPTX
MÓDULO 1 - ESTADÍSTICA CON APOYO INFORMÁTICO.pptx
PPTX
ESTADÍSTICA aplicada a la educación.pptx
DOCX
Estadistica inf y desc
PDF
Clase 1 Generalidades de Estadistica (1).pdf
PPTX
Modelos cuantitativos empresariales 06092019 - copia.pptx
PDF
Capitulo i
PDF
Libro_estadistica-aplicada a la ingenieria civil y otras ramas.pdf
Guía métodos estadísticos.
MODULO-DE-APRENDIZAJE-ESTADÍSTICA-2020 (1).pdf
Estad Gener I
1ra clase tm 2014
anÁlisis__y_presentaciÓn_de_datos_-_sergio_nieto.pptx
Estadistica
Fundamentos de estadistica jose noe
Clase 1 estadistica generalidades
2009 Ii 01 Estadistica Descriptiva Ii
La estadistica
Capitulo 1
Capitulo 1
Estadistica semana 1
MÓDULO 1 - ESTADÍSTICA CON APOYO INFORMÁTICO.pptx
ESTADÍSTICA aplicada a la educación.pptx
Estadistica inf y desc
Clase 1 Generalidades de Estadistica (1).pdf
Modelos cuantitativos empresariales 06092019 - copia.pptx
Capitulo i
Libro_estadistica-aplicada a la ingenieria civil y otras ramas.pdf

Más de libia nurys espitia hernandez (20)

PDF
03investyformacion
PDF
Curso basico-refrigeracion-domiciliaria
PDF
0002 la camara-digital2
PDF
Modelo de-prueba-facultad-de-odontologia-ucv
PDF
Taller de innovacion
PDF
Teoria de telecomunicaciones i cap1y2
PPTX
Terapiadejuegoparaniosconincapacidadde 130321174538-phpapp02
PDF
Ensamblaje mantenimiento y operacion de maquinaria y equipos 2014 1
PDF
14 originales-herramientas-web-que-todavia-desconoces
PDF
PDF
0001 guia de-fotografia_2
PPT
Telecomunicacionesyredes 120614231942-phpapp01
PDF
2.calculo con geometria analitica swokowski(hasta deriv)
PDF
Modulo de estadistica ii
PDF
Identidades trigonometricas pitagoricas
PDF
PDF
Docs slides-lecture10
PDF
Trigonometria pavicich
03investyformacion
Curso basico-refrigeracion-domiciliaria
0002 la camara-digital2
Modelo de-prueba-facultad-de-odontologia-ucv
Taller de innovacion
Teoria de telecomunicaciones i cap1y2
Terapiadejuegoparaniosconincapacidadde 130321174538-phpapp02
Ensamblaje mantenimiento y operacion de maquinaria y equipos 2014 1
14 originales-herramientas-web-que-todavia-desconoces
0001 guia de-fotografia_2
Telecomunicacionesyredes 120614231942-phpapp01
2.calculo con geometria analitica swokowski(hasta deriv)
Modulo de estadistica ii
Identidades trigonometricas pitagoricas
Docs slides-lecture10
Trigonometria pavicich

Modulometodosestadisticos2011 110329231153-phpapp01

  • 1. MODULO EDUCATIVO DEL CURSO DE MÉTODOS ESTADÍSTICOS Autor: Msc. César A. Zatta Silva Universidad Señor de Sipan 2011-I
  • 2. INTRODUCCIÓN Las acciones que acometemos hoy se basan en un plan de ayer y las expectativas del mañana. Para satisfacer las necesidades de conocimiento sobre los Métodos Estadísticos, se ha diseñado este módulo teniendo en consideración los objetivos señalados en las competencias, capacidades y actitudes que el alumno debe alcanzar en este curso. Se contempla en este curso que los estudiantes conozcan el origen de la palabra estadística, las técnicas de recolección, organización, conservación, y tratamiento de los datos para su análisis y posterior interpretación de la información. En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo de observaciones muestrales o históricas, crean modelos lógico- matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno con cierto grado de certidumbre medible. El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística, sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos de excelente calidad como el SPSS y MS Excel que ya existe en el computador sin mayores exigencias técnicas,
  • 3. Contenido Semana 1 Introducción, reseña histórica, contenidos. Objetivos. Definición de Estadística. Conceptos básicos importantes. Importancia y objeto de la estadística. Elementos básicos: Población, muestra, variable, unidad de estudio, parámetro. Clasificación de las variables. Semana 2 Organización y presentación de los datos. Tablas de distribución de frecuencias. Tipos de tablas estadísticas. Procesamiento de datos en cuadros y gráficos estadísticos. Semana 3 Métodos Estadísticos en la investigación, etapas de la investigación estadística: Planeamiento, organización, análisis e interpretación de datos, formulación de conclusiones. Técnicas de recolección de datos, observación, entrevista, cuestionario, encuestas por muestreo, sistemas de recolección. Semana 4 Medidas de Tendencia Central: Media Aritmética. Media Ponderada. Mediana. Moda. Medidas de Posición: Cuartiles. Deciles y Percentiles. Semana 5 Medidas de Dispersión. Descripción de las medidas de dispersión: Rango, Desviación y Varianza para datos simples y agrupados, Coeficiente de Variación Semana 6 Introducción al Cálculo de Probabilidades. Experimento aleatorio, espacio muestral, suceso o evento. Definición de Probabilidad Clásica, Probabilidad de Frecuencia Relativa, Probabilidad Subjetiva. Combinación, Variación, Permutación. Semana 7 Probabilidad de un evento. Teorema de la adición y de la complementación. Reglas de multiplicación y de probabilidad total. Probabilidad Condicional. Teorema de Bayes. Semana 8 Variables aleatorias. Función de probabilidad. Variables aleatorias discretas y continuas. Distribuciones discretas de probabilidad. Distribución Binomial y de Poisson. Distribuciones continuas de probabilidad. Distribución Normal. Uso de Tablas Semana 9 Primer Examen Parcial Semana 10 Introducción a la Inferencia Estadística. Métodos y distribuciones de muestreo. Muestreo de la población. Métodos de muestreo probabilístico. Error de muestreo. Distribución de muestreo de medias muestrales. Tamaño de muestra. Semana 11 Introducción a la Teoría de la estimación Estadística.Estimaciones puntuales e Intervalos de Confianza sobre parámetros. Semana 12 Prueba de Hipótesis, introducción, hipótesis estadísticas, pasos para una verificación de hipótesis. Hipótesis para la media poblacional. Prueba de Hipótesis para una varianza poblacional y una proporción poblacional. Semana 13 Análisis de tendencia o series de tiempo. Análisis de regresión, formas de encontrar la regresión simple. Método de los mínimos cuadrados. La tendencia lineal. Semana 14 Correlación y desviación estándar. Tasas y Números Índices, aplicación de los números índices. Semana 15 Control de Calidad y Procesos Estadísticos. Aplicación de la estadística en trabajo de Investigación. Presentación de Diagnóstico en Proyecto Integrador. Semana 16 Segundo Examen Parcial
  • 4. Semana 1 ESTADÍSTICA La Estadística es la ciencia que nos ofrece un conjunto de métodos y técnicas para: Recolectar, Resumir, Procesar, Presentar , Analizar e Interpretar un conjunto de datos, con la finalidad de conocer el problema, proyectar su comportamiento y colaborar en la toma de decisiones sobre dicho problema. Otra definición: La estadística es una rama de las matemáticas, constituye uno de los idiomas esenciales para comunicarse en el mundo universal de la ciencia y la tecnología. Aquellos profesionales que no conozcan Estadística tendrán serias dificultades para ser expertos en su respectivo campo científico. Importancia Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones Método que sigue la Estadística Recolectar Resumir y Ordenar Procesar E S T A D I S T I C A Tomar decisiones Analizar e Interpretar Presentar Clasificación: La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial. Estadística Descriptiva: Comprende a los procesos de consolidación, resumen y descripción de los datos recopilados. Consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales. Estadística Inferencial: Incluye procedimientos que permiten la extrapolación y generalización sobre características que tipifican a todos los elementos de la población. Es decir, la inferencia
  • 5. estadística es el proceso de hacer afirmaciones o predicciones sobre toda la población tomando como base sólo a la información recabada a través de una muestra representativa. CONCEPTOS FUNDAMENTALES 1. POBLACIÓN: Es el conjunto de todos los datos que intervienen en una investigación. Al número de elementos de una población se denota por “N.” Población finita: Es el conjunto finito de unidades de análisis donde se puede identificar a un elemento inicial y/o a un elemento final. Ejemplo: Población de hoteles de Lima, población de agencias de viaje existentes en la ciudad de Cajamarca, turistas de nacionalidad alemana que ingresaron al Perú en el año 2000. Población Infinita: Conjunto infinito de elementos donde no se podría identificar a una unidad inicial ni a la unidad final. Ejemplo: la población de los peces del mar, los árboles de la selva peruana 2. MUESTRA: Es una parte de la población y como tal es también un conjunto de datos. Al número de elementos de una muestra se denota por “n”. Una muestra tiene 2 características principales: Es representativa y es adecuada. Muestra No Probabilística: Corresponde al subconjunto de observaciones elegidas siguiendo un criterio de representatividad establecida arbitrariamente por el investigador. Ejm. Analizo todos los ratones que son de color blanco del total de ratones Muestra Probabilística: Comprende a las observaciones realizadas en unidades que han sido elegidas siguiendo un criterio probabilístico, esto es a cada unidad de la población se asigna probabilidad conocida para estar incluida como parte de la muestra. Ejm. Sacar 2 pelotas blancas de una canasta de 8 pelotas entre blancas y negras. 3. UNIDAD DE ESTUDIO: Es el objeto o elemento indivisible que será estudiado. Es quien nos va a dar la información. Ejemplo: Se va a estudiar la capacidad hotelera de la ciudad de Lima, se define la unidad de análisis “hotel” 4. VARIABLE: Es una característica de estudio de una población, que toma diferentes valores Las variables son características observables referidas a la unidad de estudio. Se denota por las letras X, Y, Z, etc. Se clasifican en: 4.1 Variable cualitativa : Son aquellas variables que expresan cualidades o atributos, y que por tanto su medida no tiene un carácter numérico, esta variables pueden ser: Nominales Sus valores representan un atributo a manera de etiqueta y no contiene información sobre ordenamiento. Ejm. Sexo del cliente, nacionalidad del entrevistado, etc. Ordinales Sus valores sí representan un ordenamiento del atributo. Ejm. Grado de educación del entrevistado, grado de satisfacción sobre la atención recibida por el cliente, etc.
  • 6. 4.2 Variable Cuantitativa: Comprende aquellos conceptos que sí pueden ser expresados en forma numérica porque corresponde a criterios de cantidad. Pueden ser: v. c. Discretas Son variables que toman valores que se expresan en números enteros. Es el resultado del proceso de conteo. Ejm. Número de empleados, Número de habitaciones, Total de alumnos, etc. v.c. Continuas Son aquellas variables que sus cantidades se expresan con números reales, es decir, tienen parte fraccionaria. Son el resultado del proceso de medición. Ejm. Ingresos totales mes de julio, costo de servicio diario del hotel, toneladas embarcadas, etc. Ejemplos: El alumno deberá identificar las variables para las unidades de estudio siguiente *UNIDAD DE ESTUDIO: Estudiante Variables: Peso, edad, talla, tipo de sangre, color de ojos, ingreso familiar, número de hermanos, etc. *UNIDAD DE ESTUDIO: Empresa Variables: Ventas, ganancias, número de trabajadores, número de computadoras, gastos en publicidad, etc. Práctica Calificada Nº 01 A. Determina la población y la muestra, y la variable de los siguientes ejemplos: 1. Tiempo dedicado a las tareas domésticas por los hombres y las mujeres que trabajan fuera del hogar en Lambayeque 2. Estudios que quieren hacer las alumnas y los alumnos del Colegio Manuel Pardo al terminar la Educación Secundaria 3. Intención de voto en unas elecciones municipales 4. Horas que dedican a ver televisión los estudiantes de educación primaria del colegio San José 5. Número de aparatos de radio que hay en los hogares chiclayanos 6. Se quiere realizar un estudio para determinar la cantidad promedio de huevos que ponen los pingüinos hembras en el período reproductivo en Puerto Maldonado. 7. Se quiere determinar la audiencia de cierto programa televisivo de televisión de aire. 8. Se requiere determinar el grado de afectación que tuvo la salmonella en las gallinas provenientes de las granjas del empresario Gonzales 9. Se quiere estimar el grado de aceptación que tiene la mermelada de carambola en la zona oeste de Chiclayo B. De las siguientes variables, determinar cuáles son cualitativas y cuales son cuantitativas discretas o cuantitativas continuas 1. Precio del pollo 2. Angulo de inclinación de los puentes 3. Grado de instrucción de los postulantes 4. Color de ojos de las finalistas 5. Peso promedio de las bolsas 6. Número de taxis que ingresan por hora a Chiclayo 7. Comida favorita 8. Número de goles marcados por la selección 9. Profesión que te gusta
  • 7. 10. Coeficiente intelectual de tus compañeros de clase 11. El color de los ojos de tus compañeros de clase 12. Temperaturas registradas en verano 13. Número de acciones vendidas en la Bolsa de valores 14. Diámetro de las ruedas de varios coches 15. Censo anual de los españoles 16. Número de libro en un estante 17. Litros de agua contenidos en un depósito 18. La profesión de una persona 19. Suma de puntos obtenidos en un lanzamiento de dados C. Determina lo siguiente: CASO Nº 01: Dentro de los estudios sociales que realiza el Dr. Pauling sobre rendimiento y características cognoscitivas de los alumnos pertenecientes al Colegio Público San Carlos, ha llegado a resultados inesperados. Unidad de estudio Variable de estudio Población Muestra CASO Nº 02 Un proveedor de servicios de línea blanca desea saber cuál es la marca preferida de cocinas de las amas de casa pertenecientes a la ciudad de Chiclayo. Para llevar a cabo esta investigación, selecciona a 120 amas de casa que fueron escogidas según la zona de la ciudad de Chiclayo. Unidad de estudio Variable de estudio Población Muestra CASO Nº 03 Un investigador de mercado quiere saber cuál es la marca de detergente que más se utiliza o más prefieren las amas de casa de la ciudad de Chiclayo. Para llevar a cabo esta investigación selecciona una muestra de 504 amas de casa que fueron escogidas según zona o urbanización de la ciudad de Chiclayo. Unidad de estudio Amas de casa Variable de estudio Marca de detergente (tipo cualitativa nominal) Población Amas de casa de la ciudad de Chiclayo Muestra 504 amas de casa CASO Nº 04: El Ingeniero de Producción de Cerveza Cristal en Motupe, dentro de su evaluación diaria, desea saber si el brix (grado de azúcar), porcentaje de alcohol, tiempo de maduración, etc, han cumplido con las parámetros de calidad en la producción del fin de semana. Unidad de estudio Cerveza Variable de estudio Brix, porcentaje de alcohol, tiempo maduración (cuantitativa) Población Producción de cerveza del fin de semana Muestra Producción de cerveza de un día
  • 8. CASO Nº 05: Un investigador social desea saber cuáles son las características socio demográficas que influyen en el rendimiento académico de los Estudiantes de la Universidad Señor de Sipan, de la especialidad de Ingeniería Agroindustrial matriculados en el 2º Semestre-Año 2006. Unidad de estudio Estudiante Variable de estudio Características socio demográficas Población Estudiantes matriculados de Ing. Agroindustrial de la USS (cualitativa) Muestra Alumnos matriculados del 2º semestre CASO Nº 06: El gerente del Grifo “San Luis” ubicado en el ovalo está haciendo un estudio de factibilidad para determinar si es conveniente la instalación de un nuevo servidor de gasolina en dicho establecimiento. Para realizar este estudio toma información sobre el tiempo que se demora en dar el servicio y el tiempo que demora en llegar el usuario (automóvil). Unidad de estudio Usuario de automóvil Variable de estudio Tiempo en dar el servicio y tiempo llegar usuario (cuantitativa) Población Todos los clientes del grifo Muestra Algunos clientes del grifo CASO Nº 07 Un investigador de mercado quiere saber cuál es la marca de jabones que más se utiliza o más prefieren las empleadas de casa de la ciudad de Tarapoto. Para llevar a cabo esta investigación selecciona una muestra de 610 empleadas que fueron escogidas según zona o urbanización de la ciudad de Tarapoto. Unidad de estudio Variable de estudio Población Muestra
  • 9. Semana 2 ORGANIZACIÓN DE DATOS Y DISTRIBUCIONES DE FRECUENCIA Frecuencia: (fi) Número de individuos o elementos que pertenecen o aparecen en cada categoría. 1. ORGANIZACIÓN DE VARIABLES CUALITATIVAS: Comprende la representación gráfica de conceptos cualitativos y/o atributos que se registran para las unidades de análisis. Ejemplo: El número de turistas que registraron su ingreso por el aeropuerto de Chiclayo el mes de Febrero, se registra según su nacionalidad NACIONALIDAD Número de Turistas (fi) Argentina 20 Boliviana 10 Brasileña 5 Venezolana 15 TOTAL 50 2. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS DISCRETAS: Comprende clasificaciones de variables que sólo toman valores enteros, por tanto las unidades de análisis se ordenan de acuerdo con sus propios valores. Ejm: Las puntuaciones obtenidas por los 30 alumnos del curso de Física I, fueron: [12,11,13,13,10,10,12,12,09,09,08,14,12,11,14,14,14,10,10,14,13,13,11,11,14,13,14,13,14,12] Se consolida la información en una Tabla de Frecuencia: Notas Xi Frecuencia Absoluta ( fi ) Frecuencia Relativa ( hi) Frecuencia Acumulada Absoluta (Fi) Relativa (Hi) 08 1 0.03 1 0.03 09 2 0.07 3 0.10 10 4 0.13 7 0.23 11 4 0.13 11 0.36 12 5 0.17 16 0.53 13 6 0.20 22 0.73 14 8 0.27 30 1.00 TOTAL 30 1.00 El gráfico que corresponde a esta tabla de frecuencia se denomina: Histograma Histograma de frecuencias absolutas Histograma de frecuencias absolutas acumuladas
  • 10. 3. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS CONTINUAS: Comprende clasificaciones de unidades de análisis resultantes de una medición, que en ocasiones toman valores decimales. Ejemplo: El Gran Hotel Chiclayo, durante los últimos 32 días, el valor de las compras en revistas y periódicos para la sala de recepción fueron: Esta información diaria y dispersa no permitirá analizar su comportamiento, es necesario resumirla en una tabla de frecuencia. Para organizar una tabla de frecuencia se deberá seguir el procedimiento siguiente: * Elegir el número de intervalos de clase ( k ) Se puede utilizar la regla se Sturges: k = 1 + 3.322 log n Donde:k = número de intervalos n = número de datos En el ejemplo: k = 1 + 3.322 Log(32) = 5.967 = Aprox. 6 intervalos * Determinar el Tamaño del Intervalo de Clase ( c ) c = A/k A= Amplitud de los datos = (Observación máxima – Observación Mínima) = 10.2 – 5.2 = 5.0 k = 6 Por tanto: c = 5.0 / 6 = 0.8333 = Aproximadamente = 0.9 * Realizar la clasificación y el conteo de datos en cada clase construida * Construir la Tabla de Frecuencia Intervalo de clase (escala de gasto) Marca de Clase Xi Frecuencia Absoluta fi Frecuencia Relativa hi Frec. Acumul. Absoluta Fi Frec. Acumul. Relativa Hi [ 5.2 – 6.1 ) 5.65 3 0.094 3 0.094 [ 6.1 – 7.0 ) 6.55 5 0.156 8 0.250 [ 7.0 – 7.9 ) 7.45 9 0.281 17 0.531 [ 7.9 – 8.8 ) 8.35 7 0.219 24 0.750 [ 8.8 – 9.7 ) 9.25 5 0.156 29 0.906 [ 9.7 – 10.6 ) 10.15 3 0.094 32 1.000 TOTAL 32 1.000
  • 11. Análisis de la distribución de frecuencias: * ¿Cuántos días el hotel gastó “de 7.0 a menos de 7.9 soles”? : 9 días * ¿Cuántos días el hotel gastó “menos de 7.9 soles”? : 17 días * ¿Cuántos días el hotel gastó “menos de 9.7 soles”? : 29 días * ¿Qué porcentaje de días el hotel gastó “menos de 7.9 soles”? : 53.1% * ¿Qué porcentaje de días el hotel gastó “más de 7.9 soles”? : 46.9 % Polígono de Frecuencias: Es la línea que une los puntos medios de los lados superiores (marcas de clase) de un histograma. Los puntos o vértices del polígono de frecuencias están situados, por tanto, en las marcas de clase, ya que estos corresponden a los puntos medios de los intervalos. Histograma y Polígono de Frecuencias
  • 12. USO DE MS EXCEL Construcción tablas tipo A en EXCEL: Para variables cualitativas y cuantitativas discretas Color f F h H Azul =contar.si($B$2:$H$11;B14) 21 Rojo 16 Verde 13 Negro 8 Blanco 12 Construcción tablas tipo B en EXCEL: Para variables cuantitativas continuas Las densidades de los materiales en estudio fueron: n = contar (celda inicio: celda final) K = numero de intervalos, con fórmula Xmin= Valor Mínimo = MIN (celda) Xmax= Valor Máximo = MAX( celda) Rango = Max – Min C = R/K Intervalos f = Frecuencia (datos; grupos) B2:H8 Todos los datos = Frecuencia (B2:H8; D22:D28) D22:D28 La columna de datos del límite superior
  • 13. PRESENTACIÓN DE DATOS MEDIANTE GRÁFICOS ESTADÍSTICOS Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. TIPOS DE GRÁFICOS Gráficos de barras verticales Representan valores usando trazos verticales, aislados o separados unos de otros, según la variable a graficar sea discreta o continua. Pueden usarse para comparar y representar: una serie; dos o mas series Gráficos de barras horizontales Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos. Pueden usarse para una serie, dos o más series.
  • 14. Gráficos de barras proporcionales Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos que componen un total. Las barras pueden ser: Verticales u Horizontales Gráficos de líneas En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Estos gráficos se utilizan para representar valores con grandes incrementos entre sí. Se pueden usar para representar una serie, dos o más series. Gráficos circulares Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar. Pueden ser: En dos dimensiones o tres dimensiones Gráficos de Áreas En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un período de tiempo. Pueden ser para representar una, dos o más series; en dos dimensiones o en tres dimensiones.
  • 15. PRACTICA CALIFICADA Nº 02 USANDO EL PAQUETE O SOFTWARE RESPECTIVO, RESOLVER LOS SIGUIENTES EJERCICIOS 1. ¿Qué es frecuencia absoluta? 2. Cómo se obtiene: 2.1 ¿La frecuencia acumulada? 2.2 ¿La frecuencia relativa? 2.3 ¿La frecuencia relativa acumulada 3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales, utilizando solamente la frecuencia relativa? ¿Por qué? 4. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos? 5. ¿Cómo se determina el número de intervalos y la amplitud de ellos? 6. ¿Qué es una marca de clase? 7. La siguiente tabla relaciona las ausencias al trabajo de 50 obreros, durante el mes de octubre, en la fábrica de confecciones "La Unión". 1 0 2 1 3 1 4 3 2 5 3 2 4 2 0 3 1 2 0 2 1 1 0 1 0 0 1 2 1 3 4 0 2 3 2 0 0 2 5 2 2 4 2 1 3 1 2 1 0 2 7.1 Construir una distribución de frecuencias simple. 7.2 Sacar 3 conclusiones. 8. Años de experiencia de las 50 operarias de agro exportadora “La Calidad” Ordenar la Información y responder: 8.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años? 8.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?
  • 16. 9. Peso de los sacos de ají páprika que fueron cosechados en los primeros 50 días de producción de la empresa Exporta SAC Construir una distribución de frecuencias y resaltar 3 conclusiones 10. Consumo de agua, en m3de 184 familias n un barrio residencial de una ciudad durante el mes de octubre: Construir una distribución de frecuencias por intervalos. Comparar las distribuciones con intervalos y sin intervalos; y las conclusiones que de ellas se deriven.
  • 17. MÉTODOS ESTADÍSTICOS EN LA INVESTIGACION Y RECOLECCIÓN DE LA INFORMACIÓN Semana 3 El método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, pero se registran las diferentes observaciones y se analizan sus variaciones. Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas: 1. PLANTEAMIENTO DEL PROBLEMA Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y teórica del problema. 2. FIJACIÓN DE LOS OBJETIVOS Luego de tener claro lo que se pretende investigar, debemos presupuestar hasta dónde queremos llegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivos generales y los específicos. 3. FORMULACIÓN DE LAS HIPÓTESIS Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su formulación depende del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística debe ser susceptible de demostrar, esto es, debe poderse probar para su aceptación o rechazo. Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1). 4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la medición. La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarse respectivamente simple o compleja. El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.
  • 18. Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales se ha de efectuar la toma de la información. 5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes; una población puede estar constituida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad. Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado como infinito. Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos, porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad de la investigación. 6. LA RECOLECCIÓN Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de los parámetros con la precisión establecida. El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado. 7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN Después de haber reunido toda la información pertinente, se necesita la depuración de los datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las
  • 19. preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todo un cuestionario. Separado el material de "desecho" con la información depurada se procede a establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de las diferentes variables que intervienen en la investigación. El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo. 8. LA TABULACIÓN Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un titulo adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información. 9. LA PRESENTACIÓN Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo en función de las variables que relaciona, sino del lector a quien va dirigido el informe. 10. EL ANÁLISIS La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de una decisión. Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas. 11. PUBLICACIÓN Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca de él.
  • 20. MÉTODOS DE RECOLECCIÓN DE DATOS PARA UNA INVESTIGACIÓN Enunainvestigación científicaseprocede básicamenteporobservación,por encuestasoentrevistasalossujetosdeestudioyporexperimentación. FUENTES DE INFORMACIÓN Unidades Estadísticas: Elementos componentes de la población estudiada. Ejemplo: personal de una empresa, habitantes del distrito de Oyotún, etc. La población en una investigación debe ser definida con precisión.
  • 21. FUENTES DE INFORMACIÓN PRIMARIAS SECUNDARIAS Los datos provienen directamente de la población o muestra de la población Los datos parten de datos pre- elaborados, ejemplo: anuarios estadísticos, de Internet, de medios de comunicación. Se subdividen en: Observación Directa: Cuando el investigador toma directamente los datos de la población. Ejm: un científico realiza un experimento. Observación Indirecta: Cuando los datos no son obtenidos directamente por el investigador. Usa un cuestionario u otro medio para obtener los datos. Debe realizar una encuesta Deben ser analizadas bajo 4 preguntas básicas que son: • ¿Es pertinente? cuando la información se adapta a los objetivos • ¿Es obsoleta? cuando ha perdido actualidad • ¿Es Fidedigna cuando la veracidad de la fuente de origen no es cuestionada • y ¿Es digna de Confianza? si la información ha sido obtenida con la metodología adecuada y honestidad necesaria, con objetividad, naturaleza continuada y exactitud
  • 22. Encuesta: Constituye el término medio entre la observación y la experimentación. En ella se pueden registrar situaciones que pueden ser observadas y en ausencia de poder recrear un experimento se cuestiona a la persona participante sobre ello. La encuesta es un método descriptivo con el que se pueden detectar ideas, necesidades, preferencias, hábitos de uso, etc.
  • 24. Codificación. Una vez cumplimentados los cuestionarios, viene la fase de recuento de las respuestas. Cuando estas son numéricas no hay ninguna dificultad, pero cuando las preguntas han tenido una contestación no numérica, es preciso traducir estas respuestas a números. Esto se conoce con el nombre de codificación.
  • 25. Por ejemplo: ¿Como ves el estado actual del Instituto? Muy Bien …………….. 5 Bien …………….. 4 Regular …………….. 3 Mal …………….. 2 Muy Mal …………….. 1 No sabe/No contesta …………….. 0
  • 27. REPASO: En el siguiente blog www.ingenieriainvestigacazasi.blogspot.com encontrará información adicional sobre los temas descritos, tales como:  Ficha Técnica-Encuesta INEI 2007  Modelo de Encuesta – INEI  Caso – Preferencia por Leche Envasada  Encuesta Servicio PLAZA VEA  Estadística en la Investigación Científica  Resultado Encuesta (Modelo Computacional) Se solicita organizarse en grupos y presentar el resultado de un cuestionario aplicado a determinada población sobre un tema libre.
  • 28. MEDIDAS DE TENDENCIA CENTRAL Semana 4 Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de concentración de la información. Las principales medidas de tendencia central son: 1. MEDIA ARITMETICA: Se conoce comúnmente como promedio. La media aritmética se calcula como la suma de todos los valores que toma la característica en estudio dividida por el número total de unidades experimentales observadas. En símbolos: Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. _ x = 21+32+15+59+60+61+64+60+71+80 = 52.3 años 10 Interpretación: La edad media de estos pacientes es de: 52.3 años  Si se trata de datos agrupados se utiliza para variables discretas: Donde: Xi = valores que toma la variable, fi = Frecuencia absoluta, n = total de datos Ejemplo:
  • 29. Un investigador social está interesado en conocer el número promedio de hijos en una muestra de 10 familias entrevistadas para una encuesta en particular. Luego de efectuar el trabajo de recolección de datos, el listado de las familias con su correspondiente número de hijos se formó la siguiente tabla: Familia No Número de Hijos 1 2 2 4 3 4 4 3 5 4 6 3 7 3 8 3 9 6 10 3 Con esta información se construye la tabla de frecuencias de la siguiente manera: Número de Hijos (Xj) Frecuencia (fj) Xjfj 2 1 2 3 5 15 4 3 12 6 1 6 Total 10 35 _ Luego: x = 35 = 3.5 10 Interpretación: La familia promedio proporcionada por la encuesta es aquella que presenta entre 3 y 4 hijos; el valor 3,5 es el resultado matemático del cálculo de la media aritmética pero no es un valor posible de la variable por su propia definición.  En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media aritmética es similar al caso anterior, es decir : _ Y = ∑Yi fi n Cuando se agrupan datos continuos en intervalos de clase, se pierde la información original. Luego, para solucionar este problema, Yi se calcula como el promedio entre los extremos de cada intervalo, es decir Yi representa el punto medio del intervalo de clase. Ejemplo: Calcular la media aritmética de la longitud de 100 tornillos fabricados por una máquina.(Tabla 1)
  • 30. Luego: _ Y = ∑Yi fi = 1014,0 = 10,14 mm N 100 Interpretación : En promedio el proceso productivo fabrica tornillos de 10,14 mm de longitud 2. MEDIANA: (Md o Me) Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores. A continuación se muestran los criterios para construir la mediana. Se puede construir los siguientes criterios: • Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos criterios conduce al mismo resultado. • Si n (tamaño de la muestra) es impar, entonces, la mediana coincide con el valor medio, el cual corresponde al dato Xn/2. • Si n (tamaño de la muestra) es par, no existe un solo valor medio, si no que existen dos valores medios, en tal caso, la mediana es el promedio de esos valores, es decir, los sumamos y luego los dividimos por dos. La Mediana para datos no agrupados Ejemplo 1: Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3 correspondientes al número de hijos de 15 empleados de una empresa. Para la obtención de la mediana se deberán de ordenar. Tomemos el criterio de orden ascendente con lo que, tendremos: 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4
  • 31. Por otro lado el número de datos n = 15, siendo el número de datos impar se elige el dato que se encuentra a la mitad, una vez ordenados los datos, en este caso es 1. 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4 Mediana Interpretación: El número mediano de hijos para estos empleados es 1. Ejemplo 2: Las calderas de una planta de energía de vapor a alta presión tuvieron las siguientes eficiencias en porcentajes: 90,3 - 91,6 - 90,9 - 90,4 - 90,3 - 91,0 - 87,9 - 89,4 El tamaño de la muestra, n=8, número par. Luego los ordenamos y la mediana es la semisuma de los valores centrales o sea el promedio de esos valores. 87,9 - 89,4 - 90,3 - 90,3 - 90,4 - 90,9 - 91,0 - 91,6 Mediana = 90,3 + 90,4 = 90,35 2 Interpretación: El número mediano de eficiencia en porcentaje de las calderas de una planta de energía es de 90,35 % aunque el mismo no sea un valor posible de la variable.  Hallar la mediana de los siguientes datos: 7,10,15,13,10,12 La Mediana para datos agrupados Si tenemos datos agrupados en tablas simples de frecuencia, procedemos de la siguiente manera: • Calculamos el orden que ocupa la Mediana, lo llamaremos orden de la mediana, cuya fórmula es: Orden = n (este valor lo observamos en la frecuencia acumulada) 2 Ejemplo 1: Supongamos que el gerente de personal de una empresa obtuvo los siguientes datos, correspondientes al número de días que 19 de sus empleados faltan por enfermedad en un año. Luego: Orden = 19 = 9.5 (está contenido en Fj = 10) 2 Los datos se presentan en la siguiente tabla:
  • 32. La mediana es 8 Interpretación: El 50 % de los 19 empleados faltan menos de 8 días y el 50% restante más de 8 días. Ejemplo 2: Supongamos que la siguiente tabla corresponde a la vida útil en horas de 100 válvulas Orden = 100 + 1 = 101 = 50,5 2 2 Esto nos indica que la mediana se encuentra entre el lugar 50 y el lugar 51. Pero, qué valores ocupan esos lugares? Por lo explicado anteriormente, desde el lugar 38 y hasta el lugar 57, hay valores 39. Luego el valor número 50 y el valor número 51 son 39. Entonces: Mediana = 39 + 39 = 39 2  Si los datos están agrupados en intervalo de clase, veamos cómo se calcula la mediana Ejemplo: Tenemos los siguientes datos agrupados en una Tabla de Frecuencia que representan los montos de 40 préstamos personales, en dólares, en una compañía financiera de consumidores. (Tabla Nº 4)
  • 33. En este caso se emplea la siguiente fórmula: Dónde: Li = Límite Inferior del intervalo que contiene a la Mediana Fi-1 = Frecuencia Acumulada en la clase anterior i-ésima fi = Frecuencia en la clase que contiene a la mediana Hi-1 = Frecuencia Relativa Acumulada en la clase anterior i-ésima hi = Frecuencia Relativa en la clase que contiene a la mediana c =Tamaño del intervalo de clase. Mediana = 930.64 3. MODA: (Mo) La moda es el valor que aparece con mayor frecuencia, es decir, el que ocurre más frecuentemente. Se dice que cuando un conjunto de datos tiene una moda la muestra es unimodal, cuando tiene dos modas bimodal, cuando la muestra contiene más de un dato repetido se dice que es multimodal y un último caso es cuando ningún dato tiene una frecuencia, en dicho caso se dice que la muestra es amodal. Moda para datos no agrupados Si tenemos datos sin agrupar, la encontramos fácilmente observando cuál es el valor que más se repite. Ejemplos: 1.- Determinar la moda del siguiente conjunto de datos: a).- 1, 2, 3, 3, 4 , 5, 6, 7, 7, 3, 1, 9, 3 Respuesta: La moda de este conjunto de datos es igual a 3 y si considera unimodal. b).- 1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 2, -3, 4, 6, 3, 3 Respuesta: Las modas de este conjunto de datos son 3 y 4 ya que ambas tienen la más alta frecuencia, por lo que la muestra es bimodal c).- 1, 2, 3, 4, 5, 6, 7, 8, 9 Respuesta: La muestra no contiene ningún dato repetido por lo que se considera que la muestra es amodal.
  • 34. Moda para datos agrupados  En datos agrupados en tablas simples de frecuencias, nos fijamos que valor corresponde a la mayor frecuencia absoluta. En la siguiente tabla En este ejemplo, la mayor frecuencia absoluta es 4, que corresponde al valor 10. Luego la Moda es 10. Interpretación: La cantidad de días más frecuente que los empleados faltan por enfermedad es 10.  En datos agrupados en intervalos de clases, existen varios métodos para calcular la Moda. Cada método puede darnos un valor diferente, pero aproximado, para un mismo conjunto de datos. Se puede hallar de la siguiente manera: Donde: Li= extremo inferior de la clase modal d1= (fi – fi-1), d2 = ( fi – fi+1) Ejemplo: Hallar la moda de la tabla Nº 4 Solución: Mo = 685 Interpretación: El monto de préstamos personales en dólares más frecuente otorgados por una compañía financiera de consumidores es de 685 dólares.
  • 35. MEDIDAS DE POSICIÓN NO CENTRALES. CUARTILES Los cuarteles de una distribución, como si nombre lo indica, son valores de la variable que dividen al conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos que contienen la misma cantidad de datos. Para calcular los cuartiles de una distribución de frecuencias se procede del mismo modo que en el caso de la mediana, salvo que ahora dividiremos a la distribución de la variable en cuatro partes iguales en lugar de dos. A partir de esta definición es evidente que la mediana coincide con el segundo cuartil. Los cuarteles se simbolizan con la letra Q. Ejemplo: Supongamos que un veterinario ha registrado los pesos de 8 pollos de seis semanas de vida y ordenó de menor a mayor, obteniendo: 150 - 151 - 152 - 154 - 155 - 156 - 157 - 159 gramos. La mediana de este conjunto de datos estará posicionada entre el 4º y 5º valor de la serie, siendo: Mediana = Q2 = 154,5 gramos El primer cuartel Q1, debe dividir a la primera mitad de la serie en dos partes iguales, por lo cual Q1 se ubicará entre el 2º y el 3º valor de la serie. Luego: Q1 = 151,5 gramos Del mismo modo Q3, el tercer cuartel, divide a la segunda mitad de la serie en dos partes iguales. Es decir: Q3 = 156,5 gramos Interpretación: Si Q1 = 151,5 gramos significa que el 25 % de los pollos tendrán un peso inferior a 151,5 gramos y el 75 % un peso superior a ese valor. Si Q2 = 154,5 gramos significa que el 50 % de los pollos tendrán un peso inferior a 154,5 gramos y el 50% restante superior a ese peso. Si Q3 = 156,5 gramos significa que el 75 % de los pollos tendrán un peso inferior a 156,5 y un 25% será superior a ese peso.
  • 36. * Cuando se trata de cuartiles para datos agrupados continuos, se aplica la fórmula de interpolación: Dónde: n/4: es el número total de observaciones dividido por 4 Fj-1 : es el mayor de las frecuencias acumuladas que no supera a n/4 Fj : es la frecuencia acumulada que le sigue a Fj-1 Xj-1 : es el extremo inferior del intervalo que tiene como frecuencia acumulada F. c ó h : amplitud de dicho intervalo Para la tabla No 1 (longitud de los tornillos), calcular Q1 y Q3. Respuestas: Q1= 8,36 mm Q3= 11,57mm Interpretación: Q1= Este valor indica que el 25% de los tornillos miden menos de 8,36 mm mientras que el 75% restante mide más de 8,36mm Q3 = Este valor indica que el 75% de los tornillos miden menos de 11,57 mm mientras que el 25% restante mide más de 11,57mm. PERCENTILES: Los percentiles de una distribución, como su nombre lo indica, son valores de la variable, que dividen al conjunto de datos (ordenados de menor a mayor) en cien partes iguales. Los percentiles tienen el mismo significado y la misma forma de cálculo que los cuartiles. Así, cuando se habla del percentil 15 se quiere expresar que es el valor de la variable que deja el 15% de los datos a su izquierda y el 85 % de los mismos a su derecha o lo que es lo mismo decir que es el valor de la variable que deja al 15 % de los datos por debajo de él y el 85% por encima. Se puede emplear la siguiente fórmula: Li = Límite Inferior del intervalo que contiene al Percentil Fi-1 = Frecuencia Acumulada en la clase anterior k-ésima fi = Frecuencia en la clase que contiene al Percentil c =Tamaño del intervalo de clase. k = 1%, 2%, 3%, ... , 97%, 98%, 99% Percentiles
  • 37. Práctica Calificada Nº 04 1. ¿Qué es una medida de tendencia central? 2. ¿Cuáles son las principales medidas de tendencia central? 3. Defina: media aritmética mediana y moda. 4. ¿Cuándo se utiliza la media aritmética ponderada? 5. Enuncie las propiedades de la media aritmética 6. Para cada información de los ejercicios del capítulo 3, calcular e interpretar la media aritmética, la mediana y la moda. 7. Elaborar la tabla de frecuencia y determinar las medidas de tendencia central 8. Los siguientes datos representan las temperaturas observadas al proceso de fermentación en un día cualquiera de producción de cerveza “ALE”. Determine utilizando intervalos: la media, mediana y moda a la siguiente tabla de frecuencia: 25 33 27 20 14 21 33 29 25 17 31 18 16 29 33 22 23 17 21 26 13 20 27 37 26 19 25 24 25 20 25 29 33 17 22 25 31 27 21 14 24 7 23 15 21 24 18 25 23 24 9. Los estadísticos del programa de “Comida Sobre Ruedas”, el cual lleva comidas calientes a enfermos confinados en casa, desean evaluar sus servicios. El número de comidas diarias que suministran aparece en la siguiente tabla de frecuencia. Calcular la media, mediana y la moda. Número de comidas por día Número de días 0 - 5 3 5 - 10 6 10 - 15 5 15 - 20 8 20 - 25 2 25 - 30 3
  • 38. 10.Las edades de 50 de los directores ejecutivos de las mejores corporaciones de la nación reportadas aparecen en la siguiente tabla de frecuencias. Calcule e interprete la media, la mediana y la moda. Además, calcule e interprete: Q1 y P15. Edades Frecuencias 50 y menos de 55 8 55 y menos de 60 13 60 y menos de 65 15 65 y menos de 70 10 70 y menos de 75 3 75 y menos de 80 1 11. Una granja ganadera registró durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer (en kilogramos) fue el siguiente: 22,31,33,34,35,36,37,38,38,39,40,40,40,41,41,42,42,42,42,42,43,43,44,45,46,46,46,46,50 12. Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvieron en la siguiente tabla resultante. Calcular la el promedio y la mediana para datos agrupados y no agrupados; y comparar resultados 13. Ingresando a la biblioteca Digital E-libro , de la USS, busquen en el libro: Título Estadística Autor: Colegio24hs Editorial: Colegio24hs Publicado: 2004 Y desarrollen los ejercicios 1 al 5, de la página 47 a la 49 según corresponda a encontrar la media aritmética, la mediana, y la moda.
  • 39. MEDIDAS DE DISPERSIÓN Semana 5 Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número la tendencia de los datos a dispersarse respecto al valor central o media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Las medidas de dispersión más usuales son: 1. RANGO ESTADÍSTICO, AMPLITUD Ó RECORRIDO. Es la medida de variabilidad más fácil de calcular. Es la diferencia entre el valor mínimo y el valor máximo en un grupo de números. Para averiguar el rango de un grupo de números:  Ordenamos los números según su tamaño  Restamos el valor mínimo del valor máximo R= Xmáx. - Xmín. Ejemplo: a. Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se encuentran en un rango de: Rango = 100 – 1 = 99 b. Hallar el rango de los conjuntos: x= 12, 6, 7, 3, 15, 10, 18, 5 y= 9, 3, 8, 8, 9, 8, 9, 18 En ambos casos, rango: 18 – 3 = 15; sin embargo si ordenamos se ven como sigue: x = 3, 5, 6, 7, 10, 12, 15, 18 y = 3, 8, 8, 8, 9, 9, 9, 18 hay mucha más dispersión en “x” que en “y”, por lo que “y” consiste esencialmente en ochos y nueves, pero en este caso el rango no indica diferencia entre ambos conjuntos, no es una buena medida de la dispersión. Cuando hay valores muy extremos, el rango es una pobre medida de la dispersión.
  • 40. 2. LA VARIANZA. (S2 ó δ2 ) Es una variable estadística que mide la dispersión de los valores respecto a un valor central (media). Específicamente, la varianza es una medida de que tan cerca o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media menos es la varianza. La Varianza es el cuadrado de la desviación estándar  Para datos no agrupados  Para datos agrupados La variancia de los valores: (x1 x2 … xk) que ocurren con las frecuencias (f1 f2 … fk) es:
  • 41. 3. DESVIACION ESTANDAR (S ó δ) . (ó DESVIACIÓN TIPICA) La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, la desviación estándar, que se halla como la raíz cuadrada de la varianza. La desviación estándar o desviación típica nos informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Desviación Estándar: S = √S2 ó δ = √ δ2 (Es la raíz cuadrada de la varianza) Propiedades de la Desviación Estándar A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza): 1. La desviación estándar es siempre un valor no negativo S 2. Es la medida de dispersión óptima por ser la más pequeña. 3. La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable 4. Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía. 5. Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar queda multiplicada por el valor absoluto de dicha constante. Para el ejemplo anterior, la desviación estándar es 1.293 soles.
  • 42. 4. COEFICIENTE DE VARIABILIDAD Es una medida de variabilidad de los datos que se expresa en porcentaje, en la cual se compara la desviación estándar con el respectivo valor del promedio de los datos, se expresa en porcentaje:
  • 43. Practica Calificada Nº 05 1. ¿Cuál es la utilidad de las medidas de dispersión? 2. ¿Cuáles son las principales medidas de dispersión? 3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables que posean diferente magnitud o diferente unidad de medida? 4. Para cada una de las informaciones de las unidades 2 y 4 de las sesiones anteriores, calcular e interpretar: 4.1 Rango 4.2 Desviación media 4.3 Desviación Estandar 4.4 Coeficiente de variabilidad 5. La tabla de frecuencias exhibe las edades de una muestra de 36 personas que asistieron a una película: Años f 8-13 2 14-19 7 20-25 13 26-31 5 32-37 9 Hallar: a. La media b. La varianza c. La desviación 6. La siguiente tabla muestra los coeficientes de inteligencia de 480 niños de una escuela elemental C.I. 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2 Calcula: a) El C.I. promedio de los niños estudiados b) Su desviación. 7. El entrenador de un equipo de baloncesto duda entre seleccionar a Elena o María. Los puntos conseguidos por cada una, en una semana de entrenamiento fueron: Elena 18 23 22 24 19 25 16 María 18 26 18 28 22 17 18 a. ¿Cuál de las dos tiene mejor media? b. Calcula la desviación típica. ¿Cuál de las dos es más regular? c. Si tú fueras el entrenador, a quién seleccionarías?
  • 44. INTRODUCCIÓN A LAS PROBABILIDADES Semana 6 “Los planes corresponden al hombre, las probabilidades a Dios.” Proverbio chino 1. EXPERIMENTO ALEATORIO: Es cualquier hecho o fenómeno cuyo resultado no puede predecirse antes de que suceda. Ejemplo: - Rendir un examen y observar su resultado - Tirar una moneda y observar cual de las caras queda hacia arriba - El lanzamiento de 2 dados paralelamente y observar el puntaje obtenido - Elegir un cliente del restaurante y preguntar su opinión sobre el servicio recibido. 2. ESPACIO MUESTRAL: Es el conjunto de todos los resultados posibles de un experimento aleatorio. Se representa comúnmente con la letra S. Ejemplos: * En el experimento aleatorio de lanzar una moneda 3 veces El espacio muestral es un conjunto formado por 8 elementos:
  • 45. * En el experimento aleatorio de lanzar un par de dados, el espacio muestral es: 3. EVENTO O SUCESO: Es un subconjunto de elementos que pertenecen al espacio muestral y que cumple una característica determinada. Ejemplos: * Del espacio muestral, lanzamiento de un dado; el evento A= puntaje obtenido es mayor de 3 A= [4,5,6] * Al lanzar una moneda 3 veces, el evento de obtener por lo menos dos caras es: E = [(C,C,C), (C,C,S), (C,S,C), (S,C,C)] ; tiene 4 elementos * Al lanzar un par de dados, el evento “la suma es igual a 7” será: 4. PROBABILIDAD Es una medida que expresa la “tasa de ocurrencia de un evento a largo plazo”. El valor de esta medida está comprendido entre [0 y 1]. La probabilidad de que ocurra un evento A se define como el valor que corresponde al número de casos “favorables” entre el número de casos “posibles”: Ejemplos:  Si se lanza un dado, cual es la probabilidad de obtener un puntaje impar. Rpta. 0.5  De un juego de 52 naipes se extrae una carta al azar (aleatoria), cuál es la probabilidad de obtener un puntaje mayor de 9. Rpta. 0.3077  Si se lanza un dado 2 veces cuál es la probabilidad de que: - Se obtenga un puntaje igual a 8 - Se obtenga un puntaje <= a 4 - Se obtenga un puntaje < a 5 pero >= a 2
  • 46. OPERACIONES CON PROBABILIDADES 1. Eventos Mutuamente Excluyentes Dos eventos son mutuamente excluyentes cuando “no pueden ocurrir los dos al mismo tiempo”, es decir la ocurrencia de uno de ellos impide automáticamente la ocurrencia del otro. Por tanto, si 2 eventos son mutuamente excluyentes no habrá intersección entre ellos. Si el evento A y el evento B son excluyentes: A∩B = 0, Luego P(A∩) = 0 Ejemplo: Los clientes de una agencia de turismo se clasifican según nacionalidad y edad: ¿Cuál es la probabilidad de elegir un cliente joven o adulto? P(J U A) = P(J) + P(A) = 130 + 40 = 170 = 0.85 200 200 200 2. Intersección de Eventos: En el ejemplo anterior, calcular la probabilidad de que un cliente elegido sea Joven o Extranjero: P(J U E) = P(J) + P(E) – P(J∩E) = 130 + 80 - 30 = 180 = 0.9 200 200 200 200 Si A y B son no excluyentes: P(A U B) = P(A) + P(B) – P(A∩B) “o” = unión “y” = intersección Ejemplos: 1. De la urna que tienes a la derecha, sacamos una bola a azar y anotamos su número a) Describe el espacio muestral. ¿Cuántos casos tiene? b) Describe los siguientes sucesos: Bola Roja = A; Bola Verde = B; Bola Azul = C; Bola Roja con número impar = D; Bola con número par = F c) Calcula la probabilidad de cada uno de los sucesos anteriores 2. ¿Cuál es el espacio muestral correspondiente al lanzamiento de una moneda? ¿Cuál es la probabilidad de cada una de las dos caras? 3. Si se lanza un dado, cuál es la probabilidad de obtener un puntaje impar
  • 47. 4. Al extraerse una carta de un juego de 52 naipes, cual es la probabilidad de que ésta sea de color rojo o tenga un puntaje menor de 5. 5. En una encuesta aplicada a 50 estudiantes secundarios, 22 alumnos manifestaron inclinación por la Química, 28 por Estadística y 10 alumnos por ambos cursos. Si se selecciona al azar a uno de estos alumnos: a) ¿Cuál es la probabilidad de que les guste Química o Estadística? b) ¿De qué se incline por Química y Estadística? c) ¿Qué no le guste ninguno de los 2 cursos? 6. En un salón de clase hay 15 alumnos y 24 alumnas, la tercera parte de los hombres y la mitad de mujeres son de Chiclayo. Hallar la P[ ] de que sea alumno ó sea de Chiclayo; y de que sea alumna y que haya nacido fuera de Trujillo. TÉCNICAS DE CONTEO Repaso de Factoriales n! = 1x2x3x4x……xn 0! = 1 1! = 1 PERMUTACIÓN “Pn” Una permutación es un conjunto de arreglos diferentes de n en n elementos de un total de n Se lee: Pn = permutación de n elementos. Fórmula: Pn = n! Ejemplo: 1. De cuántas formas diferentes se pueden sentar 3 personas ABC en 3 asientos consecutivos: [ ABC, ACB, BAC, BCA, CAB, CBA ] P3 = 3! = 6 2. Cuántas juntas directivas diferentes se podrían formar con las personas ABC y D, si dicha junta tiene los cargos de Presidente, Vicepresidente, Secretario y Tesorero. P4 = 4! = 24 juntas m COMBINACIÓN C = m! n (m-n)! n! Se lee: “combinación de n en n elementos de un total de m” Son arreglos diferentes de n en n elementos de un total de m, en los cuales no interesa el orden en que se presentan. Ejm. Se desea elegir un comité de 3 personas entre 8 candidatos, cuantos comités diferentes pueden formarse:
  • 48. 8 C 3 = 8! = 8! 56 formas diferentes (8-3)! 3! 5! 3! m VARIACIÓN V = m!__ n (m-n)! Se lee: “Variación de n en n elementos de un total de m”. Sí interesa el orden de los elementos. Ejm. Se desea formar una junta directiva con los cargos de presidente, secretario y tesorero. Si hay 8 candidatos, cuantas juntas directivas diferentes se podría formar: 8! = 8! = 8x7x6x5! = 336 formas diferentes (8-3)! 5! 5! Ejemplos para el Aula: 1. Si un conjunto A tiene 5 elementos. ¿Cuántas duplas se pueden formar con los elementos de A?. 2. En el concurso de belleza de Miss Universo, se suelen elegir primero 15 semifinalistas, luego se eligen 5 finalistas. ¿De cuántas formas diferentes se pueden ocupar las 5 primeras posiciones entre las 15 semifinalistas? 3. La junta directiva de la compañía ABC consta de 15 miembros. ¿De cuántas formas se puede elegir presidente, vicepresidente y secretario? 4. ¿Cuántos equipos de basquet de cinco hombres se pueden formar de una escuadra de 12 hombres si no tienen en cuenta las posiciones de juego? 5. En una clase de estadística hay 30 estudiantes 24 hombres y 6 mujeres. ¿De cuántas formas distintas se puede construir un comité de cuatro estudiantes? ¿De cuántas formas distintas se puede construir un comité de cuatro estudiantes si dos deben ser mujeres?
  • 49. Practica Calificada N° 06 ACTIVIDAD Nº 1 A continuación se describen varias situaciones. Contesta la pregunta, en cada caso, razonando las respuestas: a) En una clase de 30 alumnos, 12 chicos y 18 chicas, cada uno escribe su nombre en una papeleta y la introduce en una caja. ¿Qué es más probable que aparezca el nombre de una chica o de un chico? b) Se lanza un dado cúbico con las caras numeradas del 1 al 6. ¿Qué es más probable que salga el 5 o el 1? c) Si lanzas una ficha cuyas caras son verde y rojo ¿qué color esperas que salga? ACTIVIDAD Nº 2 Indica el espacio muestral de los siguientes sucesos: a) Obtener par, al lanzar un dado cúbico con las caras numeradas del 1 al 6. b) Lanzamos dos monedas al aire. c) Obtener impar al lanzar un dado cúbico. ACTIVIDAD Nº 3 En cada uno de los siguientes experimentos aleatorios, diga cuál es la probabilidad de que ocurra el suceso que se indica: a) CESTA I CESTA II b) BOLSA I BOLSA II Se extrae una pieza de fruta Se extrae una bola Suceso: OBTENER UNA PERA Suceso: OBTENER UNA BOLA VERDE ACTIVIDAD Nº 4 Resolver: 1. Hallar la probabilidad de sacar por suma 4 o 11 al lanzar dos dados. 2. Una urna tiene 8 bolas rojas, 5 amarillas y 7 verdes. Se extrae una al azar, calcular la probabilidad de que: Sea roja. Sea verde. Sea amarilla. 3. Se extrae aleatoriamente una baraja de un juego de 52 cartas. ¿Cuál es la probabilidad de que la carta seleccionada? a) Sea un “as” b) Sea una carta negra ó un número menor de 5 c) Sea número 8 y de color rojo 4. De 100 personas que fueron consultadas sobre sus preferencias a la hora de realizar un deporte, 50 practicaban fútbol, 40 practicaban baloncesto y 30 practicaban ciclismo. Además, 25 personas practicaban futbol y baloncesto, 15 practicaban fútbol y ciclismo, y 12 practicaban baloncesto y ciclismo. Por último, tan sólo 5 personas practicaban los tres deportes. El resto no sabe o no contesta. a) Representa el diagrama de Venn correspondiente. b) Calcula las siguientes probabilidades: P(practicar fútbol), P(practicar fútbol y baloncesto), P(practicar sólo ciclismo), P(practicar los tres deportes), P(practicar alguno de los tres deportes), P(no practicar ninguno de los tres deportes.
  • 50. Permutaciones, Combinaciones, Variaciones 1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de modo que no estén en el mismo dedo? 2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener? 3. Con los números 1,2,3,4,5 y 6: 3.1 ¿Cuántos números distintos de siete cifras podríamos formar? 3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos números? 4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el número de casos posibles? 5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos y por dos números tres? 6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar. Engarzando las 25 bolitas en un hilo, ¿cuántos collares distintos podrá realizar? 7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la palabra educación? ¿y con la palabra vacaciones? 8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una fiesta, acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas ¿De cuántas formas posibles puede estar compuesta la pareja encargada de dicha misión? 9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata, fresa y cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán fabricar? 10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se han dado en total 21 besos, ¿cuántas personas había? 11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras pueden adjudicarse las medallas de oro, plata, bronce? 12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente, secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?
  • 51. PROBABILIDADES CONDICIONALES Semana 7 Hasta ahora se ha estudiado la probabilidad absoluta de un evento, es decir sin relacionarlo uno con otro. Sin embargo pudiera ser de interés calcular la probabilidad de que ocurra un evento de cierto espacio muestral “S” a la luz de que otro evento de ese mismo espacio “S” ocurra. Sean A y B dos eventos de un mismo espacio muestral S. La probabilidad condicional de A, dado que ha ocurrido B (o viceversa), está dado por: P[ A/B ] = “ probabilidad de que ocurra A habiendo sucedido B” P[ A/B ] = P[A∩B] = n (A∩B) P[B] n(B) P[B/A] = “probabilidad de que ocurra B habiendo sucedido A” P[ B/A ] = P[B∩A] = n (B∩A) P[A] n(A) Ejemplos: 1. En una empresa el 50% de trabajadores trabaja por la mañana, el 30% lo hace por las tardes y el 20% tanto en la mañana como por la tarde; si se escoge aleatoriamente a un trabajador cualquiera: a) Cual es la probabilidad de que trabaje en la mañana si se conoce que labora en la tarde b) Cual es la probabilidad de que trabaje por las tardes si se conoce que labora por la mañana SOLUCIÓN A= labora en la mañana …………. 50% B= labora en la tarde …………….. 30% A Π B = labora en los dos turnos … 20% a) P[A/B] = P[A ∩ B] = 20/30 = 2/3 ó 66.67% P[B]
  • 52. b) P[B/A] = P[B ∩A] = 20/50 = 2/5 ó 40% P[A] 2. De todos los alumnos que el ciclo pasado llevaron los cursos de Estadística Aplicada y Matemática I, se tienen los siguientes datos: El 20% desaprobaron Matemática I El 35% desaprobaron Estadística Aplicada El 10% desaprobaron ambos cursos Si se escoge aleatoriamente a un alumno que lleva estos cursos, cual es la probabilidad de que este: a) Haya sido desaprobado en Matemática I conociéndose que fue desaprobado en Estadística Aplicada b) Haya sido desaprobado en Estadística Aplicada conociéndose que fue desaprobado en Matemática I c) De que haya sido desaprobado en Matemática I ó Estadística Aplicada SOLUCIÓN: M = desaprobó Matemática I =20% E = desaprobó Estad. Aplicada =35% M ∩ E = desaprobaron ambos cursos = 10 a) P[M/E] = 10/35 = 2/7 = 28,57% b) P[E/M] = 10/20 = ½ = 50% c) P[E UM] = P[E] + P[M] – P[E ∩M] = 35/100 + 20/100 – 10/100 = 9/20 = 45% 3. En la parte preferencial de un teatro solamente hay 120 asientos, los cuales son de 2 colores, azules o negros; algunos son de madera y otros son metálicos. El resumen se presenta en el recuadro siguiente: Asientos Metálicos Madera Total Azul 35 45 80 Negro 18 22 40 Total 53 67 120 Si se selecciona aleatoriamente uno de estos asientos, calcule la probabilidad de que este sea: a) De color azul b) De color negro metálico c) El asiento elegido sea de madera d) Sea de color azul si se sabe que es de metal e) El asiento sea de madera si se sabe que es de color negro f) El asiento no sea de color azul SOLUCIÓN A= Azul, N=Negro, M=Metálico, Ma=Madera a) P[A] = n(A)/n(S) = 80/120 = 2/3 = 66.47% b) P[N ∩M] = n(M ∩N)/n(S) = 18/120 = 9/60 = 3/20 = 15% c) P[Ma] = 67/120 = 55.83 % d) P[A/M] = P[A ∩M] / P[M] = n(A ∩M) / n(M) = 35/53 = 66.04% e) P[M/N] = P[Ma ∩N]/ P[N] = n(Ma ∩N)/n(N) = 22/40 = 11/20 = 55%
  • 53. Complemento de un suceso=> P[M’]= 1 – P[M] Sea de color azul: P[A], complemento = 1 – P[A] f) P[A]’ = 1 – P[A] = 1 - 80/120 = 40/120 = 4/12 = 1/3 = 33.33% TEOREMA DE BAYES Es un caso particular de la probabilidad condicional. Si A1, A2, A3, …, An, son sucesos mutuamente excluyentes de los cuales al menos uno de los sucesos Ai (i=1,2,3,…,n) debe ocurrir y siendo B un suceso cualquiera del espacio muestral, la probabilidad de que ocurra el suceso “Ak” habiendo ocurrido B se puede definir como: P[Ak / B] = P[Ak] . P[B/Ak] ∑ P[Ai] . P[B/Ai] Ejemplo 1 1. En una empresa el 50% de trabajadores pertenecen al área técnica profesional, el 30% son oficinistas y el 20% pertenecen al área de personal de servicio; se sabe además que el 8, 9 y 10% de los técnicos profesionales, oficinistas y personal de servicio respectivamente son provincianos. a) Represente las condiciones enunciadas en un árbol de probabilidades b) Si se selecciona al azar un trabajador, cual es la probabilidad de que este sea técnico profesional o personal de servicio. c) Sea técnico profesional si se conoce que es provinciano d) Sea de personal de servicio si se sabe que es de la capital SOLUCIÓN T= técnico profesional P=provinciano O=oficinistas C=capital S=personal servicio a) Árbol de probabilidades b) P[T U S] = P[T] + P[S] – P[T ∩ S] = 50/100 + 20/100 – 0 = 70/100 = 70% c) P[T/P] = _________50/100 x 8/100_______________________ 50/100x8/100 + 30/100x9/100 + 20/100x10/100 = 50 x 8_____________ = ___400 = 400/870 = 40/87 ó 45.98% 50x8 + 30x9 + 20x10 400+270+200 d) P[S/C] = P[S].P[C/S] P[T].P[C/T] + P[O].P[C/O] + P[S].P[C/S]
  • 54. = 20/100 . 90/100 50/100x92/100 + 30/100x91/100 + 20/100x90/100 = 1800 = 1800 / 9130 = 180/913 ó 19.72 % 4600 + 2730 + 1800 Ejemplo 2 El 70% de los pacientes de un hospital son mujeres y el 20% de ellas son fumadoras. Por otro lado el 40% de los pacientes hombres son fumadores. Se elige al azar un paciente del hospital. ¿Cuál es la probabilidad de que sea fumador? Solución Diagrama de Árbol para el ejemplo: Ejemplo 3 Consideremos un control de calidad de una empresa en el cual se desea saber la probabilidad de que un determinado artefacto tenga una vida útil superior a las 1200hs. Para ello el dpto. de Control de Calidad separa 500 unidades de la producción y mide la vida útil de cada unidad. Los resultados de observan en la siguiente tabla: Duración(en hs) Frec. Abs.(fi) Frec. Relat. Menos de 800 10 2% 800 a 899 40 8% 900 a 999 55 11% 1000 a 1099 70 14% 1100 a 1199 85 17% 1200 a 1299 115 23% 1300 a 1399 84 17% 1400 a más 41 8% Total 500 100% P(A) = 115 + 84 +41 ó = 23% + 17% + 8% 500 = 48%
  • 55. Práctica Calificada N° 07 Ejercicio 1: Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%. a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa. b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B. c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza Ejercicio 2: Tras un estudio estadístico en una ciudad se observa que el 70% de los motoristas son varones y, de estos, el 60% llevan habitualmente casco. El porcentaje de mujeres que conducen habitualmente con casco es del 40%. Se pide: a. Calcular la probabilidad de que un motorista elegido al azar lleve casco. b. Se elige un motorista al azar y se observa que lleva casco. ¿Cuál es la probabilidad de que sea varón? Ejercicio 3: En una ciudad, el 35% vota al partido A, el 45% vota al partido B y el resto se abstiene. Se sabe además que el 20% de los votantes de A, el 30% de los de B y el 15% de los que se abstienen, son mayores de 60 años. Se pide: a. Hallar la probabilidad de que un ciudadano elegido al azar sea mayor de 60 años. b. Hallar la probabilidad de que un ciudadano mayor de 60 años se haya abstenido. Ejercicio 4: Los alumnos de Primero de Biología tienen que realizar dos pruebas, una teórica y otra práctica. La probabilidad de que un estudiante apruebe la parte teórica es de 0.6, la probabilidad de que apruebe la parte práctica es de 0.8 y la probabilidad de que apruebe ambas pruebas es 0.5. a. ¿Son independientes los sucesos aprobar la parte teórica y la parte práctica? b. ¿Cuál es la probabilidad de que un alumno no apruebe ninguno de los dos exámenes? c. ¿Cuál es la probabilidad de que un alumno apruebe solamente uno de los dos exámenes? d. Se sabe que un alumno aprobó la teoría. ¿Cuál es la probabilidad de que apruebe también la práctica? Ejercicio 5: El 35% de los créditos de un banco es para vivienda, el 50% para industrias y el 15% para consumo diverso. Resultan fallidos el 20% de los créditos para vivienda, el 15% de los créditos para industrias
  • 56. y el 70% de los créditos para consumo. Calcula la probabilidad de que se pague un crédito elegido al azar. Ejercicio 6: El volumen de producción en tres plantas diferentes de una fábrica es de 500 unidades en la primera, 1000 unidades en la segunda y 2000 en la tercera. Sabiendo que el porcentaje de unidades defectuosas producidas en cada planta es del 1%, 0.8% y 2%, respectivamente, calcula la probabilidad de que al seleccionar una unidad al azar sea defectuosa. Ejercicio 7: El 20% de los empleados de una empresa son ingenieros y otro 20% son economistas. El 75% de los ingenieros ocupan un puesto directivo y el 50% de los economistas también, mientras que de los no ingenieros y no economistas solamente el 20% ocupan un puesto directivo. ¿Cuál es la probabilidad de que un empleado directivo elegido al azar sea ingeniero?
  • 57. VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS DISTRIBUCIONES DE PROBABILIDADES Semana 8 En el cálculo de probabilidades, generalmente, es más sencillo identificar los eventos numéricamente, y no con la simple descripción del suceso que pueda ocurrir, es más, en muchas ocasiones no podemos registrar todos los sucesos inmersos en el espacio muestral del experimento. Debemos recurrir a cuantificar esos símbolos iniciales en números reales que se puedan operar matemáticamente. Variable Aleatoria Definición: Una variable aleatoria es una función definida sobre un espacio muestral a los números reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la variable es de tipo discreto, en caso contrario diremos que es de tipo continuo. En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria X: el número de sellos obtenido. En la tirada de dos dados si X es la suma obtenida:
  • 58. FUNCIÓN DE PROBABILIDAD Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos, los cuales desde luego, tienen asociada una probabilidad de ocurrencia. 1. Función de Probabilidad f(x)=p(X=x): Es una función definida sobre una variable aleatoria a los reales en el intervalo [0,1] que cumple con los axiomas de la teoría de la probabilidad. 2. Función de Distribución F(x)=p(X=x) Es la acumulada de una función de probabilidad. -: Limite inferior de la variable X
  • 59. Ejemplo: En el Lanzamiento de una Moneda, X: Número de Sellos Ejemplo: X es la Suma Obtenida en el Lanzamiento de dos Dados: Ejemplo: ¿ Cuál es la probabilidad que un disparo impacte a menos de 15 cm del centro? ¿ a más de 9 centímetros? ¿Entre 7 y 14 centímetros?
  • 60. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria continua, función de probabilidad y función de distribución. 2. En el ejercicio de la ficha de dominó, si X representa la diferencia absoluta entre los dos números, representar y calcular la probabilidad de ocurrencia de los siguientes eventos: 2.1 La diferencia sea menor o igual a 5 2.2 La diferencia sea mayor que 2 2.3 La diferencia sea mayor que 2 pero menor o igual 5 2.4 La diferencia sea mayor que 5 ó menor que 3
  • 64. DISTRIBUCIÓN DE POISSON La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del tiempo ó del espacio. Es el caso del número de llamadas que entran a una central telefónica en una unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, los baches por kilómetro en una autopista, los artículos defectuosos que hay en un lote de producción; amén de su utilización como aproximación binomial cuando p es muy cercano a cero, o n superior a 30. (p<0.1 , n>30). La función de probabilidad de Poisson es:
  • 65. Ejemplo: Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que un una hora determinada: 1. Atienda menos de 5 personas 2. Atienda más de 8 personas 3. Atienda más de 5 pero menos de 8 personas 4. Atienda exactamente 7 personas Consultando la tabla para la distribución de Poisson: Ejemplo: En cierto núcleo poblacional, el 0.5% es portador del V.I.H. En una muestra de 80 personas, cual es la probabilidad: 1. De que haya alguna persona portadora. 2. No haya personas portadoras. Solución:
  • 66. DISTRIBUCIÓN NORMAL Dada la caracterización propia de este modelo continuo, donde coinciden las medidas de tendencia central, media, moda y mediana; la simetría respecto a estos parámetros y la facilidad de su aplicación hacen de la distribución normal, una herramienta de uso común, máxime que la mayoría de las variables económicas y sociales se ajustan a una función normal. La distribución normal, también es útil como aproximación de los modelos binomial y poisson expuestos anteriormente, y yendo un poco más adelante, sustentados en el teorema del “límite central” podemos afirmar que, cuando el tamaño de la muestra es lo suficientemente grande, podemos asumir el supuesto de normalidad para una suma de variables. La forma acampanada de la variable normal, resalta la perfección de esta curva definida por los parámetros Sin embargo, existen infinitas distribuciones normales, ya que por cada media aritmética ó varianza diferente se describe una función también diferente:
  • 67. Normal Diferente Media Igual Varianza Normal Diferente Varianza Igual Media
  • 68. Las gráficas de este tipo son muy corrientes: Hay pocos individuos en los extremos y un aumento paulatino hasta llegar a la parte central del recorrido, donde está la mayoría de ellos.
  • 69. DEFINICIÓN : Es la distribución más importante en la estadística. Es una distribución simétrica con respecto a su promedio, teniendo la media, mediana y moda el mismo valor. El valor máximo ocurre cuando U = Me = Mo x y σ, En el caso de la Distribución normal de parámetros dicha función viene dada por: <= >=
  • 70. Z = x – u δ Casos: I. P [x≤x] = P [ Z ≤ x – u ] δ II. P [x≥x] = 1 – P[x ≤ x] = 1 – P[ Z ≤ x – u ] δ III. P[a ≤ x ≤ b] = P[x ≤ b] – P[x ≤ a] = P[Z ≤ b – u ] – P[Z ≤ a – u ] δ δ a) Tenga un contenido mayor a 1020 cm3 u = promedio = 1000 cm3 σ = 30 cm3 P [x > 1020] = 1 – P[ x ≤ 1020] = 1 – P[ z ≤ 1020 – 1000 ] 30 = 1 – P [ z≤ 0,67] Buscar en tablas 0,67 = 1 – 0,74857 = 025143 ó 25.14% b) Tenga un contenido menor a 975 cm3 P[ x < 975 ] P [ z ≤ 975 – 1000 ] 30 P [ z ≤ -0.833] = 0,20327 ó 20.33% c) Contenga entre 980 y 1030 cm3 P [980 ≤ x ≤ 1030] P [ z≤ 1030 – 1000 ] – P[z ≤ 980 – 1000 ] 30 30 P [ z≤ 1 ] – P [z ≤ -0.666 ] ……………………….. Ver en tablas 0.84134 - 0.25143 0.58991 ó 58.99%
  • 71. 2. Una prueba acelerada de duración en un gran número de pilas alcalinas tipo D, reveló que la duración media para un caso específico antes que falle es 19 h. La distribución de las duraciones se aproxima a una distribución normal. La desviación estándar de la distribución fue de 1.2 h. Calcular: a) Probabilidad que dure más de 21 horas b) Probabilidad que dure como máximo 17.8 horas c) Probabilidad de que su duración esté comprendida entre 18.7 y 19.3 h
  • 72. Nota: Las tablas utilizadas en esta sesión, se encuentran colgadas en el Aula Virtual de la USS y en el blog: www.ingenieriainvestigacazasi.blogspot.com
  • 73. Practica Calificada N° 08 1. La probabilidad de que un visitante efectúe una compra en un almacén, durante un día dado es 0.8. Si al negocio entran 20 clientes, ¿cuál es la probabilidad de que el almacén realice: 1.1 Exactamente 16 ventas? 1.2 Menos de 17 ventas? 1.3 Más de 14 ventas? 1.4 Exactamente 5 ventas? 1.5 ¿Cuál es el número esperado de ventas? 2. Si un almacén tiene en promedio 5 ventas por hora. ¿Cuál es la probabilidad de que en una hora determinada: 2.1 Haya exactamente 4 ventas? 2.2 Haya más de 3 ventas? 2.3 No se efectúen ventas? 3. Una de cada 10 personas mayores de 40 años de una comunidad, sufren de hipertensión. Se toma una muestra de 50 personas mayores de 40 años. Utilizando primero la distribución binomial y luego la aproximación a la distribución de Poisson, responder y comparar los resultados: 3.1 ¿Cuál es la probabilidad que haya más de 4 hipertensos? 3.2 ¿Cuál es la probabilidad que haya exactamente 5hipertensos? 4. Un lote de arandelas tiene un diámetro normal con media 10 milímetros y desviación típica 0.5 milímetros. Se toma una arandela al azar. ¿Cuál es la probabilidad de que tenga un diámetro: 4.1 Superior a 10.5 milímetros? 4.2 Entre 9 y 11 milímetros? 4.3 Menos de 9 milímetros?
  • 74. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Semana 10 La preparación de un proyecto de investigación es una tarea compleja, ya que se han de tener en cuenta multitud de aspectos para que el documento final contemple todos los apartados que cualquier estructura estándar considera y para que todos los investigadores sepan con qué y cómo deben proceder en todas las etapas de ejecución del estudio planteado. Uno de los dilemas que se presenta cuando se inicia la elaboración del proyecto es decidir sobre los individuos o elementos que se incluirán en el estudio: qué características tendrán «criterios de inclusión y exclusión», a cuántos pacientes se estudiará «tamaño de la muestra» y cómo se elegirán para que entren a formar parte del estudio «técnica de muestreo». Estudiar a toda la población, que sería la manera más exacta de conocer lo que se pretende estudiar, es casi imposible en la práctica. Entre los motivos que lo impiden se encuentran la falta de tiempo, la escasez de recursos humanos y económicos, la dificultad para acceder a todos los sujetos, etc., por lo que se estudia sólo a una parte de ellos, para, posteriormente, generalizar o inferir los resultados obtenidos a toda la población. Por tanto, cuando se habla de sujetos de estudio, se ha de diferenciar claramente entre población, muestra e individuo.
  • 75. TEOREMA DEL MUESTREO DISEÑO DE MUESTRA 1. Definir la Población Meta: Conjunto de Elementos que poseen la información que se busca 2. Determinar el Marco de la Muestra: Lista o grupo de indicaciones para identificar a la población meta Listas:  Directorio Telefónico de Organizaciones  Lista de correo
  • 76. 3. Seleccionar las Técnicas de Muestreo TÉCNICAS NO PROBABILÍSTICAS: Es aquella en la cual los elementos del conjunto población no tienen la misma probabilidad de ser seleccionado. 1. Por Conveniencia: Su principal debilidad es el nombre, ya que, para muchas personas el nombre da a entender que se está haciendo la selección de las unidades de análisis amañando las respuestas, situación que no es cierta, toma su nombre, debido a que se busca obtener una representatividad de la población consultando o midiendo unidades de análisis que pueden ser accesadas con relativa facilidad. Es uno de los muestreos con mayor uso, dado esa particularidad. 2. Por Juicio: Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas es vital para la toma de decisiones. En el área de vacunas sintéticas, el Dr. Patarroyo, es considerado una eminencia, luego sería un personaje ideal para hablar sobre esa temática. Si se utilizará un método aleatorio, probablemente quedarían en la muestra algunas personas con poco dominio sobre el tema en estudio. N o P r o b a b ilís t ic o Por Conveniencia Por Juicio Por Cuota Por BoladeNieve Simple Sistemático Por Grupo Estratificado Áreas T E C N IC A S D E M U E S T R E O P ro b a b i l í s t i c o
  • 77. 3. Por Cuota: Se asemeja al muestreo estratificado en el sentido que busca representatividad de diferentes categorías o estratos de la población objeto de estudio, sin embargo, para la selección de esas unidades no usa el azar: Es uno de los más usados en la práctica. 4. Por Bola de Nieve: Este muestreo no es tan común, pero que tiene su aplicabilidad en diversos casos, se pretende localizar a algunos individuos, de tal manera que estos, lleven a otros y así sucesivamente. Su aplicabilidad, esta mayoritariamente en estudios con poblaciones de difícil ubicación y/o identificación, como es el caso de: drogadictos, enfermos de VH Sida, personas son hábitos escasos etc. TÉCNICAS PROBABILÍSTICA: Es aquella mediante la cual cada uno de los elementos de la población tienen la misma oportunidad de ser seleccionados Clases de Muestreo Probabilístico 1. Muestreo Aleatorio Simple: Es aquel en que cada uno de los elementos tiene la misma oportunidad de ser seleccionados. Generalmente se realiza con la ayuda de números aleatorios. 2.Muestreo Sistemático: Es aquella técnica en la que después de seleccionarse aleatoriamente el 1er elemento de la muestra, el resto de elementos se selecciona mediante un sistema particular, como por ejemplo de 10 en 10. 3.Muestreo Estratificado: Es aquel que divide a la población en áreas o estratos, después de lo cual considera a cada uno de ellos para sacar parte de la muestra total. Generalmente este tipo de muestreo se efectúa en forma proporcional al número de elementos de cada estrato, es decir, en función a sus porcentajes con respecto al número total de elementos de la población.
  • 78. Ejemplo Aplicativo 1. Una empresa decide premiar a sus trabajadores por el éxito obtenido en la última campaña, sorteando 10 pasajes entre ellos a la ciudad del Cuzco, incluyendo bolsa de viaje. Haga la selección de los trabajadores favorecidos en forma aleatoria simple, utilizando una tabla de números aleatorios. Punto de partida: Columna 8 y fila 5 Respuesta Números leídos en la tabla: ………………………………………………………………………………… Los trabajadores seleccionados fueron:
  • 79. 2. Efectúe la selección de los 10 trabajadores del ejemplo anterior mediante un muestreo aleatorio sistemático. Escoja aleatoriamente entre los 8 primeros trabajadores a uno y luego seleccione los restantes de tres en tres (contando a partir del primer trabajador seleccionado). Punto de partida para seleccionar al primero: Columna 3 y fila 7. Primer trabajador seleccionado es el número: ………………………. Trabajadores restantes: ……………………………………………… 3. Supongamos que el dueño de la Empresa decide premiar a sólo 15 trabajadores, pero en la premiación deben estar trabajadores de todas las áreas en forma proporcional a la cantidad que aparece en la lista. Solución Tenemos la siguiente distribución de trabajadores por sección: Jefatura 3 Of. de Auditoría Interna 8 Of. de Asesoría Jurídica 5 Of. de Planeamiento y Desarrollo 7 Secretaría General 6 Of. de Administración 6 Total 35 Hacemos la siguiente tabla de distribución Área de Trabajo N’ Trabajadores Porcentaje % N’ Trabajador Considerado Jefatura 3 8.57 1 Of. de Auditoría Interna 8 22.86 3 Of. de Asesoría Jurídica 5 14.29 2 Of. de Planeamiento y Desarrollo 7 20.00 3 Secretaría General 6 17.14 3 Of. de Administración 6 17.14 3 Total 35 100 15  Se halla primero el porcentaje individual que representa cada trabajador en su área  Ahora, en la nueva repartición el total es 15 trabajadores, entonces para hallar la cantidad de trabajadores por área se calcula de la sgte. manera: 15 ------ 100% X ------ 8.57% X : 8.57 * 15 X = 1.29 trabajador, equivale a 1 100 Una vez determinado el número a seleccionar en cada estrato, en cada uno de ellos se aplica muestreo aleatorio simple.
  • 81. TAMAÑO DE LA MUESTRA El tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población Conceptos:  Parámetro: Característica de la Población  Estadístico: Característica de la Muestra EL TAMAÑO DE LA MUESTRA DEPENDE DE TRES ASPECTOS: 1. NIVEL DE PRECISIÓN: ó Error Muestral El Error Muestral o Error de Estimación es el error a causa de observar una muestra en lugar de la población completa, también es la diferencia entre un estadístico y su parámetro correspondiente. La estimación de un valor de interés, como la media o el porcentaje, estará generalmente sujeta a una variación entre una muestra y otra. Estas variaciones en las posibles muestras de una estadística pueden, teóricamente, ser expresadas como errores muestrales, sin embargo, normalmente, en la práctica el error exacto es desconocido. El error muestral se refiere en términos más generales al fenómeno de la variación entre muestras. 2. NIVEL DE CONFIANZA ESTIMADO (z) Probabilidad de que un intervalo de confianza incluya el parámetro de la población. Ejemplo: Si Confianza es de 99%, la desconfianza es 1% γ = 0.99
  • 82. α = 0.01 α/2 0.99 α/2 F(z) = 0.995 z = 2.58 * Nivel de Confianza 99%  z = 2.58 98%  z = 2.33 97%  z = 2.17 96%  z = 2.05 95%  z = 1.96 94%  z = 1.88 93%  z = 1.81 92%  z = 1.75 91%  z = 1.70 90%  z = 1.64 El Intervalo de Confianza está compuesto por: Límite Superior y Límite Inferior 3. CARÁCTER FINITO O INFINITO DE LA POBLACIÓN: Se considera finita cuando se conoce la población y es infinita cuando no se conoce el total de la población.
  • 83. Cálculo de “n” (Tamaño de la muestra) Caso I: Para proporciones o porcentajes (variable cualitativa) ~ Para población infinita o grande (N desconocida) n = z2 .p.q ~ Para población finita (N conocida) n = N.z2 .p.q (N-1).D2 +z2 .p.q Dónde: z: nivel de confianza D: error aceptado/precisión requerida p: probabilidad de éxito que ocurra el suceso q: probabilidad que no ocurra el suceso NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el tamaño de la muestra de la siguiente manera: n = ____n____ (1 + n/N) NOTA2: Si no se conoce el dato previo de p y q, se asume que cada uno de ellos vale 50%, es decir: p = q = 0.50 = 50% Cuando se supone p=q=0.50, se obtiene el máximo tamaño de muestra, es decir que para cualquier tamaño de p y q, “n” sea menor. Caso II: Para promedios (variable cuantitativa) ~ Para población infinita o grande (N desconocida) n = (z .σ / D) 2 ~ Para población finita (N conocida) n = N.z2 . σ 2 __ (N-1).D2 + z2 . σ2
  • 84. Dónde σ2 = varianza NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el tamaño de la muestra de la siguiente manera: n = ____n____ (1 + n/N) NOMENCLATURA n = Número de elementos de la muestra N = Número de elementos de la población o universo P/Q = Probabilidades con las que se presenta el fenómeno. Cuando el valor de P y de Q sean desconocidos o cuando la encuesta abarque diferentes aspectos en los que estos valores pueden ser desiguales, es conveniente tomar el caso más adecuado, es decir, aquel que necesite el máximo tamaño de la muestra, lo cual ocurre para P = Q = 50, luego, P = 50 y Q = 50. Z = Valor crítico correspondiente al nivel de confianza elegido E = Margen de error permitido (determinado por el responsable del estudio). Ejercicios Resueltos de Tamaño de Muestra 1. Suponga que las estaturas de los hombres de cierto país tienen distribución normal con desviación estándar de 2.5 pulgadas. ¿De qué tamaño se debe tomar la muestra si se desea determinar un intervalo de confianza del 95% para la media con un error de estimación de 0.5? Solución Datos: δ = 2.5” n = (z. δ / D)2 z = 95% = 1.96 n = (1.96x2.5/0.5)2 D = 0.5 n = 96.04 n = 96 hombres 2. Un analista desea estimar el salario promedio de los trabajadores de una compañía determinada con un margen de error de $250 y una confianza del 90%. Se estima que la desviación estándar de los salarios no es mayor de $1000. ¿Cuál es el número de
  • 85. expedientes que deben muestrearse como mínimo para satisfacer este objetivo de investigación? Solución Datos: D = 250 n = (z. δ/D)2 z = 90% = 1.64 n = (1.64x1000/250)2 δ = 1000 n = 43.03 n = 43 expedientes 3. El rector de una universidad particular desea estimar el costo promedio de un año de estudios con un error de estimación menor a $500 y con una probabilidad del 95%. Suponga que la universidad solo tiene 1500 alumnos y que el costo tiene una desviación estándar aproximada de $4000. ¿Cuántos alumnos deben seleccionarse? Solución Datos: D = 500 n = _____N . z2 . δ2 ____ z = 95% = 1.96 (N-1).D2 + z2 . δ2 N = 1500 δ = 4000 n = 1500 . (1.96) 2 . (4000)2 (1499)(500)2 + (1.96)2 .(4000)2 n = 211.3597 n = 211 alumnos En este caso se hace la comprobación: n = 211 = 0.14 > 0.05 N 1500 Se debe corregir a: n _ = 211 = 185 estudiantes 1 + n_ 1 + 211 N 1500 Interpretación: Se debe tomar en cuenta a 185 estudiantes para que el resultado tenga una confianza del 95% y una precisión de 500$ ( un error no mayor a $500) 4. Se desea estimar el peso promedio de 800 naranjas. Para ello se va a escoger aleatoriamente cierto # de ellas. Se desea que el erro de estimación sea máximo de 3 gr con una confianza del 90%. ¿Cuántas naranjas deben seleccionarse?. Suponga que la varianza es aproximadamente de 144 gramos al cuadrado. Solución Datos: N = 800 n = N . z2 . δ2 _____ D = 3 grs (N-1).D2 + z2 . δ 2 z = 1.64 δ2 = 1.44 n = 800 . (1.64) 2 . (144) 799.(3)2 + (1.64)2 .144 n = 40.885 n = 41 naranjas
  • 86. En este caso se hace la comprobación: n = 41 = 0.05125 > 0.05 N 800 Se debe corregir a: n _ = 41 = 39 naranjas 1 + n_ 1 + 41 N 800 Interpretación: Se debe considerar a 39 naranjas para que el peso promedio calculado tenga una confianza del 90%, con un error máximo de 3 gramos. 5. Se desea estimar en cierta ciudad la proporción de estudiantes que están a favor de la legalización de las drogas prohibidas. El error de estimación que se requiere es del 1% y un nivel de confianza del 99%. ¿Cuántos estudiantes deben incluirse en la muestra? Solución Datos: D = 0.01 n = z 2 . p .q z = 99% = 2.58 D2 p = q = 0.50 (no hay información previa ) n = (2.58)2.(0.5)(0.5) (0.001)2 n = 16641 estudiantes Interpretación: Para que el % de estudiantes calculado tenga una confianza del 99% con un error no mayor de 1% se debe encuestar a 16641 estudiantes. 6. El jefe de personal de una empresa desea realizar una encuesta para determinar la proporción de trabajadores que está a favor de un cambio en el horario de trabajo. Como es imposible consultar a los 500 trabajadores en un lapso razonable, procede a escoger aleatoriamente cierto # de trabajadores para entrevistarlos; determine el número de trabajadores que debe entrevistarse si desea que la proporción estimada presente un error máximo del 5% y un nivel de confianza del 95%. Solución Datos: N = 500 n = N. z2 . p.q__ D = 0.05 (N-1).D2 + z2 .p.q z = 95% = 1.96 p = q = 0.50 n = 500 . (1.96) 2 . (0.50)2 499.(0.05)2 + (1.96)2 .(0.50)2 n = 217.49 n = 217 trabajadores En este caso se hace la comprobación: n = 217 = 0.434 > 0.05 N 500
  • 87. Se debe corregir a: n _ = 217 = 151 trabajadores 1 + n_ 1 + 217 N 500 Interpretación: Para que el porcentaje de trabajadores que están a favor del cambio de horario calculado tenga una confianza del 95% y un error no mayor al 5%, se deben considerar como muestra 151 trabajadores. 7. Un prospecto de comprador desea estimar el promedio de ventas por cliente (en $) en una tienda de juguetes ubicada en un aeropuerto. Con base en datos de otras tiendas similares, se estima que la desviación estándar de ese tipo de ventas es de aprox. $32. ¿Qué tamaño de muestra se debe utilizar como mínimo, se desea estimar las ventas promedio con un margen de error de $8 y un intervalo de confianza del 99%? Solución Datos: δ = $32 n = (z. δ/D)2 D = 8 n = ( 2.58 x 32 )2 z = 99% = 2.58 8 n = 107 Interpretación: Para que el promedio de ventas calculado sea aceptado con un 99% de confianza y un error que no sobrepase los 8 dólares, el tamaño a considerar debe ser de 107 ventas.  El error generalmente no debe sobrepasar a un cuarto de la desviación estándar, si sobrepasa la muestra es pequeña. 8. Un administrador universitario desea estimar la proporción de estudiantes inscritos en programas de postgrado en administración de empresas, que también tienen licenciaturas en la misma área, con un margen de error del 0,05 y una confianza del 90%. Determine el mínimo tamaño de la muestra si: a) No existe ninguna base para estimar el valor apropiado de la proporción antes de tomar la muestra b) Si una información previa señala que la proporción no es mayor de 30% Solución a) Datos: D= 0.05 n = [ 1.64 x o.50]2 z = 90% = 1.64 0.05 p = q = 0.50 n = 268.96 n = 269 b) Datos: p = 0.30 n = (1.64)2 .(0.30).(0.70) q = 0.70 (0.05)2 D = 0.05 z = 1.64 n = 225.93 n = 226 estudiantes
  • 88. Practica Calificada N° 10 1. Queremos ajustar una máquina de refrescos de modo que el promedio del líquido dispensado quede dentro de cierto rango. La cantidad de líquido vertido por la máquina sigue una distribución normal con desviación estándar 0´15 decilitros. Deseamos que el valor estimado que se vaya a obtener comparado con el verdadero no sea superior a 0´2 decilitros con una confianza del 95%.¿De qué tamaño debemos escoger la muestra? 2. Es necesario estimar entre 10.000 establos, el número de vacas lecheras por establo con un error de estimación de 4 y un nivel de confianza del 95%. Sabemos que la varianza es 1.000. ¿Cuántos establos deben visitarse para satisfacer estos requerimientos? 3. Una máquina llena cajas con cierto cereal. El supervisor desea conocer con un error de estimación de máximo 0´1 y un nivel de confianza del 90%, una media estimada del peso. Como la varianza era desconocida se procedió a escoger una muestra piloto. Los resultados fueron los siguientes: 11´02, 11´14, 10´78, 11´59, 11´58, 11´19, 11´71, 11´27, 10´93, 10´94. ¿Cuántas cajas debe escoger para que se cumplan los requisitos propuestos? 4. Se desea conocer el peso promedio de una determinada clase de pescado con un error de estimación de 0´02 y con un nivel de confianza del 99%. Por datos anteriores se sabe que el peso mínimo es 1´48 libras y el máximo es de 2´47 libras.¿De qué tamaño debe escoger la muestra? Suponga que los pesos de estos pescados se distribuyen normalmente. 5. Se desea hacer una encuesta para determinar la proporción de familias que carecen de medios económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima a 0´35. Se desea determinar un intervalo de confianza del 95% con un error de estimación de 0´05. ¿De qué tamaño debe tomarse la muestra? 6. Un productor de semillas desea saber con un error de estimación del 1% el porcentaje de semillas que germinan en la granja de su competidor. ¿Qué tamaño de muestra debe tomarse para obtener un nivel de confianza del 95 7. Se desea realizar una encuesta entre la población juvenil de una determinada localidad para determinar la proporción de jóvenes que estaría a favor de una nueva zona de ocio. El número de jóvenes de dicha población es N=2.000. Determinar el tamaño de muestra necesario para estimar la proporción de estudiantes que están a favor con un error de estimación de 0´05 y un nivel de confianza del 95 8. Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras? 9. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media real? 10. Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se desea saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo. 11. En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95% de confianza de que la estimación de P esté dentro de 0.02? 12. Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de 0.10?
  • 89. TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA Semana 11 La inferencia estadística es el proceso de usar resultados muestrales para obtener conclusiones respecto a las características de una población. En esta sección estudiaremos los procedimientos estadísticos que permitan estimar dos parámetros de una población: la media y la proporción. Razón para estimar Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales, sin que tengan la información pertinente completa y con una gran incertidumbre acerca de lo que pueda deparar el futuro, pero con la intención de que las estimaciones constituyan una buena aproximación de los parámetros desconocidos de la población. Estimador Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza para deducir la estimación. Estimación Es un valor específico observado de un estimador, por lo que asigna uno o varios valores numéricos a un parámetro de una población sobre la base de datos de muestra. Tipos de estimación a) Estimación puntual: Consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de un parámetro de una población que es desconocido. Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno de estimación es prácticamente improbable que el valor de la estimación coincida con el verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro. Una solución a ello no los brindan los estimadores por Intervalos de Confianza.
  • 90. b) Estimación por intervalo: Es la estimación de un parámetro de la población dado por dos números que forman un intervalo que contiene al parámetro con una cierta probabilidad. Conceptos básicos Nivel de Confianza Está asociado con la probabilidad de que el intervalo de confianza contenga al parámetro de la población y es expresado en porcentaje. Los niveles de confianza que más se utilizan son 90%, 95% y 99%. Lo denotaremos por 1, donde es un valor tal que 0 1. Note que a medida que e acerca a 0, 1se acerca a 1, ésto significa que aumenta la probabilidad de que el intervalo construido contenga al verdadero valor del parámetro que estamos estimando. Nivel de Significación: Llamaremos así al valor de . Límites de Confianza Son el límite inferior y superior de un intervalo de confianza.
  • 92. ESTIMACIÓN ESTADÍSTICA PARA MEDIAS MUESTRALES CASO I Muestra Grande: n ≥ 30 µ = δ . z √n Dónde: z = distribución normal CASO II Muestra Pequeña: n < 30 µ = s . t √n Dónde: s = desviación estándar t = distribución t-Student; se calcula usando el grado de confianza y los grados de libertad. Ejemplo: Si δ = 95% (0.95) y n = 8 ∞ = 5% (0.05)  p = 0.95 + 0.025 = 0.975 (también se halla p = 1 - ∞/2)  Grados de libertad: n-1 = 8 – 1 = 7  Con p = 0.975 y n =7 , se lleva a la tabla de la función de distribución t-Student, donde t = 2.447 Ejemplos de uso de la tabla:  Para δ= 90% y n = 25, calcular t-Student (1,711)  Para p=0.95 y n=18, calcular t-Student (1.740) Ejemplo 1 Se desea estimar la experiencia docente promedio de los profesores de cierta universidad, y para tal efecto se toma una muestra de 8 de ellos, siendo los resultados de experiencia medidos en años los siguientes: (δ = 95%) {11,9,7,13,10,5,7,12} años
  • 93. Solución Hallamos = (11+9+7+13+10+5+7+12)/8 = 9.25 S2 = ∑(xi - )2 =(11-9.25)2 + (9-9.25)2 + (7-9.25)2 + … + (12-9.25)2 n - 1 7 S = √7.62 = 2.76 µ = 9.25 2.76 . 2.447 √8 Usando: +, tenemos 11.56 años -, tenemos 6.94 años Entonces la estimación queda: µ = [6.94 años – 11.56 años] Interpretación: La experiencia estimada promedio de los docentes de la universidad evaluada está entre: 6.94 y 11.56 años con una confianza del 95%. Si tenemos que δ + ∞ = 1 Confianza δ ∞ ∞/2 p= 1-∞/2 0.90 (90%) 0.10 0.05 0.950 0.95 (95%) 0.05 0.025 0.975 0.99 (99%) 0.01 0.005 0.995 Ejemplo 2 Se tomó una muestra aleatoria de 50 candidatos que se presentan a realizar la prueba de suficiencia en el departamento de selección, donde se tiene una media de 150 puntos y una desviación de 63 puntos. Calcular el intervalo de confianza del 95% Solución Se trata del caso I, dónde: µ = δ . z √n = 150 , δ = 63 , Confianza 95%  z = 1.96
  • 94. µ = 150 63 . 1.96 √50 150 + 14.369 150 - 14.369 164.369 135.631 Los límites de confianza están entre 135.631≤ µ ≤ 164.369 Ejemplo 3 Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que los datos siguen una distribución normal con una desviación estándar de 0.3. Solución La estimación puntual de es 2.6. * El valor de z del 95% es 1.96, por lo tanto el intervalo lo calcularíamos como: 2.6    √ y por tanto [2.5,2.7] con una confianza del 95%. En otras palabras, la probabilidad de que la concentración media de zinc esté entre 2.5 y 2.7 gramos por mililitro es de 0.95. * Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más amplio: 2.6 2.575*0.3 √36      [2.47,2.73]
  • 95. la probabilidad de que la concentración media de zinc esté entre 2.47 y 2.73 gramos por mililitro es de 0.99. Ejemplo 4 Extraemos una muestra de 61 estudiantes universitarios, ellos responden a una prueba de inteligencia en la que alcanzan una media de 80 y una varianza de 100. ¿Entre qué límites se hallará la verdadera inteligencia media de los estudiantes, a un nivel de confianza del 99%? Solución 1- ∞ = 0.99  ∞ = 0.01  1 - ∞/2 = 0.995 2- El tamaño muestral es mayor que 30, por tanto buscamos en las tablas la distribución t de Student t0.995 (60) = 2.66 Sabemos que = 80 y s = 10 . Sustituyendo en el intervalo de confianza tenemos: [80 – 2.66 10 , 80 + 2.66 10 √61 √61 por tanto,  [76.57,83.43] con un nivel de confianza del 99%.
  • 96. Practica Calificada N° 11 I. ESTIMACION PUNTUAL 1. Los siguientes datos corresponden a los pesos (en kilogramos) de 15 hombres escogidos al azar y que trabajan en una empresa: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70,69. Estime el peso promedio y la desviación estándar. 2. Entre los miembros de una comunidad se escogieron 150 personas al azar y se les preguntó si estaban de acuerdo con los programas que el gobierno estaba desarrollando para prevenir el consumo de drogas; la encuesta dio como resultado que 130 sí estaban de acuerdo. Estime la proporción de los que estaban de acuerdo y el error estándar. 3. De las 50 aulas que tiene un edificio de la facultad de matemáticas se escogieron al azar 5 y se determinó el número de alumnos que había en cada una de ellas en la primera hora de clases. Estime el número de alumnos que hay en el edificio si todas las aulas se encuentran ocupadas a esa hora, y si el numero de alumnos en cada una de las aulas inspeccionadas fue: 24, 35, 16, 30, 28. 4. Teniendo en cuenta los datos del problema I, estime el error del peso promedio. 5. Teniendo en cuenta los datos del problema III, estime el error del número total de estudiantes. II. ESTIMACIÓN POR INTÉRVALOS 1. Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de nicotina de estos cigarrillos sigue una distribución normal con una desviación estándar de 1 miligramo. a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido promedio de nicotina en estos cigarrillos. b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado? 2. El tiempo(en minutos) que tardaron 15 operarios para familiarizarse con el manejo de una máquina moderna adquirida por la empresa fue: 3,4, 2,8, 4,4, 2,5, 3,3, 4, 4,8, 2,9, 5,6, 5,2, 3,7, 3, 3,6, 2,8,4,8. Suponga que los tiempos se distribuyen normalmente. 3. Determine e interprete un intervalo del 95% de confianza para el verdadero tiempo promedio 4. el instructor considera que el tiempo promedio requerido por la población de trabajadores que recibe instrucción sobre esta m quina es superior a 5 minutos, ¿qué se puede decir de acuerdo con el intervalo hallado? 5. Se desea medir la diferencia entre dos categorías de empleados en la actividad de seguros. Una est formada por personas con título superior y la otra por personas que sólo tienen estudios secundarios. Tomamos una muestra de 45 empleados entre los primeros y la media de ventas resulta ser 32. Tomamos 60 empleados del segundo grupo y la media es 25. Suponga que las ventas de los dos grupos se distribuyen normalmente con varianzas de 48 para los titulados superiores y 56 para los de estudios secundarios. 6. Calcule e interprete un intervalo del 90% de confianza para la verdadera diferencia de las medias.
  • 97. 7. De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias sean iguales? 8. Se registraron los siguientes datos, en minutos, que tardan algunos hombres y mujeres en realizar cierta actividad en una empresa, los cuales fueron seleccionados aleatoriamente. HOMBRES MUJERES n1=14 n2=25 Media=17 Media=19 Varianza=1,5 Varianza=1,8 9. Suponga que los tiempos para los dos grupos se distribuyen normalmente y que las varianzas son iguales, aunque desconocidas. 10.Calcule e interprete un intervalo de confianza del 99% para la verdadera diferencia de medias. 11.De acuerdo con el intervalo hallado, ¿hay evidencia de que los dos tiempos promedio son iguales? 12.Una fábrica desea saber la proporción de amas de casa que preferirían una aspiradora de su marca. Se toma al azar una muestra de 100 amas de casa y 20 dicen que les gustaría la máquina. Calcule e interprete un intervalo del 95% de confianza para la verdadera proporción de amas de casa que preferirían dicha aspiradora. 13.Se está considerando cambiar el procedimiento de manufactura de partes. Se toman muestras del procedimiento actual así como del nuevo para determinar si este último resulta mejor. Si 75 de 1.000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de 2.500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera diferencia de proporciones de partes defectuosas. 14.Un fabricante de baterías para automóvil asegura que las baterías que produce duran en promedio 2 años con una desviación estándar de 0,5 años. Si cinco de estas baterías tienen duración 1,5, 2,5, 2,9, 3,2, 4 años, determine un intervalo del 95% para la varianza e indique si es cierta la afirmación del fabricante. 15.Tomando en cuenta los datos del problema IV, determine un intervalo del 90% de confianza para el cociente de varianzas
  • 98. TEORÍA ESTADÍSTICA DE LAS DECISIONES PRUEBA DE COMPROBACIÓN DE HIPÓTESIS Semana 12 Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se puede emplear el método de muestreo y el teorema del valor central lo que permite explicar como a partir de una muestra se puede inferir algo acerca de una población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias muestrales que nos permite explicar el teorema del limite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas medias maestrales de una población. Pero es necesario tener conocimiento de ciertos datos de la población como la media, la desviación estándar o la forma de la población, pero a veces no se dispone de esta información. En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina intervalote confianza y se espera que dentro de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro poblacional En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra. Definición de HIPÓTESIS Hipótesis es una aseveración de una población elaborado con el propósito de ponerla a prueba. En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable. Las hipótesis estadísticas se establecen entonces para tomar decisiones sobre el valor de algún parámetro poblacional.
  • 99. A partir de las siguientes premisas, elaborar un planteamiento de Hipótesis:  un maestro parte de la premisa de que el estudiante asiste al curso con el deseo de aprender.  un electricista debe partir de la premisa de que la conexión eléctrica que va a revisar está viva con corriente eléctrica;  la sociedad parte de la premisa de que una persona es inocente hasta tanto se pruebe lo contrario mas allá de duda razonable;  dependiendo del lugar donde vivamos, podemos partir de la premisa de que la persona que maneja el otro vehículo en la intersección respetará la señal de Pare o Alto;  un médico investigador parte de la premisa de que el nuevo medicamento no surtirá efecto alguno;  un sicólogo parte de la premisa de que dos grupos de individuos sometidos a tratamientos distintos no mostrarán diferencias en su comportamiento. Tipos de Hipótesis La premisa de la cual se parte sobre el comportamiento de la población se conoce como la hipótesis nula. Se le llama nula pues la misma generalmente indica, por ejemplo, que la media poblacional es cero; que no hay diferencia entre los parámetros asociados a grupos en la población; o que el medicamento no es efectivo en la población de pacientes. La hipótesis nula se denota usualmente en símbolos por H0. El cero nos recuerda que se parte de la premisa de que el efecto es nulo o que las diferencias entre los grupos es cero. Al hacer investigaciones es usual pensar en una hipótesis de investigación, tal como: demostrar que el medicamento es efectivo; demostrar que hay una diferencia significativa en la ejecución en una prueba entre individuos que durmieron toda la noche e individuos que no durmieron, o que unas plantas tratadas con hormonas crecen más que el grupo control. Esta hipótesis, lo que el investigador desea demostrar sobre la población, se conoce como la hipótesis alternativa y se denota por Ha. En conclusión Lo que el investigador desea demostrar es parte de la hipótesis alternativa y no de la nula por varias razones. Una razón es que partir de una premisa contraria a lo que deseamos demostrar, y luego encontrar evidencia concreta que nos lleve a rechazarla es un argumento más contundente que presumir que lo queremos demostrar es cierto para luego encontrar evidencia que apoya nuestro reclamo. En este último caso puede reclamarse que observamos esos resultados sencillamente porque de acuerdo con nuestra premisa, esperábamos que así fuera. Otra razón es que de esta manera podemos controlar matemáticamente la probabilidad de cometer algunos tipos de error.
  • 100. Ejemplo 1 Una persona es arrestada y se le acusa de cometer algún crimen. Inicialmente, esta persona es considerada inocente. Usando los datos o evidencia disponible el fiscal debe demostrar que sin duda razonable, la persona en efecto cometió el crimen. En el caso de un acusado, la hipótesis nula es que el individuo es inocente. Sin embargo, para decidir que un individuo no es culpable, no basta con observar muchas acciones o evidencia consistentes con su inocencia, las que por sí solas generalmente no demuestran su inocencia. Por el otro lado, observar comportamiento culposo permite llegar eventualmente a la decisión de encontrar al individuo culpable, rechazando la hipótesis nula. Ejemplo 2 Una maestra desea investigar si el refuerzo positivo a sus estudiantes les ayuda a obtener un mejor desempeño en el próximo examen. Para esto divide aleatoriamente a sus estudiantes en dos grupos. Al grupo A les felicita cuando hacen algo bien y les refuerza positivamente, mientras que al grupo B les trata neutralmente. La metodología de enseñanza es la misma para ambos grupos. La hipótesis nula en este caso es que no hay diferencia entre los grupos en la puntuación promedio en la prueba, es decir, ambas medias son iguales: H0: μA = μB, lo cual se puede escribir en forma equivalente H0: μA - μB = 0. La hipótesis alternativa contiene el resultado que el maestro desea probar, que la puntuación promedio del grupo A es mayor que la obtenida por los estudiantes del grupo B, H0: μA > μB.
  • 101. Tipos de errores Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación del Ho o de la Ha, puede incurrirse en error: Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada. En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles. Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible. La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequeña. El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal.
  • 102. TEST DE HIPÓTESIS O CONTRASTE DE HIPÓTESIS  Es una prueba de decisión que se establece a partir de la hipótesis nula con el fin de aceptarla o rechazarla.  Región Crítica: Es la región del espacio muestral que, de acuerdo con un determinado test, obliga a rechazar la hipótesis nula si se encuentra en ella el estadístico de contraste.  Región de Aceptación: Es la región del espacio muestral que, de acuerdo con un determinado test, obliga a admitir la hipótesis nula, si se encuentra en ella el estadístico de contraste. La prueba de comprobación de hipótesis se realiza mediante un procedimiento sistemático de 5 pasos
  • 103. Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1. Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian. La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho. La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro. La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro. Paso 2: Seleccionar el nivel de significancia. Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este termino es mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo.
  • 104. Paso 3: Cálculo del valor estadístico de prueba Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o más se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. Tipos de prueba a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad Ejemplo H0 : µ = 200 H1 : µ ≠ 200 b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤ H0 : µ ≥ 200 H0 : µ ≤ 200 H1 : µ < 200 H1 : µ > 200 En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es z y se determina a partir de: El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación:
  • 105. En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico t. Paso 4: Formular la regla de decisión Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota Distribución muestral del valor estadístico z, con prueba de una cola a la derecha Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula. Paso 5: Tomar una decisión. En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
  • 106. Importante! Región Crítica o de Rechazo: Una región crítica o de rechazo es una parte de la curva de z o de la curva t donde se rechaza H0. La región puede ser de una cola o de dos dependiendo de la hipótesis alterna. Ejemplos Para H1 :  > valor aceptado, la región de rechazo está dada por: (cola derecha, z ó t) Para H1 :  < valor aceptado, la región de rechazo está dada por: (cola izquierda, z ó t) Para H1 :   valor aceptado, la región de rechazo es de dos colas y está dada por: (2-colas, z ó t)   /2/2
  • 107. Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05 Datos: Día Usuarios Día Usuarios Día Usuario 1 356 11 305 21 429 2 427 12 413 22 376 3 387 13 391 23 328 4 510 14 380 24 411 5 288 15 382 25 397 6 290 16 389 26 365 7 320 17 405 27 405 8 350 18 293 28 369 9 403 19 276 29 429 10 329 20 417 30 364 Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar poblacional desconocida. Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa Ho: μ═350 Ha: μ≠ 350 Paso 02: Nivel de confianza o significancia 95% α═0.05 Paso 03: Calculamos o determinamos el valor estadístico de prueba De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en la formula reemplazando a la desviación estándar de la población.
  • 108. Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue. Columna1 Media 372.8 Error típico 9.56951578 Mediana 381 Moda 405 Desviación estándar 52.4143965 Varianza de la muestra 2747.26897 Curtosis 0.36687081 Coeficiente de asimetría 0.04706877 Rango 234 Mínimo 276 Máximo 510 Suma 11184 Cuenta 30 Nivel de confianza (95.0%) 19.571868 Paso 04: Formulación de la regla de decisión. La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
  • 109. Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96. Paso 05: Toma de decisión. En este último paso comparamos el estadístico de prueba calculado mediante el Software Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe de la Biblioteca.
  • 110. Practica Calificada N° 12 1. Una máquina llena botellas que contienen cierta vitamina; se supone que el peso promedio de vitamina en cada botella es de 32 gramos, con desviación estándar de 0,06 gramos. En una comprobación sistemática para ver que la máquina funciona adecuadamente, se toman aleatoriamente 46 botellas llenas y se advierte que contienen un promedio de 32,1 grs. A un nivel de significación de 0,05: a) ¿Se puede afirmar que la máquina funciona adecuadamente? b) Se puede afirmar que la máquina está llenando un promedio mayor a 32 gramos con una significación de 1%? 2. Las cajas de cereal producidas en una fábrica deben contener un contenido de 16 onzas. Un inspector tomó una muestra que arrojó los sgtes. pesos en onzas: 15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9,15.8 y 15.6. Indicar si es razonable que el inspector usando un nivel de significación del 5%. Ordene se multe al fabricante. 3. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo tanto reducen la cantidad de oxígeno disuelto disponible para los peces y otras formas de vida acuática. El Ministerio del Ambiente requiere un mínimo de 5 partes por millón de oxígeno disuelto para que el contenido de oxígeno sea suficiente para la vida acuática. Seis muestras de oxígeno tomadas de un río durante la estación de poco agua tuvieron: 4.9, 5.1, 4.9, 5.0, 5.0 y 4.7 partes por millón de oxígeno disuelto (ppm) . ¿Hay suficiente evidencia en los datos que indiquen que el oxígeno disuelto es menor que 5 partes por millón? Haga la prueba usando una significación del 5% 4. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo tanto reducen la cantidad de oxígeno disuelto disponible por los peces y otras formas de vida acuática. Un inspector de contaminación sospecha que cierta comunidad está descargando desperdicios semitratados en el río. Para verificar su teoría, obtuvo 5 muestras de agua del río seleccionadas al azar en una ubicación anterior a la ciudad y otras 5 en una ubicación posterior a la ciudad. Las cantidades de oxígeno disuelto en partes por millón fueron: Antes de la ciudad 4.8 5.2 5.0 4.9 5.1 Después de la ciudad 5.0 4.7 4.9 4.8 4.9 ¿Proporcionan los datos suficiente evidencia para concluir que el contenido medio de oxígeno en las ubicaciones que están después de la ciudad es menor que el de las ubicaciones que están antes de la ciudad?. Use una significación del 5%. 5. Dos métodos para enseñar a leer fueron aplicados a dos grupos de niños de escuela elemental seleccionados al azar y se compararon sobre la base de una prueba de comprensión de lectura administrada al final del período de aprendizaje. Las medias y varianzas muestrales calculadas a partir de las puntaciones obtenidas en la prueba fueron: Método Nº de niños en grupo Promedio Varianza 1 11 64 52 2 14 69 71 Con los datos proporcionados se podrá afirmar que hay una diferencia significativa entre los promedios obtenidos por cada método?. Con el 5% de significación
  • 111. 6. Se realiza un experimento para comparar los tiempos medios requeridos para la absorción de los medicamentos A y B. 10 personas seleccionadas al azar fueron asignadas a cada medicamento. Cada persona recibió una dosis oral del medicamento correspondiente y se observó el tiempo en minutos hasta que el medicamento llegó a un nivel específico en la sangre. Las medias y las varianzas para las dos muestras son los siguientes: Medicamento A Medicamento B Xa = 27.2 min Xb = 33.5 min Sa = 16.36 min Sb = 18.92 min ¿Proporcionan los datos suficiente evidencia para concluir que existe diferencia entre los tiempos medios de absorción para los 2 medicamentos?. Use significación del 10%. 7. Los salarios en una industria particular tiene una distribución normal con promedio de $23.20 y una desviación estándar de $4.5. Si una compañía en esta industria que emplea 40 trabajadores les paga en promedio $21.20, ¿puede ser acusada esta compañía de pagar salarios inferiores con un nivel de significación del 1%? 8. Un fabricante de televisores afirma que en promedio el 90% de sus televisores de color no necesita ninguna reparación durante sus dos primeros años funcionamiento. El IPC selecciona una muestra aleatoria de 100 tv y encuentra que 15 de ellos necesitan alguna reparación durante sus 2 primeros años de operación. ¿Presentan los datos evidencia suficiente como para que el IPC pueda afirmar que el fabricante está mintiendo?. Considere una significación del 5%. 9. Un laboratorio farmacéutico ha elaborado un medicamento para tratar la presión sanguínea alta. El laboratorio afirma que el medicamento efectivamente baja la presión en el 80% de los casos. Si 175 de 225 pacientes tratados con el medicamento experimentaron una disminución sustancial de la presión sanguínea. ¿Concluiría usted que el laboratorio ha exagerado a la efectividad del medicamento?. Utilice un nivel de significación de 0.01 10. El instituto de relaciones familiares informa que el 50% de los matrimonios que viven en la localidad llegan a una corte de divorcios dentro de su primer año de casados. ¿Qué conclusiones puede sacarse acerca de la valides de este informe si una muestra aleatoria de 400 matrimonios, solo 193 fueron a una corte de divorcios dentro de su primer año de casados?. Utilice una significación del 1%. 11. Una firma de ventas con descuento está considerando la compra de una gran partida de discos de un proveedor que afirma que en promedio, solo el 2% de losa discos tiene fallas. Al examinar 400 de estos discos, la firma encuentra 15 imperfectos. ¿Realizará la firma la afirmación del proveedor si exige una significación del 5%? 12. ¿Existe una diferencia en la proporción de hombres universitarios versus mujeres universitarias que fuman por lo menos una caja de cigarrillos al día? Una muestra de 500 alumnos de una universidad reveló que 70 fumaban por lo menos una cajetilla por día. Una muestra de 400 alumnas reveló que 72 fumaban al menos una cajetilla de cigarros diariamente. Al nivel de significación de 0.05¿existe una diferencia entre la proporción de alumnos y alumnas que fuman por lo menos una cajetilla diaria, o la diferencia en las proporciones puede ser atribuida a error de muestreo? 13.Se sabe que la desviación típica de las notas de cierto examen de Matemáticas es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven estos datos para
  • 112. confirmar la hipótesis de que la nota media del examen fue de 6, con un nivel de confianza del 95%? 14. Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de abstención en las próximas elecciones será del 40% como mínimo. Se elige al azar una muestra aleatoria de 200 individuos, con derecho a voto, 75 de los cuales estarían dispuestos a votar. Determinar con un nivel de significación del 1%, si se puede admitir el pronóstico. 15. Un informe indica que el precio medio del billete de avión entre Canarias y Madrid es, como máximo, de 120 € con una desviación típica de 40 €. Se toma una muestra de 100 viajeros y se obtiene que la media de los precios de sus billetes es de 128 €. ¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de partida? 16. La duración de las bombillas de 100 W que fabrica una empresa sigue una distribución normal con una desviación típica de 120 horas de duración. Su vida media está garantizada durante un mínimo de 800 horas. Se escoge al azar una muestra de 50 bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de significación de 0,01, ¿habría que rechazar el lote por no cumplir la garantía? 17. El control de calidad una fábrica de pilas y baterías sospecha que hubo defectos en la producción de un modelo de batería para teléfonos móviles, bajando su tiempo de duración. Hasta ahora el tiempo de duración en conversación seguía una distribución normal con media 300 minutos y desviación típica 30 minutos. Sin embargo, en la inspección del último lote producido, antes de enviarlo al mercado, se obtuvo que de una muestra de 60 baterías el medio de duración en conversación fue de 290 minutos. Suponiendo que ese tiempo sigue siendo Normal con la misma desviación típica: ¿Se puede concluir que las sospechas del control de calidad son ciertas a un nivel de significación del 2%? 18. Se cree que el nivel medio de protombina en una población normal es de 20 mg/100 ml de plasma con una desviación típica de 4 miligramos/100 ml. Para comprobarlo, se toma una muestra de 40 individuos en los que la media es de 18.5 mg/100 ml. ¿Se puede aceptar la hipótesis, con un nivel de significación del 5%? 19. Las puntuaciones en un test que mide la variable creatividad siguen, en la población general de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha proporcionado las siguientes puntuaciones: 11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15. A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
  • 113. SERIES TEMPORALES / ANÁLISIS DE REGRESIÓN LINEAL Semana 13 Toda institución, ya sea la familia, la empresa o el gobierno, necesita realizar planes para el futuro si desea sobrevivir o progresar. La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsión se suele basar en lo ocurrido en el pasado. La técnica estadística utilizada para hacer inferencias sobre el futuro teniendo en cuenta lo ocurrido en el pasado es el ANÁLISIS DE SERIES TEMPORALES. SERIE TEMPORAL Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo. Ejemplos • Nº de accidentes laborales graves en las empresas de más de 500 empleados de Lima, durante los últimos 5 años. • Ventas de nuestra empresa en los últimos 10 años. • Cantidad de lluvia caída al día durante el último trimestre. Los datos son de la forma (yt, t) donde: yt Variable endógena o dependiente t Variable exógena o independiente Nota: realmente sólo hay una variable a estudiar que es yt. En el análisis de regresión teníamos dos variables (explicábamos una variable a partir de la otra). Aquí sólo hay una variable (explicamos una variable a partir de su pasado histórico). Ejemplo Los datos siguientes corresponden al número de contratos nuevos realizados por las empresas de menos de 10 empleados, en Sevilla, durante el período 1996- 2000.
  • 114. Componentes de una serie temporal: - La tendencia. - Las variaciones cíclicas. - Las variaciones estacionales. - Las variaciones accidentales.
  • 115. LA TENDENCIA (T) Es una componente de la serie temporal que refleja su evolución a largo plazo. Puede ser de naturaleza estacionaria o constante (se representa con una recta paralela al eje de abscisas), de naturaleza lineal, de naturaleza parabólica, de naturaleza exponencial, etc. Ejemplo para la tendencia LAS VARIACIONES CÍCLICAS (C) Es una componente de la serie que recoge oscilaciones periódicas de amplitud superior a un año. Estas oscilaciones periódicas no son regulares y se presentan en los fenómenos económicos cuando se dan de forma alternativa etapas de prosperidad o de depresión. Ejemplo para las variaciones cíclicas Supongamos que tenemos las ventas trimestrales de un supermercado en el período 1990-1994, expresadas en millones de pesetas constantes del año 1990.
  • 116. LAS VARIACIONES ESTACIONALES (E) Es una componente de la serie que recoge oscilaciones que se producen alrededor de la tendencia, de forma repetitiva y en períodos iguales o inferiores a un año. Su nombre proviene de las estaciones climatológicas: primavera, verano, otoño e invierno. Ejemplos de variaciones estacionales - En Navidad las ventas de establecimientos se suelen incrementar. - El consumo de gasolina aumenta la primera decena del mes y disminuye en la última. - El clima afecta a la venta de determinados productos: los helados se venden fundamentalmente en verano y la ropa de abrigo en invierno. LAS VARIACIONES ACCIDENTALES (A) Es una componente de la serie que recoge movimientos provocados por factores imprevisibles (un pedido inesperado a nuestra empresa, una huelga, una ola de calor, etc). También reciben el nombre de variaciones irregulares, residuales o erráticas. ¿Cómo actúan estas 4 componentes? Manual de Estadística Pag. 66 • Modelo Aditivo : yt=T+C+E+A • Modelo Multiplicativo: yt=T·C·E·A • Modelo Mixto : yt=T·C·E+A
  • 117. ¿Cómo detectamos el modo en que interactúan las componentes de una serie temporal? ¿Esquema aditivo o multiplicativo? 1º) Calculamos 2 tipos de indicadores: Ci= Y(i,t+1) / Y(i,t) di=Y(i,t+1) / Y (i,t) 2º) Calculamos los coeficientes de variación para las series formadas por los dos indicadores, y si: CV Ci < CV di ------------- Esquema multiplicativo CV di < CV Ci ------------- Esquema aditivo EJEMPLO: Según la ECL, las horas no trabajadas por trimestre y trabajador entre 1992 y 1997 son: ¿Qué esquema de agregación es el más apropiado? 2º) Calculamos los Coeficientes de variación de ambas distribuciones:
  • 118. INTRODUCCION AL ANÁLISIS DE REGRESIÓN LINEAL Hasta ahora hemos hecho la tabulación y el análisis para una sola variable. Pero los investigadores, además de analizar una información en forma individual, generalmente se interesan en establecer cruces y buscar relaciones entre diferentes variables. AJUSTE DE CURVAS Y EL MÉTODO DE MÍNIMOS CUADRADOS Relaciones entre Variables: En la práctica encontramos a menudo que existen relaciones entre dos(o más) variables. Por ejemplo; los pesos de las personas dependen en cierta medida de sus alturas, las circunferencias de los círculos dependen de los radios, el rendimiento de un atleta depende de su edad, estatura y peso; la presión de una masa de gas dada depende de su volumen y de su temperatura, etc. Es deseable expresar tales relaciones en forma matemática determinando una ecuación que conecte a las variables. Ajuste de Curvas: Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren valores correspondientes de las variables bajo consideración. Supongamos que X e Y denotan la altura y peso de personas adultas; entonces una muestra de N individuos revelaría las alturas X1, X2, …, XN y los pesos correspondientes Y1, Y2, …, YN. El próximo paso es marcar los puntos (X1, Y1), (X2, Y2), …, (XN, YN) sobre un sistema de coordenadas rectangulares.El conjunto de puntos se llama un diagrama de dispersión. Ejemplos:
  • 119. El problema general de hallar ecuaciones de curvas aproximantes que se ajusten a un conjunto de datos se llama ajuste de curvas. La herramienta de análisis Regresión realiza un análisis de regresión lineal utilizando el método de los "mínimos cuadrados" para ajustar una línea a una serie de observaciones. Puede utilizar esta herramienta para analizar la forma en que los valores de una o más variables independientes afectan a una variable dependiente. Por ejemplo, puede analizar de qué modo inciden en el rendimiento de un atleta varios factores: la edad, la estatura y el peso. Basándose en un conjunto de datos de rendimiento, la regresión determinará la incidencia de cada uno de los factores en la medición del rendimiento y podrán utilizarse estos resultados para predecir el rendimiento de un atleta nuevo no sometido a ninguna prueba. Mínimos cuadrados Es una técnica de Análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares se intenta encontrar la función que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático. En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. También es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados). La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía.
  • 120. La recta de mínimos cuadrados que aproxima el conjunto de puntos (X1, Y1), (X2, Y2), ….,(XN, YN) tiene por ecuación: Y = ao + a1X Al resolver simultáneamente las ecuaciones, podemos hallar las constantes ao y a1 de las fórmulas: ao = (∑Y)( ∑X2 ) – (∑X)( ∑XY) a1 = N ∑XY – (∑X)( ∑Y) N ∑ X2 – (∑ X)2 N ∑ X2 – (∑ X)2 Ejercicios: 1. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al ajuste de la recta mediante mínimo cuadrado. X 1.0 1.5 2.0 2.5 3.0 3.5 4.2 Y 1.46 2.14 2.63 2.99 3.32 3.69 4.44 2. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al ajuste de la recta mediante mínimo cuadrado. x 2 3 6 10 20 30 y 126.1 141.5 170.1 193.2 228.0 250.3 Regresión Lineal Teniendo ya conocimiento de la intensidad de la relación entre las variables, manifestada a través del diagrama de dispersión, podemos ensayar el ajuste de un modelo estadístico que se adapte mejor a las “n” observaciones; lo que lleva por nombre regresión. Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos cuadrados, que produce estimaciones con menor error cuadrático promedio. Ajuste Rectilíneo (Método de los Mínimos Cuadrados) La forma general de una ecuación de línea recta es: y = a + bx donde: X : Variable independiente Y : Variable dependiente a : Término independiente o intercepto b : Coeficiente de X Debemos establecer los parámetros “a” y “b” de la ecuación para poder expresar los valores de la variable Y en función de los valores de la variable X.
  • 121. Ejemplo: Se realizó un experimento con una balanza, colocando gradualmente peso en el platillo y verificando la elongación del resorte. Se tomaron las siguientes mediciones de elongación para diferentes pesos, obteniendo los siguientes resultados: Se pide establecer la relación entre las variables participantes de este suceso. SOLUCIÓN 1. Definimos las variables: Peso: variable independiente (X) Elongación; variable dependiente (Y) 2. Elaboramos el gráfico de dispersión De este gráfico, podemos inferir que las variables tienen un comportamiento lineal. Por lo tanto debemos encontrar la recta que mejor se ajuste a los datos. Utilizamos el método de los mínimos cuadrados para encontrar la recta. F Elongación 0 0 5 1,5575 10 1,2905 15 3,1539 20 4,2276 25 4,6604 30 5,2013 35 6,9964 40 7,0740 45 9,7069 50 10,4643 55 11,4457 60 11,8001 65 12,1885 70 14,7024 75 15,8981 80 15,0221 85 17,6232 90 18,9859 95 19,6699 100 19,7012 105 21,1213
  • 122. 3. Obteniendo los valores de los coeficientes siguientes: a = -0.15974784 b = 0.204333921 La ecuación de la recta quedaría: Y = -0.1597 + 0.2043 Partiendo de esta ecuación, vamos a inferir y hallar los valores de elongación cuando el peso es: 28, 72 y 110 X Y X^2 X*Y F Elongación 0 0 0 0 5 1,5575 25 7,7873 10 1,2905 100 12,905 15 3,1539 225 47,309 20 4,2276 400 84,552 25 4,6604 625 116,51 30 5,2013 900 156,04 35 6,9964 1225 244,87 40 7,0740 1600 282,96 45 9,7069 2025 436,81 50 10,4643 2500 523,22 55 11,4457 3025 629,51 60 11,8001 3600 708,01 65 12,1885 4225 792,25 70 14,7024 4900 1029,2 75 15,8981 5625 1192,4 80 15,0221 6400 1201,8 85 17,6232 7225 1498 90 18,9859 8100 1708,7 95 19,6699 9025 1868,6 100 19,7012 10000 1970,1 105 21,1213 11025 2217,7
  • 123. Practica Calificada N° 13 1. El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue un patrón lineal. Se calculó una recta de regresión mediante el método de mínimos cuadrados con datos de alturas de niñas norteamericanas de 4 a 9 años y el resultado fue: intercepto a=80 y pendiente b=6. La variable dependiente y es la altura en cm y x es la edad en años. - Interprete los valores estimados del intercepto y de la pendiente. - Cuál será la altura predicha de una niña de 8 años. - Cuál será la altura predicha de una mujer de 25 años. Comente el resultado. 2. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista Field Crops Research, los datos usados en la investigación son: Duración 92 92 96 100 102 102 106 106 121 143 Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3 Con x = la duración de la cosecha de porotos de soya en días, y = rendimiento de la cosecha en toneladas por hectárea. - Estime la recta de regresión mediante el método de mínimos cuadrados. Interprete los estimadores en el contexto de la pregunta. - ¿Existe una relación lineal significativa entre la duración y el rendimiento de la cosecha? - Verifique los supuestos. - Estime el rendimiento si la duración de la cosecha fue de 104 días 3. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la salida adjunta. CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90 Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6 - Encuentre e interprete el coeficiente de correlación r. - Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la pregunta. - Verifique los supuestos de regresión. - ¿Existe una relación lineal significativa entre el número de hermanos y el coeficiente intelectual? 4. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción cuyos resultados se muestran en la tabla que sigue:
  • 124. - Estime a y b mediante el método de mínimos cuadrados. Interprete los coeficientes de regresión. - ¿Existe una relación lineal significativa entre la ingestión y la absorción de grasas? - Verifique los supuestos - ¿Cuánto vale la suma de los residuos calculados para las 20 determinaciones? Conteste SI o NO a las siguientes preguntas: - El gráfico de residuos muestra que la relación entre la ingestión y la absorción de grasas es lineal - El gráfico de residuos se puede usar para determinar si los residuos están normalmente distribuidos. - El gráfico de residuos se puede usar para verificar el supuesto de homocedasticidad. 5. La tabla más abajo presenta los datos sobre el número de cambios de aceite al año (x) y el costo de la reparación (y, en miles de pesos) de una muestra aleatoria de 10 autos de una cierta marca y modelo. # cambios aceite 3 5 2 3 1 4 6 4 costo en miles de peso 150 150 250 200 350 200 50 125 - Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad y valores extremos. - Encuentre la recta de regresión de mínimos cuadrados. - Interprete los valores estimados del intercepto y de la pendiente. - Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de aceite. - Si cambia x por y, obtendrá la misma recta de regresión? - Calcule el residuo para la primera observación (x=3, y=150). - Verifique los supuestos de la regresión lineal.
  • 125. ANÁLISIS DE CORRELACIÓN/ TASAS Y NÚMEROS INDICE Semana 14 CORRELACIÓN En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre sí y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables. El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador, teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir relacionar lo que sea razonable y no datos cuya asociación sea desde cualquier punto de vista absurda. Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las variables (xi,yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de dispersión, donde se advierte la tendencia o no, de la información representada.
  • 126. A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable dependiente “Y”. Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más acostumbrado es el Coeficiente de correlación, definido como: , donde: Algunas consideraciones importantes sobre el coeficiente de correlación lineal:  Es una cantidad sin dimensiones, es decir no depende de las unidades empleadas. Por ejemplo, si se está buscando hallar el coeficiente de correlación entre el peso y la altura de los niños en determinada ciudad, entonces el resultado será el mismo independientemente de si el peso de todos los niños se mide en Kilogramos o en gramos e independientemente de si la altura de todos los niños se mide en metros o centímetros.  Se verifica siempre que:
  • 127.  Si el coeficiente de correlación es igual a 1, entonces hay una correlación lineal positiva perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente positiva, es decir una recta que crece, o sea que cuando x aumenta, entonces también lo hace y.  Si el coeficiente de correlación es igual a -1, entonces hay una correlación lineal negativa perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente negativa, es decir una recta que decrece, o sea que cuando x aumenta, entonces y disminuye.  En cualquier otro caso, para aceptar si hay una correlación lineal aceptable, no hay ninguna regla estricta. Normalmente, para aceptar la existencia de dicha correlación, el coeficiente debe ser mayor que 0,7 o menor que -0,7. En caso contrario, se suele rechazar la existencia de correlación lineal. ¿Qué puede deducirse si se rechaza la existencia de correlación lineal si, por ejemplo, se encuentra un coeficiente de correlación lineal de 0,3 entre dos variables?  Lo único que puede deducirse es que los datos no se ajustan a una recta.  Pero esto no significa que no haya relación entre ellos dado que podrían ajustarse a una parábola o a cualquier otra curva. Sólo se deduce que no hay correlación lineal aunque pudiera haber una correlación no lineal.  Este es el gran inconveniente del coeficiente de correlación lineal: no sirve para decidir si hay o no una posible relación entre dos variables, sólo sirve para decidir si hay o no una posible relación lineal entre dos variables.  Ello hace que, definitivamente, la única manera de decidir inicialmente si debe sospecharse o no la existencia de relación entre dos variables es estudiar detenidamente el diagrama de dispersión correspondiente, o sea la nube de puntos.  Y, en su caso, sólo después habrá que decidir con que curva se intentan ajustar los datos. Para resolver Usando los ejercicios de análisis de regresión de la semana anterior, se pide calcular el Coeficiente de Correlación y determinar la fuerza de la correlación entre variables.
  • 128. TASAS e INDICES Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea general de su tendencia o comportamiento; pero para efectos de establecer comparaciones adecuadas del mismo fenómeno con otra región, o su ocurrencia a través del tiempo, se utilizan ciertos indicadores denominados tasas e índices. Tasa Una tasa es la resultante de una fracción, en donde el numerador está contenido dentro del denominador: Ejemplos: D = R_ * 1000 M D: Tasa de deserción escolar. R: Número de retiros durante el año. M: Número total de matriculados durante el año TE = PEAO * 1000 PEA TE: Tasa de empleo. PEAO: Población económicamente activa ocupada. PEA : Población económicamente activa. Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es 100, 1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc. En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes: TM = D * 1000 P Donde: TM : Tasa de mortalidad. D : Número de defunciones en un periodo y área dada. P : Población total en esa área a mitad del periodo. TN = N * 1000 P Donde TN : Tasa de natalidad N : Número de nacidos vivos ocurridos en un periodo y área dada P : Población total del área a mitad del periodo. TC = M * 1000 P
  • 129. Donde: TC : Tasa de nupcialidad. M : Número de matrimonios efectuados en un periodo y área dada. P : Total de la población a mitad del periodo. Ejemplo: El siguiente cuadro muestra la evolución de la tasa de desempleo en Colombia, resultados obtenidos de la encuesta nacional de hogares para los periodos comprendidos entre los años 1.990 –2.000
  • 130. Índice Un número índice, como comúnmente se le llama, es un indicador de los cambios relativos de una o más variables a través del tiempo. Entre las principales aplicaciones de los números índice, está la de establecer comparaciones entre los indicadores de las diferentes zonas geográficas, profesiones , grupos étnicos etc. Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o "periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valor de la variable para ese periodo. Además debe considerarse un periodo reciente que haga comparables los diferentes valores de las variables consideradas. Índice Simple Un número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de los valores de la serie cronológica, por el valor correspondiente al "periodo base" previamente definido. 1 Índice de Base Fija Ip = Pn * 100, si la variable se refiere a precios Po Iq = Qn * 100, si la variable se refiere a cantidades Qo Ip : Índice de precios Pn: Precio del artículo en el periodo n P0 : Precio del artículo en el periodo base Iq : Índice de cantidades Qn : Cantidad del artículo en el periodo n Q0 : Cantidad del artículo en el periodo base
  • 131. Consumo promedio de energía en la fábrica de confecciones “La Textil” En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998 respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla se han calculado los índices de cantidades sin considerar los precios. Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las cantidades: Valor relativo = Pn * Qn * 100 Po * Qo
  • 132. Índice de Base Móvil Solo hemos considerado, los índices simples de base fija, esto es, con un periodo base determinado. Es común que interese comparar un índice con el índice del periodo inmediatamente anterior, en consecuencia se debe fijar el periodo base en el periodo anterior al referenciado, y así sucesivamente hasta completar la serie, al cual se le nombra índice de base móvil.
  • 133. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Qué es una tasa? 2. ¿Qué es un índice? 3. ¿Para qué se utilizan los números índices? 4. ¿Cómo se construye un número índice simple? 5. ¿Cómo se construye un número índice compuesto? 6. Los precios y las cantidades de un articulo X vienen dados en la siguiente tabla: Tomando como año base 1995, calcular para los otros años: 6.1 Los índices de precios. 6.2 Los índices de cantidades. 6.3 Los índices de valores. 7. A continuación se relacionan los precios y las cantidades del año base, de cuatro artículos diferentes:
  • 134. CONTROLES DE CALIDAD Y PROCESOS ESTADÍSTICOS Semana 15 Orígenes y evolución de la calidad Previo a la conformación de los primeros grupos humanos organizados de importancia, las personas tenían pocas opciones para elegir lo que habrían de comer, vestir, en donde vivir y como vivir, todo dependía de sus habilidades en la cacería y en el manejo de herramientas, así como de su fuerza y voluntad, el usuario y el primitivo fabricante eran, regularmente, el mismo individuo. La calidad era posible definirla como todo aquello que contribuyera a mejorar las precarias condiciones de vida de la época prehistórica, es decir, las cosas eran valiosas por el uso que se les daba, lo que era acentuado por la dificultad de poseerlas. Conforme el ser humano evoluciona culturalmente y se dinamiza el crecimiento de los asentamientos humanos, la técnica mejora y comienzan a darse los primeros esbozos de manufactura; se da una separación importante entre usuario o cliente y el fabricante o proveedor. La calidad se determinaba a través del contacto entre los compradores y lo vendedores, las buenas relaciones mejoraban la posibilidad de hacerse de una mejor mercancía, sin embargo, no existían garantías ni especificaciones, el cliente escogía dentro de las existencias disponibles. Conforme la técnica se perfecciona y las poblaciones se transforman poco a poco en pueblos y luego en ciudades de tamaño considerable, aparecen los talleres de artesanos dedicados a la fabricación de gran variedad de utensilios y mercancías, cada taller se dedicaba a la elaboración
  • 135. de un producto, eran especialistas en ello y basaban su prestigio en la alta calidad de sus hechuras, las que correspondían a las necesidades particulares de sus clientes. En esta etapa surge el comerciante, sirviendo de intermediario entre el cliente y el fabricante. Los gurús de nuestros días Los gurús de esta nueva etapa idealizan las funciones y dinámica de la organización para insertarlas en un nuevo modelo de comportamiento, relaciones y disciplinas. Entre estos tenemos: W. EDWARDS DEMING (1900-1993) William Edwards Deming nació en 1900 en Wyoming, E.U., se dedicó a trabajar sobre el control estadístico de la calidad. Japón asumió y desarrollo los planteamientos de Deming, y los convirtió en el eje de su estrategia de desarrollo nacional. En 1950 W. Edward Deming visitó Japón, dando conferencias sobre Control de Calidad. A dichas conferencias asistieron un grupo numeroso y seleccionado de directivos de empresas para crear las bases sobre las que instaurar el Premio Deming, premiando a aquellas instituciones o personas que se caracterizaran por su interés en implantar la calidad. JOSEPH MOSES JURAN (1904-199) Nace en Rumania en 1904 y es otra de las grandes figuras de la calidad. Se traslada a Minnesota en 1912. Es contemporáneo de Deming. Después de la II Guerra Mundial trabajó como consultor. Visita Japón en 1954 y convierte el Control de la Calidad en instrumento de la dirección de la empresa. Imparte su conferencia sobre: "Gestión Sistemática del Control de Calidad". Se le descubre a raíz de la publicación de su libro, desechado por otras editoriales: "Manual de Control de Calidad". Su fundamento básico de la calidad, es que sólo puede tener efecto en una empresa cuando ésta aprende a gestionar la calidad. KAORU ISHIKAWA (1915-) El representante emblemático del movimiento del Control de Calidad en Japón es el Dr. Kaoru Ishikawa. Nacido en 1915, se graduó en la Universidad de Tokio el año 1939 en Química Aplicada. Fue profesor en la misma Universidad, donde comprendió la importancia de los métodos estadísticos, ante la dispersión de datos, para hallar consecuencias. Desarrolla el Diagrama Causa-Efecto como herramienta para el estudio de las causas de los problemas. Parte de que los problemas no tienen causas únicas, sino que suelen ser, según su experiencia, un cúmulo de causas. Sólo hay que buscar esta multiplicidad de causas, colocarlas en su diagrama.
  • 136. ¿Qué es Control Estadístico de la Calidad (CEC)? Es una metodología orientada a la mejora de procesos productivos/servicios basada en la utilización de criterios estadísticos Comenzando con la aportación de Shewhart sobre reconocer que en todo proceso de producción existe variación (Gutiérrez:1992), puntualizó que no podían producirse dos partes con las mismas especificaciones, pues era evidente que las diferencias en la materia prima e insumos y los distintos grados de habilidad de los operadores provocaban variabilidad. Shewhart no proponía suprimir las variaciones, sino determinar cuál era el rango tolerable de variación que evite que se originen problemas. Para lograr lo anterior, desarrolló las gráficas de control al tiempo que Roming y Dodge desarrollaban las técnicas de muestreo adecuadas para solamente tener que verificar cierta cantidad de productos en lugar de inspeccionar todas las unidades. Este periodo de la calidad surge en la década de los 30’s a raíz de los trabajos de investigación realizados por la Bell Telephone Laboratories. En su grupo de investigadores destacaron hombres como Walter A. Shewhart, Harry Roming y Harold Dodge, incorporándose después, como fuerte impulsor de las ideas de Shewhart, el Dr. Edwards W. Deming (Cantú:1997). Estos investigadores cimentaron las bases de lo que hoy conocemos como Control Estadístico de la Calidad (Statistical Quality Control, SQC), lo cual constituyó un avance sin precedente en el movimiento hacia la calidad.
  • 137. Causas de variación Existen variaciones en todas las partes producidas en el proceso de manufactura. Hay dos fuentes de variación: - variación aleatoria se debe al azar y no se puede eliminar por completo. - variación asignable es no aleatoria y se puede reducir o eliminar. Nota: la variación puede cambiar y cambiará la forma, dispersión y tendencia central de la distribución de las características medidas del producto. Diagramas de diagnóstico Controles o registros que podrían llamarse "herramientas para asegurar la calidad de una fábrica", esta son las siguientes: o Hoja de control (Hoja de recogida de datos) o Histograma o Análisis paretiano (Diagrama de pareto) o Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado) o Estratificación (Análisis por Estratificación) o Diagrama de scadter (Diagrama de Dispersión) o Gráfica de control La experiencia de los especialistas en la aplicación de estos instrumentos o Herramientas Estadísticas señala que bien aplicadas y utilizando un método estandarizado de solución de problemas pueden ser capaces de resolver hasta el 95% de los problemas. En la práctica estas herramientas requieren ser complementadas con otras técnicas como son: o La lluvia de ideas (Brainstorming) o La Encuesta o La Entrevista o Diagrama de Flujo o Matriz de Selección de Problemas, etc…
  • 138. ¿QUÉ PRETENDE EL CEC ?  REDUCIR LA VARIABILIDAD Y LA DISPERSIÓN  HACER LAS COSAS “BIEN A LA PRIMERA”  PREVENIENDO LOS FALLOS EN LUGAR DE CORREGIR SUS EFECTOS.  LAS DECISIONES SE TOMAN EN FUNCIÓN DE DATOS Y NO DE PERCEPCIONES SUBJETIVAS.  CORREGIR LOS PROCESOS DEFECTUOSOS EN VEZ DE LOS PRODUCTOS/SERVICIOS DEFECTUOSOS NATURALEZA DE LOS PROBLEMAS ESTADÍSTICOS 1. Problema con la tendencia central
  • 139. 2. Problema con las Medidas de Dispersión
  • 141. TRABAJO FINAL: Presentación de Proyecto Integrador: Diagnóstico de Caso de Estudio con Aplicación de Métodos Estadísticos