0
Universidad Salesiana
de Bolivia
Ingeniería de Sistemas
DOSSIER
DOSSIER
TÉCNICASDE ESTUDIO
DOCENTE: Lic. Rita R. Torrico
DOSSIER
DOSSIER
PROBABILIDAD Y
ESTADÍSTICA
DOCENTE: Lic. Rolando Saúl Flores Lovera
II- 2013
1
TÉCNICASDE ESTUDIO
ÍNDICE
PRESENTACIÓN
UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA
1.1 Introducción…………………………………………………………………………..5
1.2 Historia de la estadística…..…………………………………………......………...6
1.3 Definición de estadística……………………………………………………………7
1.4 Clasificación de la estadística……………………………………………………...7
1.5 Fuentes de datos estadísticos……………………………………………………...8
1.6 Procedimiento para recolectar datos……..……………………...........................9
1.6.1Observación…………………………………………………………………9
1.6.2 La encuesta………………………………………………………………..10
1.6.3 Consideraciones generales para la elaboración del formulario……...11
1.6.4 Requisitos de un instrumento de medición…………………..…………12
1.7 Parámetro y estadígrafo… …………………………………...…………………...12
1.8 Etapas del método científico y estadístico…..………………………………......13
1.8.1 Etapas del método estadístico…………………………………………..13
1.9 Población y muestra ………………………………………………………………..16
UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO
2.1Tabulación…………………………………………………………………………….22
2.2 ¿Qué es una distribución de frecuencia?.........................................................22
2.3 El elemento clase de la distribución de frecuencia………………………………23
2.3.1 Frecuencia de clase……………………………………………………….23
2.3.2 Distribución de frecuencia o tabla de frecuencia………………………23
2.3.3 Datos agrupados…………………………………………………………..23
2.3.4 Intervalos de clase y límites de clase…………………………………...23
2.3.5 Fronteras de clase……………………………………………………...…24
2.3.6 Tamaño o amplitud de un intervalo…………………………………..…24
2.3.7 Marca de clase…………………………………………………………….24
2.3.8 Rango………………………………………………………………………25
2.4 Reglas generales para construir distribución de frecuencias………………….25
2.5 Frecuencia absoluta simple………………………………………………………..26.
2.6 Frecuencia relativa…………………………………………………………………..27
2.7 Representación gráfica de variables cuantitativas………………………………28
2.8 Representación gráfica de variables cualitativas………………………………..32
UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS
3.1 Concepto de variable cualitativa…………………………………………………..36
3.2 Razón…………………………………………………………………………………38
2
3.3. Proporción…………………………………………………………………………..39
3.4 Porcentajes………………………………………………………………………….40
3.5 Tasas…………………………………………………………………………………41
UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS
4.1 Concepto de variable cuantitativa………………………………………………...43
4.2 Medidas de tendencia central……………………………………………………..45
4.2.1 Tipos de promedio………………………………………………….46
4.2.2 Media aritmética – datos no agrupados…………………………46
4.2.3 Media aritmética – datos agrupados…………………………..…47
4.2.4 Propiedades de la media aritmética………………………………48
4.2.5 Media ponderada……………………………………………………51
4.2.6 Mediana………………………………………………………………52
4.2.7 Cuartiles………………………………………………………………55
4.2.8 Deciles………………………………………………………………..57
4.2.9 Percentiles……………………………………………………………58
4.2.10 La moda………………………………………………………….....59
4.2.11 Relación entre la media, mediana y moda……………………...62
4.2.12 Encogimiento entre la media, mediana y la moda……………..63
4.2.13 Media geométrica………………………………………………….63
4.2.14 Media armónica……………………………………………………66
4.2.15 Media cuadrática…………………………………………………..67
4.3 Medidas de dispersión o concentración………………………………………….67
4.3.1 Recorrido de la variable…………………………………………….69
4.3.2 Recorrido intercuartilitico……………………………………………69
4.3.3 Recorrido semi-cuartilitico…………………………………………..70
4.3.4 Desviación media o promedio……………………………………..70
4.3.5 Varianza y Desviación estándar…………………………………..72
4.4 Medidas de dispersión relativa…………………………………………………….77
4.4.1 Coeficiente de Variación……………………………………………78
4.4.2 Momentos………..…………………………………………………..79
4.5 Medidas de asimetría………………………………..……………………………..81
4.5.1 Coeficientes de asimetría………………………………………….82
4.6 Medidas de curtosis…………………………………………………………………83
UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL
5.1 Introducción…………………………………………………………………………..85
5.2 Representación de la información mediante tablas bidimensionales…………86
5.2.1 Distribuciones marginales………………………………………….88
5.2.2 Propiedades de la frecuencia……………………………………...91
5.2.3 Medias y Varianzas marginales……………………………………92
5.3 Distribuciones condicionales……………………………………………………….94
5.4 Medidas de dependencia entre variables nominales……………………………95
5.4.1 Independencia de variables………………………………………..96
5.4.2 Diagrama de dispersión o nubes de puntos…………………….100
5.5 Nociones de correlación y regresión lineal……………………………………...101
5.5.1 Cálculo del coeficiente de correlación…………………………..103
5.5.2 Regresión…………………………………………………………..104
3
UNIDAD VI ANÁLISIS COMBINATORIO
6.1 Introducción…………………………………………………………………………108
6.2 Principios básicos del proceso de contar……………………………………….109
6.3 Arreglos……………………………………………………………………………..110
6.3.1 Arreglos simples…………………………………………………..110
6.3.2 Arreglos con repetición…………………………………………...111
6.4 Permutaciones……………………………………………………………………..111
6.4.1Permutaciones simples……………………………………………111
6.4.2 Permutaciones circulares………………………………………...112
6.4.3 Permutaciones con repetición…………………………………...113
6.5 Combinaciones…………………………………………………………………….114
LECTURAS COMPLEMENTARIAS…………………………………………………120
PRÁCTICAS………………………………………………………………………….…120
BIBLIOGRAFÍA………………………………………………………………………..130
GLOSARIO…………………………………………………………………………..…130
4
PRESENTACIÓN
El presente Dossier ha sido realizado como un instrumento de apoyo en la
asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a
cabo una investigación, desde la recolección, clasificación, análisis e
interpretación de los datos.
Así mismo este documento se divide en seis unidades. La primera aborda los
conceptos fundamentales de estadística y las etapas del método estadístico que
consisten en una serie de procedimientos para el manejo de los datos cualitativos
y cuantitativos de la investigación.
Una vez expuestas las características generales de la estadística, en la unidad
dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar
el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al
concepto fundamental de frecuencia.
Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables
cualitativas y para ello se considera: razón, proporción, porcentajes y tasas.
A continuación, la unidad cuatro procede al análisis descriptivo de las variables
cuantitativas a través de las medidas de tendencia central y de dispersión, que
sintetizan la información sobre los datos que analizamos, facilitando su manejo. En
lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores
que separan a los datos en grupos significativos.
Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales,
es decir, se analizan al mismo tiempo dos variables de cada elemento de la
población. Estas variables pueden ser cuantitativas o cualitativas; para ello se
desarrollarán un conjunto de técnicas que permitan describir las relaciones que
ligan a esas dos variables o atributos, para establecer el grado de dependencia o
asociación entre ellos, así como para estimar a una de éstas a partir del
comportamiento de la otra.
Finalmente la unidad seis desarrolla los principios para determinar el número de
combinaciones de elementos de un conjunto finito, que es fundamental para
establecer la tradicional conexión entre combinatoria y probabilidad.
5
1.1 Introducción
¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea
en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia,
¡La Variabilidad! que es la característica más relevante de todos los seres vivos.
Se interpreta como las diferencias existentes entre individuos de un mismo grupo
aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La
variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta
presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o
más de una de las siguientes causas.
a. El medio ambiente o efecto ecológico.
b. La herencia o efecto genético.
La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica
los efectos de la primera a través de los métodos que se fundamentan en la
matemática, la experimentación y la observación. Esta no puede estudiarse en un
6
solo individuo, la formulación de un problema estadístico requiere de la presencia
de un grupo de ellos, mejor si es un conjunto numeroso.
Originalmente estadística derivó del vocablo “estado”
¿Por qué?
Porque la función tradicional de los gobiernos centrales es y ha sido llevar la
cuenta de la cantidad de:
 Habitantes
 Nacimientos
 Defunciones
 Empleo
 Desempleo
 Empresas
 Costo de la vida
 Etc.
Aunque se tiene muchos años de experiencia en la recolección de este tipo de
información, se continúa presentando complicaciones y oportunidades para la
contribución científica en lo que respecta a:
recolectar procesar interpretar
Hoy en día muchas actividades están relacionadas con la estadística y muchas
ocupaciones implican el uso del método científico.
1.2 Historia de la Estadística
La Estadística, tal como se la definió, se fundamenta en el cálculo de
probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se
denomina Estadística Matemática en oposición a la Estadística Estatal, cuya
misión es el registro de las estadísticas de los estados: población, empleo,
consumo, etc. La estadística estatal se remonta a las primeras civilizaciones
conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII
a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre
desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en
el siglo XIX.
Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel
(1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los
caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas
que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc).
Genera muchas clases de datos numéricos
Eficientemente tales datos
7
Las leyes de reaparición del carácter en cuestión y su transmisión fueron
publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el
nombre de Leyes de Mendel.
A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la
investigación de problemas sociales y educativos. Francis Galton fue el que
promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson,
Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño
tamaño. Hoy en día, es la principal herramienta metodológica en toda
investigación de cualquier ciencia.
1.3 Definición de estadística
es la
que proporciona
destinados a
los
para la
1.4 Clasificación de la estadística
De acuerdo a la anterior definición la estadística se clasifica en:
 Estadística descriptiva.-
ESTADÍSTIC
A
Recolecta
r datos
Clasificar
datos
Prestar
datos
Tablas
Análisis
descriptiv
o
CIENCIA
MÉTODOS PROCEDIMIENTO
S
CLASIFICAR ANALIZARRECOLECTA
R
INTERPRETA
R
DATOS
TOMA DE
DECISIONES
8
Es otras palabras podemos expresar que un estudio estadístico se
considera “descriptivo” cuando sólo se pretende analizar y describir los
datos.
 Estadística Inferencial.-
Proporciona la teoría necesaria para inferir o estimar las leyes de una
población partiendo de los resultados o conclusiones del análisis de una
muestra que atañen a una población y como estas conclusiones nunca
pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de
incertidumbre o probabilidad.
 Modelización Estadística.-
Tiene por objetivo manejar la información para formar modelos aplicados a
la realidad con capacidad para predecir. Trata de establecer relaciones
lineales o no entre variables ajustándose a hipótesis probabilísticas. El
insumo importante es proporcionado por muestras.
1.5 Fuentes de Datos Estadísticos
Son los lugares donde se obtienen informes, resúmenes, hechos,
acontecimientos.
Fuente Primaria
Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo,
es decir se puede hablar u observar directamente a ese individuo o presenciar el
acontecimiento.
Fuente Secundaria
Es el documento que recoge en forma exhaustiva las características de la persona
y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o
simplemente sus características como el sexo, color de la piel, ojos, peso,
estatura. Son conocidos también como fuentes secundarias los lugares donde
estos documentos se encuentran almacenados como ser: Registro Civil, Instituto
Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que
guardan los documentos antes citados.
También pueden considerarse en esta fuente, los registros como son: tarjetas de
ingreso de una institución, partes de asistencia, planillas de sueldos, Balances
Gráficas
9
diarios, semestrales y anuales de los bancos, pólizas de importación, registros de
la precipitación pluvial, etc.
Fuente Terciaria
Son documentos que procesan la información de la fuente primaria o de la
secundaria, ubicando características similares, organizadas y presentadas al
investigador, en un boletín que puede ser de una plana. Con mayor razón serían
fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro
tipo de publicación que presenta datos procesados.
Diseños Experimentales
Generan información como respuesta a estudios en los que el investigador esta en
posibilidades de controlar variables independientes, buscando relaciones puras.
Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en
parcelas de iguales características de suelo que reciben 4 concentraciones de
fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir
el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4
fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por
criterio propio o experiencia de otros, elige el terreno, decide las profundidades de
sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los
rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de
acción.
1.6 Procedimiento para Recolectar Datos
Es necesario determinar el método de recolección de datos y tipo de instrumento
que se utilizará siendo esto la base para etapas siguientes.
 Método.-
Es el medio o camino a través del cual se establece la relación entre el
investigador y el consultado para la recolección de datos y el logro de los
objetivos; se citan la entrevista, la observación y el cuestionario.
 Instrumento.-
Es el mecanismo que utiliza el investigador para recolectar y registrar la
información; entre estos se encuentran los formularios, las pruebas
psicológicas, las escalas de opinión y de actitudes, las listas u hojas de
control y otros.
1.6.1 Observación
10
Es el registro visual de lo que ocurre en una situación real, clasificando y
consignando los acontecimientos pertinentes de acuerdo con algún esquema
previsto y según el problema que se estudia.
Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones.
Como método de recolección de datos, debe ser planificado cuidadosamente para
que reúna los requisitos de validez y confiabilidad.
También Quinteros comenta que “las condiciones de una investigación pueden
ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta
los posibles errores de la observación”.
Estos errores están relacionados con:
 Los observadores.
 El instrumento utilizado para la observación.
 El fenómeno observado.
1.6.2 La Encuesta
Este método consiste en obtener información de los sujetos de estudio,
proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay
dos maneras de obtener información con este método: la entrevista y el
cuestionario.
La Entrevista
Es la comunicación interpersonal establecida entre el investigador y el sujeto de
estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre
el problema propuesto.
Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda
persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que
tienen alguna limitación física u orgánica que les dificulte proporcionar una
respuesta escrita.
Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se
caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y
en el mismo orden a cada uno de los participantes, quienes deben escoger la
respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el
investigador tiene limitada libertad para formular preguntas independientes
generadas por la interacción personal.
Algunas ventajas que presenta este tipo de entrevista son:
 La información es más fácil de procesar, simplificando el análisis
comparativo.
 El entrevistador no necesita ser entrenado arduamente en la técnica.
 Hay uniformidad en el tipo de información obtenida.
11
Pero también tiene desventajas, tales como:
 Es difícil obtener información confidencial.
 Se limita la posibilidad de profundizar en un tema que emerja durante la
entrevista.
La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la
investigación rigen a las preguntas; su contenido, orden, profundidad y formulación
se encuentran por entero en manos del entrevistador. Es muy útil en los estudios
descriptivos y en las fases de exploración para el diseño del instrumento de
recolección de datos.
Las ventajas de este método son:
 Es adaptable y susceptible de aplicarse a toda clase de sujetos en
situaciones diversas.
 Permite profundizar en los temas de interés.
 Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas.
Entre sus desventajas se cita:
 Se requiere más tiempo.
 Es más costoso por la inversión de tiempo de los entrevistadores.
 Se dificulta la tabulación de los datos.
 Se requiere mucha habilidad técnica para obtener la información y mayor
conocimiento del tema.
Cuestionario
Es el método que utiliza un instrumento o formulario impreso, destinado a obtener
respuestas sobre el problema en estudio y que el investigador o consultado llena
por sí mismo.
Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad
para proporcionar información sobre un número mayor de personas en un
período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar
los datos.
Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información
no puede variar ni profundizarse; si el cuestionario se envía por correo se corre
el riesgo de que no llegue al destinatario o no se obtenga respuesta de los
encuestados; además, resulta difícil obtener una alta tasa de compleción del
cuestionario. Debido a esta posible pérdida de información se recomienda que se
seleccione una muestra más grande de sujetos de estudio.
1.6.3 Consideraciones generales para la elaboración del formulario
Si el investigador decide utilizar la observación regulada, la entrevista o el
cuestionario u otra fuente de información secundaria como método de recolección
de datos, debe elaborar un instrumento para obtener la información que requiere,
12
siendo el formulario el que se emplea con más frecuencia. Para diseñar
correctamente un formulario es necesario considerar algunos criterios
relacionados con su organización, las preguntas a plantear según los objetivos
propuestos en la investigación y las características físicas de los formularios.
1.6.4 Requisitos de un instrumento de medición
Las características de relevancia de los instrumentos de medición son:
 Confiabilidad
 Validez
El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos
o mediciones que correspondan a la realidad que se pretende conocer, o sea, la
exactitud de la medición, así como a la consistencia o estabilidad de la medición
en diferentes momentos.
Se dice que el instrumento es confiable si se obtienen medidas o datos que
representen el valor real de la variable que se está midiendo y si estos datos o
medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos
ocasiones diferentes, o al ser aplicados por diferentes personas.
La validez es entendida como el grado en que un instrumento logra medir lo que
se pretende medir.
1.7 Parámetro y estadígrafo
Parámetro
 Medida que describe alguna característica de una población.
 Se necesita utilizar la información de la población completa.
 Las decisiones se toman con certidumbre total.
Las más usadas son:
i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional
Estadígrafo
 Medida que describe alguna característica de la muestra.
 La toma de decisiones contiene un grado de incertidumbre.
Las más usadas son:
i) Media muestral ii) Proporción muestral iii) Varianza muestral
13
1.8 Etapas del método científico y estadístico
La estadística ha tenido su origen paralelamente a la investigación
comprendiéndose éste último concepto como el desarrollo sistematizado de la
curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir
se analizan las partes para llegar a un todo, el de deducción que inicia en el todo
hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como
cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de
conocimientos o método científico tiene los siguientes pasos:
 Observación del fenómeno
 Formulación de una hipótesis
 Verificación de la hipótesis
1.8.1 Etapas del método estadístico
De acuerdo con el orden de aplicaciones de la estadística a un problema
determinado, los métodos estadísticos se dividen en 4 etapas:
1. Planificación del estudio
Tiene por finalidad estudiar los detalles concernientes a la recolección,
clasificación y análisis de la información, en base a la cual se describen las
características de una determinada población o se confirmará o negará
determinada hipótesis de trabajo.
Se esquematiza la planificación en los siguientes pasos:
Primer Paso: Planteamiento del problema
El planteamiento del problema responde a la delimitación y jerarquización
del tema, lo que justifica el porqué se lo está investigando. Además debe
ser delimitado en base al tiempo y el espacio, es decir en que lapso de
tiempo, y en que límites geográficos ha de ser observado. Asimismo debe
ser jerarquizado en base a tres criterios de magnitud, trascendencia y
vulnerabilidad, es decir:
Definir la naturaleza e importancia del problema que se estudia.-
Naturaleza explicar ¿qué vamos a estudiar?
Importancia cuantificar su extensión ¿por qué se va estudiar?
Segundo Paso: Elaboración del Marco Teórico
14
El marco teórico proporciona los conocimientos del tema que se está
investigando, en este acápite se detallan las definiciones y explicaciones
pre-existentes, asimismo anteriores investigaciones y sobre todo las
aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo.
Proporciona información a través de una adecuada bibliografía, posibilita
familiarizarse con el tema, preparando el terreno de conocimientos para
acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se
plantearan, el análisis de los datos, de las técnicas de investigación que se
utilizarán y el resultado obtenido a partir del cual se emitirán las
conclusiones y recomendaciones respectivas.
Tercer Paso: Determinación de objetivos
a) Objetivo general explicar para que se realiza la investigación
b) Objetivos específicos explicar cómo se realizará la investigación
Cuarto Paso: Formulación y Verificación de hipótesis
Hipótesis es una afirmación que está sujeta a verificación.
 Se trata de probar una hipótesis de trabajo.
 Su formulación debe hacerse claramente, ya que el diseño, planificación
y desarrollo de la investigación dependerán de la hipótesis que se trata
de probar.
La verificación de la hipótesis constituye la investigación propiamente dicha,
en la cual se consideran 2 aspectos:
a) Diseños de la Investigación
 Estudiar por adelantado cada una se sus diferentes etapas,
recolección, organización, y análisis de los datos.
 Determinar de antemano todo lo concerniente a las observaciones
que se harán
 El número de individuos que se estudiará
 El procedimiento a utilizar en su selección
 Investigar cuidadosamente si existen factores éticos
 Época en que hará el estudio
 Tiempo que durará
 Gastos que determinará
 Seleccionar y entrenar el personal que va colaborar
15
 Definir la unidad que se observa, con el fin de incluir la totalidad de
los individuos que presentan las características que se estudia y
excluir aquellos que no las presentan
 Definir lo que se va observar, para que todos los individuos sean
estudiados uniformemente.
 Hacer un balance de los recursos que se dispone y los que se
necesitarán para ejecutar la investigación conforme lo planeado.
b) Ejecución de la Investigación
Es la recolección, clasificación y análisis de la información recogida,
etapas que debe realizar de acuerdo a lo planificado.
2. Recolección de la información
Está en función a las características del problema abordado y dependiendo
de la determinación de la población a ser estudiada, se tienen dos maneras
de realizar un estudio de la población:
 En forma exhaustiva, global, total, completa, que significa estudiar todos
y cada uno de los integrantes de la población, siendo el resultado un
reflejo real y exacto de ella.
 Mediante una muestra representativa de la población, que tiene las
mismas características cuantitativas y cualitativas de la población total o
universo, proporcionando los mismos datos que se obtiene al estudiar al
total de la población.
Por otra parte se debe considerar, la información que se va a recoger y la
precisión con la que debe ser obtenida, ello dependiendo del propósito de la
investigación y del material estudiado, siendo conveniente limitarse a
recoger tan sólo aquella información que va a utilizarse.
Los principales puntos que deben considerarse al recoger de la información
son:
a) Los errores que pueden cometerse en la recolección de los datos y la
manera de controlarse
b) Las ventajas y limitaciones de los diversos métodos empleados en la
recolección de la información
16
c) Las condiciones que deben reunir los individuos que se estudian y los
procedimientos más convenientes para su elección.
d) El diseño de los formularios que servirán para registrar la información
que se recoja.
3. Tabulación, análisis e interpretación de los resultados
Tabular es contar y ordenar la información recabada, ello a partir de la
confección de cuadros, gráficos, y toda ayuda posible para poder luego
analizar la información disponible.
En el Análisis mediante formulas estadísticas y el uso de tablas
específicamente diseñadas, se efectúa la comparación de las medidas de
resumen previamente calculadas; por ejemplo, si antes se han calculado los
promedios de peso de dos grupos de personas sometidas a diferentes
dietas, el análisis estadístico de los datos consiste en la comparación de
ambos promedios con el propósito de decidir si parece haber diferencias
significativas entre tales promedio.
En Interpretación se explica el sentido de todos los datos obtenidos.
4. Conclusiones y recomendaciones
Ejecutado el estudio, se considera si fue realizado conforme se había
planificado y con los resultados a la vista se concluirá si la hipótesis a
sido verificada o no, emitiéndose las conclusiones y recomendaciones
pertinentes.
5. Presentación de resultados
Es la última actividad del proceso de investigación en la cual se dan a
conocer los resultados y con ello se estará contribuyendo a incrementar los
conocimientos existentes sobre el tema en estudio y se permitirá la
aplicación de las soluciones encontradas a los problemas que motivaron la
investigación.
1.9 Población y Muestra
Población o Universo
La totalidad de individuos o
elementos en los cuales puede
presentarse determinada
característica susceptible de ser
estudiada
17
Ejemplos:
a) Población de ventas anuales de los supermercados de La Paz.
b) Población de todos los posibles resultados cara y sello que se obtiene al
arrojar una moneda un número indefinido de veces.
c) Población de puntajes de rendimiento en la lectura de todos los alumnos del
nivel primario es un sistema escolar.
La población puede ser finita o infinita, dependiendo del número de elementos que
la conforman.
Población finita, es aquella que tiene un número determinado de elementos.
Población infinita, es aquella que tiene un número infinito de elementos.
Muestra
Al número de electos de la muestra se denomina “tamaño de la muestra”.
Se llama unidad estadística o individuo a
cada uno de los elementos que
componen la población estadística. El
individuo es un ente observable que no
tiene por qué ser una persona, puede
ser un objeto, un ser vivo, o incluso algo
abstracto.
La investigación a partir de una muestra
tiene muchas ventajas, entre las que se
destacan las siguientes:
 Permite que el estudio se realice en menos tiempo.
 Se incurre en menos gastos.
 Posibilita profundizar en las variables.
 Permite tener mayor control de las variables a estudiar.
Parte o subconjunto de la población al cual se
tiene acceso y sobre el que se realizan las
observaciones (mediciones).
 Debe ser “representativa”
 Estar formada por miembros
“seleccionados” de la población (individuos,
unidades experimentales).
18
Dato estadístico
Son números o medidas que han sido recopiladas como resultado de
observaciones, que pueden ser comparadas, analizados e interpretados. Un
número aislado que no puede compararse o que no muestre relación significativa
con otros números no es un dato estadístico.
Tipos de Muestreo
Son técnicas o procedimientos que aseguran la representatividad muestral para
que las unidades sean seleccionadas al azar; según la ley de probabilidades, al
escoger la muestra al azar se puede tener casi la certeza de que esa muestra
será representativa.
Según Pardinas, el muestreo consiste en:
Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una
población podamos tener un grado de probabilidad de que ese pequeño grupo
efectivamente posee las características del universo y de la población que
estamos estudiando.
TIPOS DE
MUESTREO
No ProbabilísticoProbabilístico
Aleatorio
simple
Estratificado
Sistemático
Conglomerado
Por conveniencia
Por cuotas
Accidental
19
Muestreo probabilístico
Aleatorio simple.-
Para que un muestreo sea aleatorio es requisito
que todos y cada uno de los elementos de la
población tengan la misma probabilidad de ser
seleccionados. Existen varias modalidades, una de
ellas es el procedimiento de tipo “sorteo” o “rifa”
(por Ejemplo, colocando en un recipiente fichas o
papeles que contengan nombre o números que
correspondan a cada unidad del universo).
Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este
método es más rápido y práctico
Estratificado.-
Este término proviene de la
palabra “estrato” se caracteriza
por la subdivisión de la
población en subgrupos o
estratos, debido a que las
variables principales que deben
someterse a estudio presentan
cierta variabilidad o distribución
conocida que puede afectar los
resultados.
El número de elementos que deberá tomarse de cada estrato se determina
proporcionalmente, según la cantidad de unidades que integra cada estrato
y en base a la totalidad de la población muestral.
Sistemático.-
Es similar al aleatorio simple, en donde cada unidad del universo tiene igual
probabilidad de ser seleccionada, variando en el proceso de selección de la
muestra. Las etapas que deben seguirse son las siguientes:
o Determine el número de unidades que conformará su muestra (n).
o Asegúrese de la cantidad que integra su población y que todas las
unidades estén enumeradas.
o Calcule el ”número de selección sistemática”.
20
𝑁
𝑛
=
500
100
= 5 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
o Determine la unidad muestral por la que se iniciará la selección de la
muestra; se puede hacer al azar o por sorteo, definiendo de esas 5
primeras unidades la cifra por la cual se iniciará la selección.
o Proceda a conformar la muestra; si al realizar el sorteo le resulta el
número 4 y dado que el “número de selección sistemática” es 5, la
primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente
hasta completar los 100 elementos.
Conglomerado.-
Se utiliza cuando no se dispone de una lista detallada y enumerada de cada
una de las unidades que conforman el universo y resulta muy compleja
elaborarla.
Se le denomina así debido a que en la selección de la muestra en lugar de
escogerse cada unidad se procede a tomar los subgrupos o conjuntos de
unidades, a los que se llama “conglomerados”.
21
Se tiende a creer que es lo mismo que el estratificado, ambos se
diferencian en que en el primero los subconjuntos se dan en la vida real o
ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de
industrias, bloques de casas y otros. En el de estratos el investigador
decide las agrupaciones que utilizará según la posible variabilidad de los
fenómenos a estudiar. Otra diferencia es que en el de estratos el
investigador conoce la distribución de la variable, no así en el de
conglomerado.
El proceso se inicia definiendo los conglomerados, después se seleccionan
los subconjuntos a estudiar (o sea que se realiza un muestreo de
conglomerado); de estos seleccionados se procede a hacer el listado de las
unidades que componen cada conglomerado, continuando posteriormente
22
con la selección de las unidades que integrarán la muestra, siguiendo
alguno de los métodos aleatorios indicados.
Muestreo no probabilístico
Se caracteriza porque el investigador selecciona su muestra siguiendo algunos
criterios identificados para los fines del estudio que le interesa realizar.
Por conveniencia o intencional.-
En el que el investigador decide, según sus
objetivos, los elementos que integrarán la
muestra, considerando aquellas unidades
supuestamente “típicas” de la población que
desea conocer.
Por cuotas.-
Consiste en que el investigador selecciona la muestra considerando
algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El
paso inicial consiste en determinar la cantidad o “cuota” de sujetos de
estudio a incluirse y que poseen las características indicadas; un Ejemplo
de esto son las encuestas de opinión pública, en las que los encuestadores
proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin
preocuparse por áreas geográficas, zonas u otro criterio.
Accidental.-
Consiste en aprovechar o utilizar para el estudio las personas disponibles
en un momento dado según lo que interese estudiar. Éste es el menos
eficiente.
23
2.1 Tabulación
La palabra tabular significa expresar u ordenar unos datos en forma de tablas.
El proceso de tabulación consiste en el recuento de los datos que están
contenidos en los cuestionarios. En este proceso incluimos todas aquellas
operaciones encaminadas a la obtención de resultados numéricos relativos a los
temas de estudio que se tratan en los cuestionarios. Se requiere una previa
codificación de las respuestas obtenidas en los cuestionarios. Realizamos
tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o
de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que
expliquen las relaciones existentes entre las diversas variables analizadas. Esta
presentación se adecuará a la petición de nuestros clientes mediante análisis
estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes,
análisis multivariantes, tests de contraste de hipótesis
2.2 ¿Qué es una distribución de frecuencia?
Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus
respectivas categorías.
24
2.3 El elemento clase de la distribución de frecuencia.
2.3.1 Frecuencia de clase
Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos
distribuidos en clases o categorías, determinando el número de individuos que
pertenecen a cada categoría.
Estatura
(pulg)
Número de
estudiantes
60 - 62
63 - 65
66 - 68
69 - 71
72 - 74
5
18
42
27
8
Total 100
2.3.2 Distribución de frecuencia o tabla de frecuencia
Se conoce como distribución de frecuencias o tablas de frecuencias a una
disposición tabular de los datos por clases con su correspondiente frecuencias de
clase.
2.3.3 Datos agrupados
A los datos así organizados y reunidos, como en la anterior distribución de
frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara,
además de que se obtienen relacionados evidentes.
2.3.4 Intervalos de clase y límites de clase
Intervalo de clase Símbolo que define una clase
Ejemplo:
60 - 62 , 72 - 74
25
límite inferior límite superior
Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase
inferior o superior se le llama intervalos abierto.
Ejemplo:
65 años o más
2.3.5 Fronteras de clase
En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5
pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites
verdaderos de clase.
De aquí:
59.5 es la frontera inferior de clase
62.5 es la frontera superior de clase
2.3.6 Tamaño o amplitud de un intervalo
Es la diferencia entre las fronteras de clase inferior y superior. Si todos los
intervalos de una distribución de frecuencias son de las misma amplitud, a esta
amplitud común se la denota por c.
Ejemplo:
62.5 - 59.5 = 3
65.5 – 62.5 = 3
2.3.7 Marca de clase
La marca de clase, que es el punto medio del intervalo de clase, se obtiene
promediando los límites inferior y superior de la clase. De este modo:
Del ejemplo anterior tenemos el intervalo 60 - 62
Marca de la clase: (60 + 62)/2 = 61
La marca de clase es, en definitiva, el valor que representa a la información
contenida en el intervalo.
2.3.8 Rango
Es la diferencia entre el número mayor y el número menor de os datos sueltos.
26
Ejemplo:
Supongamos que las alturas de plantas, en una clase de botánica son las
siguientes:
64 73 68 68 76 70 62 67 71 69
68 60 65 68 66 68 67 71 66 72
Luego el rango de estos datos es:
R = 76 – 60 = 16
2.4 Reglas generales para construir distribución de frecuencias
1. Determinación del Rango.- Es conveniente primero determinar el rango de
los datos obtenidos.
2. Determinación del número de clase.- Cosiste en dividir el rango en un
número conveniente de intervalos de clase, generalmente del mismo tamaño.
Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se
tengan, más intervalos de clase deben considerarse. No hay fórmula exacta
para calcular el número de intervalos de clase. Este número es determinado
por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en
cuenta lo siguiente:
a) Número de clases = K = 5, si n = tamaño de la muestra <= 5
y K = √n , si n > 20
b) Fórmula de Sturges:
K = 1 + 3.22 log(n)
Cuando los resultados para obtener K en a) y b) son números reales
con decimales, entonces se redondearán al entero inmediato mayor.
3. Determinación del tamaño de los intervalos.- Como regla general para
encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango
de las observaciones entre el número de intervalos de clase, esto es, Amplitud
de clase = C = R/K.
4. Determinación de los límites de la clase.- Se debe tomar el resultado
numérico más bajo de los datos originales como el límite inferior del primer
intervalo de clase. Agregar C para obtener el límite superior de dicha clase.
5. Determinación de la frecuencia de clase.- Consiste en determinar el
número de observaciones que caen en cada intervalo de clase.
27
Técnicas de recuento
El proceso manual de recuento se puede hacer por:
2.5 Frecuencia absoluta simple
Frecuencia absoluta de un dato (fi)
Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al
número de veces que aparece repetido dicho valor en el conjunto de las
observaciones realizadas.
Ejemplo
Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para
este propósito, se elige una muestra representativa de 50 matrimonios de ella se
obtienen los siguientes datos:
2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3
, 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1
x i f i
0 4
1 9
2 12
3 10
4 8
5 4
6 2
7 1
Frecuencia absoluta acumulada de un dato (Fi)
La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos
son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas
desde la primera fila hasta la fila elegida.
28
Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen
2 o más hijos.
x i f i F i
0 4 4
1 9 13
2 12 25
3 10 35
4 8 43
5 4 47
6 2 49
7 1 50
2.6 Frecuencia relativa
Frecuencia relativa de un dato ( hi )
La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número
total de datos ( n ).
hi = fi /n
En nuestro ejemplo:
x i f i F i h i
0 4 4 0,08
1 9 13 0,18
2 12 25 0,24
3 10 35 0,20
4 8 43 0,16
5 4 47 0,08
6 2 49 0,04
7 1 50 0,02
Frecuencia relativa acumulada de un dato ( Hi )
La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta
acumulada ( F i ) y el número total de datos ( n ).
En nuestro ejemplo:
x i f i F i h i H i
0 4 4 0,08 0,08
1 9 13 0,18 0,26
2 12 25 0,24 0,50
29
3 10 35 0,20 0,70
4 8 43 0,16 0,86
5 4 47 0,08 0,94
6 2 49 0,04 0,98
7 1 50 0,02 1,00
2.7 Representación grafica de variables cuantitativas
Las más usadas son:
1. Diagrama de barras.
Esta forma de representación gráfica es propia de las distribuciones que
tienen muchas observaciones pero pocos valores distintos de la variables.
Dicho diagrama se elabora colocando en el eje de las abscisas los distintos
valores de la variable y sobre cada una de ellas se levanta una línea
perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho
valor.
30
2. Histogramas.
Es una representación gráfica de una distribución de frecuencia
agrupaciones en intervalos de clase, mediante una serie de rectángulos
contiguos que tienen:
a) Sus bases sobre un eje horizontal (eje de las X) con centros en las
marcas de clase y longitud igual al tamaño de los intervalos de clase.
b) Las alturas proporcionales a la frecuencia (absoluta o relativa)
tomados sobre el eje de las Y.
A veces conviene más graficar en el histograma las frecuencias relativas en
lugar de las frecuencias absolutas. En este caso, la altura correspondiente
a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el
cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El
único cuidado que debe tenerse es que el área total del histograma sea
igual a 1, correspondiente a la suma total de áreas de cada rectángulo.
Se utiliza cuando se estudia una variable continua, como franjas de edades
o altura de la muestra, y, por comodidad, sus valores se agrupan en clases,
es decir, valores continuos. En los casos en los que los datos son
cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de
estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y
económicas que en ciencias naturales y exactas. Y permite la comparación
de los resultados de un proceso.
Puntajes
X
frecuencia absoluta Marca de Clase
11 – 17 6 14
17 – 23 4 20
23 – 29 15 26
29 – 35 13 32
35 – 41 1 38
41 – 47 1 44
Total 40
31
3. Polígono de frecuencia
a) Si la variable es discreta, el polígono de frecuencia se obtienen
uniendo los extremos superiores de las barra en el diagrama de
barras
32
b) Si la variable está agrupada en intervalos de clase, el polígono de
frecuencia se obtiene uniendo los puntos medios de las bases
superiores de cada rectángulo en el histograma.
4. Polígono de frecuencia acumuladas u ojiva
Esta representación es válida para variables estadísticas agrupadas en
intervalo clase.
En el eje de las abscisas representamos los distintos intervalos de clase que
han de estar naturalmente traslapados. En el extremo superior de cada
33
intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y
relativa) acumulada, luego se unen los extremos superiores de las verticales
con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia
acumuladas absolutas alcanzará su máxima altura en el último intervalo.
2.8 Representación de variables cualitativas
a) Diagrama de rectángulos o de Barras
Se representa en el eje de las abscisas los distintos caracteres cualitativos
y se levantan sobre ellos rectángulos de bases iguales que no tiene porque
estar traslapados y cuya altura será igual a la frecuencia absoluta
correspondiente.
Ejemplo:
FACULTAD NUMERO DE ALUMNOS
Ingeniería Metalúrgica 200
Economía 1500
Ingeniería Industrial 3000
Contabilidad 800
Derecho 700
Ciencias de la Comunicación 900
Ingeniería de Sistemas 400
Ciencias Administrativas 600
34
Ejemplo:
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
35
b) Diagramas de sectores o Gráfico Sectorial
Es una representación de un conjunto de datos estadísticos, en un círculo,
por medio de sectores circulares. Es utilizado principalmente cuando se
pretende comparar cada valor de la variable con el total.
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
36
c) Pictogramas
Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a la frecuencia que representan; dicha frecuencia
se suele indicar.
¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más
plantaciones?
37
Una variable estadística es una característica de la población que interesa al
investigador y que puede tomar diferentes valores.
La variables estadísticas generalmente se denotan con las letras x, y, z, etc.
Ejemplo
Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores
cuando se observan diferentes individuos.
Importante: Si los valores numéricos que toma una variable, provienen de
factores fortuitos (accidental) y si un determinado valor no se puede
predecir exactamente con anticipación, esa variable se denomina “variable
aleatoria”.
3.1 Concepto de Variable Cualitativa
Sus valores consisten en categorías de clasificación, o sea se refiere a las
cualidades que presenta la población, no lleva clasificación numérica.
Se refieren a propiedades de los objetos en estudio, sean éstos animados o
inanimados. Lo que determina que una variable sea cualitativa es el hecho de que
no puede ser medida en términos de la cantidad de la propiedad presente, sino
que sólo se determina la presencia o ausencia de ella.
Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se
consideran cualitativas en vista de que no se les puede asignar mayor o menor
peso a las diferentes categorías; lo único que se puede hacer es clasificarlas.
38
A su vez estas variables puede clasificarse en:
 Variable Cualitativa Nominal.- Surge cuando se definen categorías y se
cuenta el número de observaciones pertinentes a cada categoría y no lleva
ninguna ordenación en las posibles modalidades.
Ejemplo:
 Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus
casos en términos del grado que poseen una determinada característica. Es
decir se clasifican los objetos, hechos o fenómenos en forma jerárquica
según el grado que posea una característica determinada, sin proporcionar
información sobre la magnitud de las diferencias entre los casos así
clasificados.
Ejemplo
Variable Categorías
Estado marital Soltero
Casado
Divorciado
Viudo
Unión libre
Orientación en el tiempo Presente
Pasado
Futuro
Color de ojos Castaños
Azules
Negros, etc.
Partidos políticos UN
MAS
MSM, etc.
Variable Categorías
Clase social Alta, media, baja.
Nota de un examen Excelente, bueno, malo, pésimo
Puesto en una prueba deportiva 1o, 2o, 3º,...
Medallas en una prueba deportiva Oro, Plata, Bronce
39
3.2 Razón
La Razón es el cociente de dos cantidades entre sí, que representan dos variables
sujetas a comparación de unidad vs. Unidad.
Ejemplo:
Se debe determinar que variable será la unidad, es decir el denominador.
a) En el caso de que la unidad corresponda a Mujeres, el denominador de las
dos variables será el número de las 15 Mujeres, realizándose las
operaciones de la siguiente manera:
15/15 = 1 10/15 = 0,67 1 : 0,67
Mujeres : Hombres
La interpretación de estas cifras no refiere que por cada mujer atendida se
atendió un poco más de la mitad de un hombre, sino que hay menos
hombres en la consulta que mujeres.
b) Si se decide que la unidad serán los hombres, el planteamiento es:
10/10 = 1 15/10 = 1,5 1 : 1,5
Hombres : Mujeres
Se aprecia que hay más mujeres atendidas que hombres.
Los resultados nos pueden dar las siguientes variaciones:
1 : 0,67 0,67 : 1
Mujeres : Hombres Hombres : Mujeres
1 : 1,5 1,5 : 1
Hombres : Mujeres Mujeres : Hombres
En todos los casos podemos inferir que hay más mujeres, aunque no
sabremos cuántas mujeres u hombres hay en el universo estudiado. La
razón es aplicada para valorar el crecimiento o la disminución de la
población.
Atención hospitalaria
Mujeres Hombres
15 10 25
40
Ejemplo:
En el año 2002, según el Centro Nacional de Epidemiología se declararon los
siguientes casos de legionelosis (enfermedad bacteriana ambiental):
Comunitario
(adquirida en la comunidad)
Nosocomial
(adquirida en centros de salud)
Total
Casos Defunciones Casos Defunciones Casos Defunciones
372 9 29 5 401 14
Casos de Legionelosis adquirida en la comunidad / casos de legionelosis
nosocomiales
372 / 29 = 12,8
Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios
Defunciones por legionelosis comunitario / defunciones por legionelosis
nosocomiales
9 / 5 = 1,8
Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por
legionelosis comunitario.
3.3 Proporción
Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos
cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede
explicar mejor, si tomamos las cifras del primer ejemplo
Total = 25 pacientes
Parte = 15 mujeres
Parte = 10 hombres
La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de
los pacientes atendidos.
Proporción de mujeres: 15/25 = 0,6
Para el caso de los varones tendremos:
Proporción de hombres: 10/25 = 0,4
41
Si observamos en la siguiente tabla las proporciones serán:
Mediante estas medidas tenemos idea de la proporción, pero al igual que en las
razones, ignoramos cuantas mujeres o varones existen en éste universo. En las
proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto
una proporción no excede la unidad.
Con el segundo ejemplo tendríamos:
3.4 Porcentajes
El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con
el primer Ejemplo si tenemos las proporciones para mujeres y hombres.
Mujeres 0,6 le corresponde 60%
Hombres 0,4 le corresponde 40%
Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas
existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los
porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por
qué se puede apreciar mejor un 40% que un 0,4%.
Atención
hospitalaria
Sexo
Proporción
Mujeres 0,6
Hombres 0,4
Total 1,0
Legionelosis Casos Proporción Defunciones Proporción
Comunitario 372 0,93 9 0,64
Nosocomial 29 0,07 5 0,36
Total 401 1,00 14 1,00
Atención
hospitalaria
Sexo
Proporción Porcentaje
Mujeres 0,6 60%
Hombres 0,4 40%
Total 1,0 100%
42
3.5 Tasas
Esta medida, indicador o número índice es una proporción en la que se relaciona
como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos,
muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la
población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de
acuerdo a la magnitud de denominador para hacer comprables las tasas.
Las tasas tienen dos características importantes: Tiempo y lugar.
 Tiempo.-
Es el hecho vital que se estudia durante un año determinado, un mes,
semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de
Febrero.
 Lugar.-
Puede ser un país, una provincia, un Departamento, una ciudad o un barrio.
Los dos componentes permiten que las tasas puedan ser utilizadas para comparar
los hechos vitales entre dos zonas geográficas distintas o similares, así como
también entre dos épocas distintas.
El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el
numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a
comparar eventos, casuística, comportamiento entre distintas poblaciones sin
importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro
de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo
abstracción de la cantidad de habitantes, podemos concluir de que en ambos
países, el comportamiento de los nacimientos es similar.
Ejemplo:
Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada
en España una población de 41.837.894 personas.
a) Tasa de legionelosis en el año 2002 en España
𝐶𝑎𝑠𝑜𝑠 𝑑𝑒 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
401
41.837.894
𝑥 100.000
= 0,96
43
Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por
cada 100.000 habitantes.
b) Tasa de mortalidad por legionelosis en España en 2002
𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
14
41.837.894
𝑥 100.000
= 0,033
Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por
cada 100.000 habitantes.
44
4.1 Concepto de Variables Cuantitativas
Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es,
que los valores de los fenómenos se encuentran distribuidos a lo largo de una
escala.
Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido
a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por
ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa
en doble en edad de una que tiene 25 años.
Las variables cuantitativas se clasifican en:
 Variables Continuas.- Son aquellas cuya unidad de medición utilizada en
la escala puede ser subdividida en forma infinita.
Ejemplo:
- Estatura de los estudiantes de la U.S.B.
Si la unidad de medición es el metro éste puede ser subdividido en
centímetros y milímetros.
- Nivel de colesterol de ciertos pacientes del hospital Obrero
45
 Variables Discontinuas o Discretas.- Son aquellas que pueden tomar
solamente un número finito de valores, debido a que la unidad de medición
no puede ser fraccionada.
Ejemplo:
- Número de hijos (los hijos no pueden fraccionarse).
- Número de monedas que una persona lleva en su bolsillo.
- Número de admisiones en un hospital durante un día determinado.
- Número de accidentes automovilísticos que se producen en una
ciudad.
Sumatorias
La suma de los valores de la variable x: nxxx ,...,, 21 , se define mediante la notación
 e indica que han de sumarse los elementos de la sucesión desde el subíndice
i = 1 hasta el subíndice n, esto es:


n
i
ni xxxx
1
21 ...
Ejemplo:
         

4
1
6141312111
i
i
¡Hazlo tú!


5
1
6
i
i
Nótese que el elemento típico de la sumatoria es una función únicamente
del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del
elemento típico, debe considerarse constante.
46
Suponga que se seleccionan n = 5 compañías cerveceras del total en el país.
Sus tasas de ganancia, como porcentaje de precio de venta, son
respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas
cantidades como
2.121 x 8.102 x 4.103 x 1.124 x 3.115 x
a) Hallar 
5
1i
ix
b) Hallar
5
5
1
i
ix
c) Hallar 
5
1
2
i
ix
Propiedades de la Sumatoria
1. 

n
i
nCCCCCC
1
... , donde C es una constante
2.   

n
i
n
i
ii xCCx
1 1
3.
 
  
 

 


n
i
i
n
i
i
n
i
iiii
n
i
i
n
i
n
i
iii
zyxzyxb
yxyxa
111
11 1
)
)
4.      

n
i
n
i
iii
n
i
i
n
i
ii yCyxCxCyx
1 1
22
1
2
1
2
4.2 Medidas de tendencia central
 Clasificados los datos originales se debe
 Calcular un conjunto de indicadores
Caracterizan en forma algo mas precisa la distribución que se estudia.
 Para esto se dispone de estadígrafos
- Representan valores centrales en torno de los cuales se agrupen las
observaciones, llamadas usualmente promedios.
- Utilidad: análisis y comparación de una distribución.
47
Medida de tendencia central
Es un índice de localización central empleado en la descripción de
las distribuciones de frecuencias.
…también sirve como una base para medir y evaluar valores anormalmente altos
o anormalmente bajos (o valores extremos),
Características del valor central
1. Debe estar definido en forma objetiva.
2. debe depender de toda la información obtenida en lo posible.
3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de
interpretar.
4. Debe ser fácil de calcular.
5. Debe ser estable (no debe se sensible a fluctuaciones).
6. Debe ser adecuado a cálculos algebraicos posteriores.
4.2.1 Tipos de Promedio
Los promedios más usuales son:
a) La media aritmética o media
b) La mediana
c) La moda
d) La media geométrica
e) La media cuadrática
f) La media armónica
4.2.2 Media Aritmética – Datos no agrupados
Sea nxxx ,...,, 21 , valores de la variable X. La media aritmética simple de X
representada por X es dada por:
donde n es el tamaño de la muestra o número de elementos del conjunto de
observaciones.
Ejemplo:
n
x
X
n
i
i
 1
48
Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80.
La media de edad de estos sujetos será de:
Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2
4.2.3 Media Aritmética – Datos agrupados
Sean kxxx ,...,, 21 valores de la variable X ponderados por sus respectivas
frecuencias absolutas: kfff ,...,, 21 . La media de la variable X es dado por:
n
xf
X
k
i
ii
 1
o
n
xh
X
k
i
ii
 1
donde 

k
i
ifn
1
y khhh ,...,, 21 son las frecuencias relativas respectivas.
Ejemplo
Si tenemos la siguiente distribución, se pide hallar la media aritmética, de
los siguientes datos expresados en kg.
xi fi xi fi
54
59
63
64
2
3
4
1
108
177
252
64
Total 10 601
49
kg
n
xf
X
k
i
ii
1.60
10
6011


Ejemplo
Clases fi Marca de
clase
Xi
fixi
[30,40] 3 35 105
(40,50] 2 45 90
(50,60] 5 55 275
Total 10 470
47
10
4701


n
xf
X
k
i
ii
4.2.4 Propiedades de la media Aritmética
1. La suma de las desviaciones (diferencias) entre los valores de la variable X
y su media aritmética X es ceros, esto es:
   0xxf ii
2. Para un conjunto dado de observaciones, la media es única.
3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un
valore se modifica, la media aritmética X también se modifica.
4. La suma de los cuadrados de las desviaciones entre los valores de la
variable X y de su mediad aritmética X es mínima, esto es:
    

2
1
2
Bxfxxf ii
k
i
ii , para cualquier constante B
5. Si a los valores de una valores de una variable X se resuma o se le resta
una constante C, entonces la media aritmética X quedará aumentada o
disminuida en la constante C, esto es:
50
CXYCXY 
6. Si fueran multiplicados o divididos los valores de una variable X por una
constante C, entonces la media de X, X , quedará multiplicada o dividida
por esta constante, esto es:
XCYCXY 
7. En general, si CXbYCbXY 
Ventajas e inconvenientes:
- La media aritmética viene expresada en las mismas unidades que la
variable.
- En su cálculo intervienen todos los valores de la distribución.
- Es el centro de gravedad de toda la distribución, representando a
todos los valores observados.
- Es única.
- Su principal inconveniente es que se ve afectada por los valores
extremadamente grandes o pequeños de la distribución.
Ejemplo
En una empresa donde los salarios tienen una media de 100000 el
sindicato solicita que cada salario X, se transforma en Y, mediante la
siguiente.
1005.2  XY
El directorio acoge parcialmente la petición rebajando los salarios
propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular
la media aritmética de la nueva distribución de salarios.
Solución
Tenemos: 100000X
Si   2501001001000005.21005.21005.2  XYXY
El salario propuesto por el directorio es:
   2250902501009.09.09.0%10  YZYYYZ
Luego, la media de la nueva distribución de salarios es: 225090
51
A) Primer proceso abreviado para el calculo de la media
Sea tO (el origen de trabajo) el valore más frecuente de la variable de X o que
está hacia el centro de la distribución de frecuencias, y sea tii Oxd 
 ki ,...,2,1 las desviaciones de ix respecto a tO entonces
tii Odx 
Luego
   

 
itiiiii
k
i
ii
fOdf
n
Odf
nn
xf
X
111
B) Segundo proceso abreviado para el de la media
Este procedimiento es particularmente útil para ser aplicado cuando los valores de
X son grandes y la amplitud de clase constante. Como veremos, el uso de éste
proceso nos ofrece rapidez y facilidad en los cálculos.
Primer Paso: Se efectúa el cambio de variable de X a  , utilizando la siguiente
fórmula:
C
Ox ti 
 1)
donde: ix =valores de la variable tO = origen de trabajo
i =Valores transformados C = amplitud del intervalo de clase
Segundo Paso: Cálculo de la mediana X
Tenemos: de 1): iti COx 
n
df
OX
k
i
ii
t

 |
52
Entonces       iitiitiii fCOf
n
COf
n
xf
n
X 
111
Por tanto:
4.2.5 Medida Ponderada
Hay ocasiones en que se requiere expresar en una sola cifra los resultados de
varios grupos de datos, cada uno de los cuales ha sido resumido previamente
mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales
se calcula un promedio para cada estrato. En dichas ocasiones, el promedio
general para los diferentes grupos no se obtiene promediando los promedios
parciales, sino que es necesario tener en cuenta el numero de observaciones en
que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada
y es definida como sigue:
Sean rXXX ,...,, 21 , las medias aritméticas de r subconjuntos menores, cada uno
con rnnn ,...,, 21 observaciones respectivamente. La media aritmética del conjunto
formado por los términos de los r subconjuntos es dado por la fórmula:
n
Xn
nnn
XnXnXn
X
r
j
jj
rr
p





1
321
2211
...
...
donde: 

r
i
jnn
1
En general, si rppp ,...,, 21 son los pesos asociados a los valores de la variable
rxxxX ,...,,: 21 respectivamente, entonces la media ponderada será:










n
f
COX
ii
t
 









n
f
COX
ii
t





 r
i
i
r
i
ii
p
p
xp
X
1
1
53
Ejemplo:
Supongamos que en una ciudad en particular hay dos precios de pan, 0.80
centavos en los supermercados que vende 10000 unidades, y un centavo
en las panaderías que venden 1000 unidades. Hallar el promedio
ponderado del precio del pan:
Solución
Tenemos:
      8182.0
11000
9000
100010000
100000.11000080.0



pX
Por tanto, el precio promedio del pan es de 0.8182.
4.2.6 Mediana
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual número de
observaciones. La notación que vamos a emplear será:
En el cálculo de la mediana, podemos considerar los 3 casos siguientes:
La variable en estudio es discreta y n (numero de observaciones)
es impar.
2
1

n
Me
Ejemplo:
En un estudio que se realizó en un asilo de ancianos, se tomó las edades
de los envejecí entes que pueden caminar sin dificultades. Buscar la
mediana de las siguientes edades.
69 73 65 70 71 74 60 62 78
Solución
Ordenando estos valores de acuerdo a la magnitud que tenemos:
60 62 65 69 70 71 73 74 78
Unidad
seleccio
nada
54
donde n = 9
entonces 5
2
19
2
1





n
Me to,  Me = 70
La edad de 70, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable en estudio es discreta y n (numero de observaciones)
es par.
En este caso no, no existe e la ordenación un valor de la variable que ocupe la
posición central, esto es, la mediana es indeterminada, pues cualquier valor
comprendido entre los valores que ocupan la posición 1
22

n
y
n
Por tanto por convención la mediana es:
2
1
22



nn xx
Me
Ejemplo
Buscar la mediana de los siguientes números:
25 15 28 29 25 26 21 26
Solución
Arreglando estos valores en orden creciente tenemos:
15 21 25 25 26 26 28 29
Calculamos los valores que ocupan las posiciones: 1
22

n
y
n
, esto es:
to
n
to
n
51
2
8
1
2
4
2
8
2


Luego:
5.25
2
2625
2
1
22






nn xx
Me
55
E valor 25.5, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable es continua.
En este caso el problema consiste en determinar un punto dentro del intervalo en
que está comprendido la mediana.
Procedimiento
1er Paso. Calcular la posición de orden
2
n
. Como la variable es continua,
no se debe preocuparse si n es par o impar
2do paso. Por las frecuencias acumuladas se identifica la clase que
contiene a la mediana, esto es, la clase para el cual se cumple:
kk F
n
F 
2
1
Con lo cual la mediana estará en la clase que tiene como frecuencia
acumulada kF .
3er Paso. Utilizar la fórmula:
med
kk
k
med C
FF
F
n
lMe *2
1
1

















donde:
medl Límite inferior de la clase que contiene a la mediana.
n = Tamaño de la muestra.
meC Amplitud de la clase que contiene a la mediana.
kF Frecuencia acumulada de la clase que contiene la mediana.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene a la mediana
Ejemplo:
Clases  45,35  55,45  65,55  75,65  85,75  95,85
if 5 12 18 14 6 3
Ciuda
d
56
Hallar la mediana.
Solución
Clases if iF
 45,35 5 5
 55,45 12 17
 65,55 18 35
 75,65 14 49
 85,75 6 55
 95,85 3 58
Total 58
Paso 1: von
29
2
58
2
 posición
Paso 2: kk F
n
F 
2
1  352917 32  FF vo
Paso 3:
67.6110*
1735
1729
55*2
1
1


























med
kk
k
med C
FF
F
n
lMe
4.2.7 Cuartiles
Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en cuatro partes iguales.
Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75%
superiores a él.
Q2 = 2do cuartil, coincide con la mediana
Q3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de
éstas superiores a él.
Calle
57
Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase.
Determinación de Q1:
1er Paso: Se calcula
4
n
2do Paso: Se identifica la clase que contiene a Q1 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
n
F 
4
1
3er Paso: Se aplica la fórmula
11
*4
1
1
1 Q
kk
k
Q C
FF
F
n
lQ

















o
11
*4
1
1
1
1 Q
kk
k
Q C
HH
H
lQ

















(Cuando se usa frecuencias acumuladas relativas)
donde:
1Ql Límite inferior de la clase que contiene a Q1.
n = Tamaño de la muestra.
1QC Amplitud de la clase que contiene al primer cuartil.
kF Frecuencia acumulada de la clase que contiene al primer cuartil.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene al primer cuartil.
Determinación de Q3:
1er Paso: Se calcula
4
3n
2do Paso: Se identifica la clase que contiene a Q3 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
58
jj F
n
F 
4
3
1
3er Paso: Se aplica la fórmula
33
*4
3
1
1
3 Q
jj
j
Q C
FF
F
n
lQ

















o
33
*4
3
1
1
3 Q
jj
j
Q C
HH
H
lQ

















(Cuando se usa frecuencias acumuladas relativas)
donde:
3Ql Límite inferior de la clase que contiene a Q3.
n = Tamaño de la muestra.
3QC Amplitud de la clase que contiene a Q3.
jF Frecuencia acumulada de la clase que contiene a Q3.
1jF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Q3.
4.2.8 Deciles
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales.
D1 = 1er decil, deja 10% de las observaciones menores o iguales a él.
D2 = 2do decil, deja 20% de las observaciones menores o iguales a él .
.
.
.
D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él.
Edificio
Barrios
59
Para determinar los deciles seguimos los siguientes pasos:
1er Paso: Se calcula
4
*ni
, donde i = 1,2,…,9
2do Paso: Se identifica la clase que contiene los deciles por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
ni
F 
4
*
1
3er Paso: Se aplica la fórmula
ii D
kk
k
Di C
FF
F
ni
lD *10
*
1
1

















donde:
iDl Límite inferior de la clase que contiene a Di, i = 1,2,…,9
n = Tamaño de la muestra.
iDC Amplitud de la clase que contiene a Di.
kF Frecuencia acumulada de la clase que contiene a Di.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Di.
4.2.9 Percentiles
Son valores que dividen la muestra ordenada en forma ascendente o descendente
en 100 partes iguales.
P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él
y el 99% superiores a él
.
.
.
VARIABLE: CONDUCTOR REFERIDO
CATEGORÍAS CÓDIGOS FRECUENCIAS
AMT 1 50
LEM 2 88
FGI 3 12
MML 4 3
TOTAL 153
Total
60
P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a
él y el 1% superiores a él
Para calcular los percentiles se siguen los siguientes pasos:
1er Paso: Se calcula
100
*ni
, donde i = 1,2,…,98,99.
2do Paso: Se identifica la clase que contiene los Pi por la frecuencia
acumulada, esto es, por la desigualdad.
kk F
ni
F 
100
*
1
3er Paso: Se aplica la fórmula
ii P
kk
k
Pi C
FF
F
ni
lP *100
*
1
1

















donde:
iPl Límite inferior de la clase que contiene a Pi, i = 1,2,…,99
n = Tamaño de la muestra.
iPC Amplitud de la clase que contiene a Pi.
kF Frecuencia acumulada de la clase que contiene a Pi.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Pi.
4.2.10 La Moda
Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más
frecuente de la distribución.
Nota.- La moda no siempre existe y no siempre es única
Ejemplo
Considere los pesos (en kilos) de 9 adultos
82, 65, 59, 74, 60, 67, 71, 73 y 70
61
Estas nueve medidas no definen una moda.
Ejemplo
Considere la distribución de los pesos de 15 adultos
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83
El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego
la moda de estas observaciones es:
Mo = 63 Kilos y Mo = 71 Kilos
En este caso la distribución se llamará bimodal.
En general, se tiene lo siguiente:
i) La distribución que tiene una sola moda se llama unimodal
ii) La distribución que tiene dos modas se llama bimodal
iii) La distribución que tiene más de dos modas se llama multimodal
Propiedades del moda
1) El valor de la moda es totalmente independiente de los valores extremos.
2) La moda es una medida inestable porque varía si se cambia el intervalo de
clase.
3) Su significado es imitado cuando no se dispone de un gran número de
valores.
4) Es el valor típico y por ello el promedio más descriptivo.
5) La moda no se presta a manipulaciones algebraicas posteriores.
Cálculo de la Moda: caso de datos agrupados en intervalos de clase
Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el
cálculo de la moda. Aquí presentamos dos procesos:
1er Proceso: Fórmula Czuber
1er Paso: Se identifica la clase modal (la clase con mayor frecuencia)
2do Paso: se aplica la fórmula:
MoMo ClMo *
21
1









donde:
62
Mol = límite inferior de la clase modal
1 = 1ffMo  ( 1f = frecuencia de la clase inmediatamente anterior a
la clase
modal)
Mof = frecuencia de la clase modal
2 = 2ffMo  ( 2f = frecuencia de la clase inmediatamente posterior
a la clase
modal)
MoC = amplitud de la clase modal
Ejemplo
Intervalo de
clase
fi
 1,0 3
 2,1 10
 3,2 17
 4,3 8
 5,4 5
TOTAL 43
Solución
1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el
tercer  3,2
2do Paso.- Aplicando la fórmula:
MoMo ClMo *
21
1








 1 = 710171  ffMo
1*
97
7
2 






Mo 2 = 98172  ffMo
44.2Mo 1MoC
2do Proceso: Determinación gráfica de la moda. En este caso, es
necesario construir el histograma de la distribución, identificar la clase
modal (aquella clase con mayor altura) y hacer la construcción que a
continuación se indica.
63
4.2.11 Relación entre la Media, Mediana y Moda
1. Distribución Simétrica. Se dice que una distribución de frecuencias
es simétrica cuando valores de la variable equidistantes de una valor
central tienen las mismas frecuencias. Es importante destacar es
este caso que.
MoMeX 
2. Para un distribución sesgada hacia la derecha (si la cola mayor se
presenta a la derecha de la curva)
MoMeX 
Para una distribución sesgada hacia la izquierda tenemos:
MoMeX 
TareaTar
ea
64
4.2.12 Encogimiento entre la Media, Mediana y la Moda.
De las tres medidas de posición central, la media aritmética suele ser más
frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en
muchas ocasiones la mediana o la moda resultan de mayor interés.
a. La media aritmética como medida de resumen tiene la ventaja de tomar en
cuenta la totalidad de los valores de la serie, aumentando o disminuyendo
de acuerdo con ellos, pero a causa de esta propiedad, puede ser
desventajosamente afectado por la existencia de valores anormalmente
altos o anormalmente bajos. Por regla general, sin embargo, puede decirse
que cuando la serie es más o menos simétrica, el promedio debe ser
preferido a cualquier otra medida de resumen.
b. La mediana por su parte debe ser utilizada cuando entre los valores que se
estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo
de hospitalización, de 5 niños con gastroenteritis fuera respectivamente
2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de
la enfermedad, hace aparecer la permanencia en el hospital mucho más
larga de lo que generalmente es. El promedio:
9
5
45
5
306432


X días, es engañoso, pero en cambio la mediana, que
es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos,
dando una impresión más acorde con lo usual.
Hay además ocasiones en que debe usarse la mediana por no ser posible
el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales
la primera o la última clase no tienen limites precisos. Exceptuando estas
aplicaciones, la mediana no tiene ninguna ventaja sobre la media
aritmética, pues su valor depende solamente del número de términos sin
tomar en cuenta los valores numéricos de estos.
c. La moda no es una medida de tendencia central muy usual, pero se emplea
cuando el interés se centra en conocer el valor que se presenta más
frecuentemente. Por ejemplo en los negocios, sirve para determinar qué
tamaño del producto es el de mayor demanda. Similarmente para
programar la producción de un medicamento el fabricante estará interesado
en ¿cuál es la dosis más comúnmente recetada por los médicos?.
4.2.13 Media Geométrica
Se define como la raíz de índice de la frecuencia total cuyo radicando es el
producto de las potencias de cada valor de la variable elevado a sus respectivas
frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la
variable siguen una progresión geométrica. También para promediar porcentajes,
65
tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula
mediante la siguiente fórmula:
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El
logaritmo de la media geométrica es la media aritmética de los logaritmos de los
valores de la variable. El problema se presenta cuando algún valor es 0 ó
negativo y exponente de la raíz par ya que no exista raíz par de un número
negativo, entonces la fórmula anterior se presenta de la siguiente manera.
   
n
xf
n
xfxfxf
GX
k
n
ii
kk
G




10
1021021101
1010
log
log...loglog
loglog
Luego,














n
xf
AntiGX
k
n
ii
G
10log
.log
Ejemplo:
Calcule la media geométrica de las observaciones maestrales:
3, 6, 12, 24, 48
Solución
Propiedades de la media geométrica
 Si se define una variable
y
x
z
i
i
i
G
G
G
y
x
Z 
 Es única
 Utiliza todos los elementos
 Sólo se puede calcular con variables cuantitativas positivas
1224883248*24*12*6*3**** 55
21
21
 n f
k
ff
G
k
xxxX
n f
k
ff
G
k
xxxX **** 21
21
66
 Su logaritmo es la media aritmética de la variable log X
 Es el centro de gravedad de la distribución en términos
multiplicativos
 Es más robusta que la media a valores grandes pero no a los
pequeños y siempre toma valores mas pequeños que la media
aritmética
 No es invariante por cambios de origen y escala
 Es útil para promediar tasas, porcentajes, tipos de interés y, en
general, en todas aquellas situaciones en las que la variable
analizada presente variaciones acumulativas
En demografía, para estimar la población de una determinada localidad
en un año t, cuando se supone crecimiento geométrico entre dos
censos, se usa la fórmula:
Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es
la población en el segundo censo, realizado en la fecha t1 y Px es la
población que se quiere determinar en la fecha tx.
Si se quiere determinar la población en el centro de período  10 ,tt esto es,
para
222
01
0
01
0
01 tt
t
tt
tt
tt
t xx






Luego,
10
2/1
0
1
0
01
0
2
1
pp
p
p
pp
tt
tt
x
x









esto es, xp es la media geométrica de 0p y 1p
Ejemplo:
Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a
8 millones. ¿Cuál es la población media del período?
67
Solución:
Aplicando la última fórmula para Px tenemos
21.78*5.610  pppx
4.2.14 Media Armónica
Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas
f1,f2,…,fk respectivamente. La media armónica de X es dado por:



 k
i i
i
k
k
H
x
f
n
x
f
x
f
x
f
n
HX
12
2
1
1
...
Donde:
n = 
k
i
if
1
Esta media, como la media geométrica, solo es aplicable a ciertos tipos de
problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc.
(cuando influyen los valores pequeños). Su problema: cuando algún valor de la
variable es ó próximo a cero no se puede calcular
Ejemplo:
Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los
10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media
durante todo el trayecto.
Solución
A primera vista muchos pensarían que la velocidad media sería igual a
45
2
6030


X km/h .
Sin embargo, al recordar que la velocidad definida como la distancia total
recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir
que el resultado anterior incorrecto.
A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10
kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro
recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una
velocidad media de:
68
40
5.0
2
 km/h
Este resultado puede ser obtenido directamente calculando media armónica
entre las dos velocidades. Así tenemos:
hkmH /40
3
120
30
3
2
60
1
30
1
2



Propiedades de la media armónica
 La media armónica se basa en todas las observaciones por lo que
está afectada por todos los valores de la variable. Da a los valores
extremadamente grandes un peso menor que el que les da la media
geométrica, mientras que a los valores pequeños les da un peso
mayor que el que les da tanto la media aritmética como la media
geométrica.
 La media armónica esta indeterminada si alguno de los valores es
cero, pues hallar el recíproco de cero implica dividir entre cero, lo
cual no es válido. La media armónica está rígidamente definida y
siempre es definitiva, excepto cuando uno de los valores es cero.
 La media armónica es el promedio que se ha de usar, cuando lo que
se va a promediar son proporciones donde los numeradores de las
razones son los mismos para todas las proporciones.
 La media armónica se presta a manipulaciones algebraicas
posteriores
 XGH  , siempre que se trate de lamisca serie y cuando los
términos son iguales.
4.2.15 Media Cuadrática
Cuando se observa una distribución hay veces que no nos interesa tener en
cuenta la influencia del signo de los valores de la variable. Es típico en el caso de
los errores, ya que el error es error tanto en más como en menos. Este problema
se resuelve utilizando la media cuadrática.
















n
xf
n
xfxfxf
X
k
i
ii
kk
c
1
2
22
22
2
11 ...
2
5
69
4.3 Medidas de dispersión o concentración
En las secciones precedentes, se ha centrado la atención en un método básico
para describir un conjunto de datos, el promedio que resume los da tos en un solo
valor.
En este aparado se describiremos otras medidas estadísticas necesarias para
mostrar como varían los datos alrededor del promedio, ya que esta variación es a
veces tan importante como el mismo promedio.
Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me-
dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite
concluir que la situación económica de las dos ciudades es la misma?.
Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos
en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes
tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y
en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la
mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central
de una distribución, no es suficiente para su completa caracterización.
El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso
puede ser traducido diciendo que en A los ingresos no varían de individuo a
individuo, o sea, la distribución de los ingresos no presentan variabilidad.
Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy
elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede
ser expresado diciendo que en B los ingresos varían o que la distribución de
ingresos presentan variabilidad. Así tenemos la siguiente definición.
Definición
Las medidas de dispersión son los que cuantifican el grado de concentración o de
dispersión de los valores de la variable en torno de un promedio o valor central de
la distribución. Las medí das de dispersión se necesitan para dos propósitos
básicos:
a) Para verificar la confiabilidad de los promedios y
b) Para que sirva come base para el control de la variación misma.
También podemos decir que los términos concentración y dispersión pueden ser
utilizados indistintamente, pues se da la relación.
alta dispersión  baja concentración
baja dispersión  alta concentración
Las medidas de dispersión que se utilizan con mayor frecuencia son:
70
1) Recorrido o rango
2) Recorrido Intercuartilico
3) Recorrido semi-intercuartilico
4) Desviación media
5) Varianza y desviación estándar
4.3.1 Recorrido de la Variable
El recorrido de una variable estadística es simplemente la diferencia entre su valor
máximo y su valor mínimo y se denota por:
R = máx {X} - mín {X}
Desventaja
La utilización del rango como medida de dispersión es muy limitado, si bien
brinda una primera idea acerca de la heterogeneidad de los datos, tiene el
inconveniente que sólo toma en cuenta los valores extremos descuidando el
conjunto de valores intermedios. Puede suceder que uno de los valores
extremos esté accidentalmente desplazado y no constituye por tanto un
valor representativo; en este caso el recorrido sería exagerado y la
dispersión aparecería distorsionado.
Ejemplo
Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues
mientras la primera tiene una mayor concentración en el centro, la segunda
se distribuye uniformemente a lo largo de todo el recorrido.
4.3.2 Recorrido Intercuartilico
Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos
o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces
la medida dada por:
13 QQQI 
llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.
71
Desventaja
Si bien es cierto que este indicador representa un adelanto respecto del
rango, sin embargo, también depende de dos valores de la variable,
dejando de lado el resto, y en consecuencia la influencia de valores
extremos puede, aunque en menor medida, originar algún tipo de
deformación en cuanto al grado de dispersión.
4.3.3 Recorrido Semi-Intercuartilico
Esta medida, que se basa en la posición ocupada por los 50% de los valores
centrales de la distribución, es dada por:
2
13 QQ
Q IS


4.3.4 Desviación Media o Promedio
En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los
valores con respecto a la media aritmética de la distribución, y de indica así:
n
xx
DM
i 

Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula
no distingue si la diferencia de cada valor de la variable con la media es en más o
en menos.
Ya se habrá advertido que esta expresión sirve para calcular la desviación media
en el caso de datos sin agrupar.
Ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de
estos valores.
72
x xx  x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
DM = 1,8
Veamos ahora cómo se calcula la desviación media en el caso de datos
agrupados en intervalos.
n
xf
DM
ii
donde observamos que ahora las desviaciones van multiplicadas por las
frecuencias de los intervalos correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media
aritmética.
Es decir,
n
xxf
DM
mi 

)(
Ejemplo:
Para hallar la desviación media de la siguiente tabla referida a las edades
de los 100 empleados de una cierta empresa:
Clase fi
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
73
veamos cómo se procede:
Clase fi xm ni * xm xx  fi  xx 
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
100
DM = 6,09
Propiedades de la Desviación Media
1. Como medida de dispersión, la desviación media es superior al recorrido y
la desviación cuartílica, pues toma en cuenta cada elemento, y es más
simple y se ve menos afectada por la presencia de valores extremos. Por lo
tanto, se usa a menudo en muestras pequeñas que incluyen valores
extremos.
2. La principal deficiencia de la desviación promedio surge del hecho de que
promedia los valores absolutos de las desviaciones, esto es, que no
reconoce el signo de las desviaciones. Esto hace que sea menos
conveniente que la desviación estándar (que se describirá en la siguiente
apartado) cuando se requiere una medida de dispersión para ser usada en
cálculos posteriores.
4.3.5 Varianza y Desviación Estándar
Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk,
respectivamente. La varianza muestral de x es dado por:
 
 
1
1
2
2




n
Xxf
SXVar
k
i
ii
74
Fórmula alternativa
 
 
n
Xxf
SXVar
k
i
ii

 1
2
2
Si S2 = 0, entendemos que todos los xi coinciden con la media X ,
esto es, todas las observaciones están concentradas en un mismo punto,
por lo que la dispersión es mínima (nula).
La desviación estándar o típica de los valores de la variable X se define como la
raíz cuadrada positiva de la varianza.
 
1
1




n
Xxf
k
i
ii

El valor numérico de  cuantifica el grado de dispersión de los
valores de una variable con respecto a su media. Mientras mayor es la
dispersión de las observaciones, mayor es la magnitud de sus desviaciones
respecto a la media y por ende, más alto el valor numérico de la desviación
estándar.
Propiedades de la Varianza y Desviación Estándar
1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual
a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0
2. Var[X ± C] = Var[X]
3. Var[CX] = C2 Var[X] , C constante
4. Var[CX+b] = C2 Var[X] , C constante
5. Sean 1X y 2X las medias de dos submuestras de tamaño n1 y n2
respectivamente y sean 2
1S y 2
2S las varianzas correspondientes. La
varianza de la muestra de tamaño n = n1 + n2 es dada por:
        2
22
2
11
2
22
2
11
2
11
1
1
pp XXnXXnSnSn
n
S 


donde pX es la media ponderada de 1X y 2X
75
6. El hecho de que la desviación estándar es matemáticamente lógica significa
que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta
característica es la que da a la desviación estándar su gran superioridad
sobre las demás medidas de dispersión.
7. La desviación estándar es de la misma naturaleza que la variable X y
depende de su magnitud.
8. Para distribuciones simétricas resulta que:
a) El 68.27% de los casos están comprendidos entre X - S y X + S.
b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto
es aproximadamente 95% de los casos están situados dentro de dos
unidades de desviación estándar de la media.
c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S
76
A) Primer método abreviado
Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza
y desviación típica, podemos usar las fórmulas.








 
222
1
1
Xnxf
n
S ii y








 
22
1
1
Xnxf
n
ii
Ejemplo
Calcular la varianza y la desviación estándar de la siguiente distribución
muestral.
xi 5 7 8 9 11
fi 2 3 5 4 2
Solución
Completando la distribución de frecuencias tenemos.
xi fi fi xi fi xi
2
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
TOTAL 16 129 1083
Aplicando las fórmulas respectivas se tiene:
1.8
16
1291


n
xf
X
k
i
ii
    22.224.33
15
1
76.10491083
15
1
1
1 222








  Xnxf
n
S ii
Entonces
49.122.2 
77
b) Segundo método abreviado
Sea tO (origen de trabajo) el valor más frecuente de la variable X o que está hacia
el centro de la distribución de frecuencias, y sea:
tii Oxd   ki ,...,2,1
las desviaciones de xi respecto a tO . Entonces se tiene:
tii Odx 
Luego:
 
    

 

















k
i
k
i
iiiitti
k
i
i
k
i
ii
dndf
n
ddf
n
dOOdf
nn
Xxf
S
1
2
1
222
1
1
2
2
1
1
1
1
1
1
1
Por tanto:








 
k
i
ii dndf
n
S
1
22
1
1
y








 
k
i
ii dndf
n 1
22
1
1

c) Tercer método abreviado
Este procedimiento es particularmente usado cuando los datos agrupados en
distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para
calcular la varianza por este método se siguen los siguientes:
Primer Paso.
Se efectúa el cambio de variable de X a  , utilizando la fórmula:
C
Ox ti 

dO
n
df
OX t
k
i
ii
t 
|
78
Tarea
donde: ix =valores de la variable tO = origen de trabajo
i =Valores transformados C = amplitud del intervalo de clase
Segundo Paso
Se calcula la media aritmética X , usando la fórmula


CO
n
f
COX t
k
i
ii
t 













1
Tercer Paso
Se calcula la varianza S2:








 
22
2
2
1
 nf
n
C
S ii y








 
22
1
1
 nf
n
C ii
Dada la distribución de frecuencias de 150 personas según su edad, calcule la
desviación estándar.
Edad  30,20  40,30  50,40  60,50  70,60
N° de
personas
15 22 48 40 25
4.4 Medidas de Dispersión Relativa
Las medidas de dispersión que se han descrito en la sección anterior se expresan
en las unidades originales de medida, tales como estaturas, kilos, etc. Se pueden
utilizar para comparar la variación de dos distribuciones siempre que las variables
se expresen en las mismas unidades de medida y sean aproximadamente del
mismo tamaño promedio. Sin embargo, a veces es necesario comparar dos
conjuntos de datos expresados en unidades diferentes (tales como toneladas de
azúcar y metros cúbicos de kerosene). En estos casos las medidas de dispersión
79
absoluta no son comparables y deben utilizar utilizarse medidas de dispersión
relativa.
La medida relativa de dispersión, útil para la comparación en términos relativos del
grado de concentración en torno a la media de dos distribuciones distintas es dado
por el coeficiente de Variación.
4.4.1 Coeficiente de Variación
Coeficiente de Variación = C.V =
X
S
Algunas veces se llama coeficiente de dispersión porque "coeficiente" significa una
razón o un número puro independiente de la unidad de medición. Generalmente el
coeficiente de variación se expresa como un porcentaje.
En la práctica, se acostumbra considerar que C.V. superior a 50%
indica alto grado de dispersión y, consecuentemente, pequeña
representatividad de la media aritmética. En cuanto para valores inferiores a
50%, la media será tanto más representativa, cuanto menor sea el C.V.
Ejemplo:
En una empresa, el salario medio de los hombres es de 4000 con una
desviación estándar de 1500, y el de las mujeres es un promedio de 3000
con desviación estándar de 1200. Hallar el coeficiente de variación de los
salarios de los hombres y mujeres.
Solución
Aplicando la fórmula de coeficiente de variación tenemos
Para hombres: C.V = 375.0
4000
1500

X
S
Para hombres: C.V = 375.0
4000
1500

X
S
Para hombres: C.V = 37.5%
Para mujeres: C.V. = 40%
80
4.4.2 Momentos
Sean x1,x2,…,xk valores de la variable X, asociados a las frecuencias absolutas
f1,f2,…,fk, respectivamente.
El momento de orden r respecto al parámetro C es dado por:
 
 







k
i
i
rk
i
ii
r fn
n
Cxf
CM
1
1
,
En particular nos interesan dos casos:
A) Momentos de respecto al origen
Cuando C = 0 se tiene los momentos respecto al origen denotado por





k
i
i
rk
i
i
r fn
n
xf
M
1
1'
,
B) Momentos respecto a la media
En el caso en que C = X tenemos los momentos respecto a la media o
momentos centrales
 







k
i
i
r
i
k
i
i
r fn
n
Xxf
M
1
1
,
Algunos momentos particulares son:
 
1,1
0
1
0
1
0
'
0 


 
n
Xxf
M
n
xf
M
i
k
i
i
k
i
ii
81
 
0, 1
1
1'
1 


 
n
Xxf
MX
n
xf
M
i
k
i
i
k
i
ii
 
2
2
1
2
1
2
'
2 , S
n
Xxf
M
n
xf
M
i
k
i
i
k
i
ii



 
Siempre se pueden encontrar relaciones que liguen los momentos centrales con
los momentos respecto al origen. Para esto bastará usar el binomio de Newton.
Ejemplo:
En una clínica infantil se han anotado, durante un mes, el número de metros
que el niño anda, seguido y sin cesar, el primer día que comienza a
caminar. Obteniéndose así la tabla de información adjunta.
Número de
niños
2 6 10 5 10 3 2 2
Número de
metros
1 2 3 4 5 6 7 8
Se pide:
a) Momentos respecto al origen de primero, segundo y tercer orden.
b) Momentos centrales de orden primero y tercero
Solución
Para hallar los momentos hacemos los cálculos en la siguiente tabla
82
4.5 Medidas de Asimetría
Hay ocasiones en que es deseable calcular una medida que muestre la dirección
de la dispersión con respecto al centro de la distribución. Las medidas de
dispersión solamente indican la magnitud de las variaciones, pero no proveen
información acerca de la dirección hacia donde tienden a ocurrir las variaciones.
Las medidas asimétricas indican la deformación horizontal de las curvas de
frecuencias. Cuando la curva de frecuencia está inclinada o alargada hacia la
derecha (Ver fig. 1), se llama a la derecha o positiva, y si está alargada o inclinada
hacia el lado izquierdo (Ver fig. 2), se denomina asimetría a la izquierda o
negativa.
83
fig 1 fig. 2
4.5.1Coeficientes de Asimetría
Cuando disponemos de los valores de la media, moda, mediana, cuartiles y
desviación estándar debemos utilizar:
I) Primer Coeficiente de Pearson
Si AS = 0, la distribución es simétrica
Si AS > 0, la distribución es sesgada hacia la derecha
Si AS < 0, la distribución es sesgada hacia el lado izquierdo
Es razonable pensar que tiene sentido obtener este coeficiente en
distribuciones unimodales.
II) Segundo Coeficiente de Pearson
Este coeficiente, generalmente se usa cuando no se puede calcular la
media y la desviación estándar
III) Coeficientes de asimetría de Fisher
Este coeficiente es dado por:
13
13 2
QQ
MeQQ
AS



 
3
1
3
3
nS
Xxf
S
M
A
k
i
ii
S



 

MeXMoX
estándarDesviación
ModaMedia
AS






3
84
4.6 Medidas de Curtosis.
Se entiende por curtosis el grado de deformación vertical (apuntamiento) de una
distribución de frecuencias. Con relación al grado de apuntamiento, podemos
tener las siguientes curvas.
Para el grado de apuntamiento (deformación vertical) utilizaremos el coeficiente
denotado por:
 1090
13
2 PP
QQ
K



donde:
P90 = percentil 90; Q1 = primer cuartil
P10 = percentil 10; Q3 = tercer cuatil
Si K = 0.263, diremos que la curva correspondiente a la distribución de frecuencias
es mesocúrtica (tiene igual apuntamiento que el anormal o campana de Gaus).
85
Si K > 0.263, diremos que la curva correspondiente a la distribución de frecuencias
es platicúrtica.
Si K < 0.263, diremos que la curva correspondiente a la distribución de frecuencias
es leptocúrtica.
86
5.1 Introducción
Hasta ahora, hemos visto como organizar y resumir informaciones corres-
pondientes a una única característica o variable de una población. Sin embargo,
en la práctica muchas veces estamos interesados en analizar el comportamiento
conjunto de dos o más variables. Aquí consideraremos aquellas situaciones en las
que el investigador realiza la observación simultánea de dos caracteres en el
individuo, obteniéndose, de esta manera, pares de resultados. Tal es el caso, de
observar en una persona su peso y su altura.
Los distintos valores que pueden adoptar estos caracteres en estudio forman un
conjunto de pares, que denotaremos por (X , Y) , y llamaremos variable estadística
bidimensional.
 La variable estadística bidimensional (X, Y) puede representar las
situaciones siguientes:
i) Dos caracteres cualitativos. La educación y región de
procedencia de una persona.
ii) Dos caracteres cuantitativos. El peso y altura de una
persona.
87
iii) Uno cualitativo y el otro cuantitativo . La profesión y la
edad de una persona.
Si las componentes de la variable bidimensional (X, Y) son caracteres
cuantitativas, puede a su vez clasificarse en:
a. X discreta e Y discreta. Número de admisiones y
número de Médicos en un hospital durante un mes.
b. X continua e Y continua. Peso y altura de una persona
c. X discreta e Y continua. Número de accidentes
automovilísticos que se producen dentro de los límites
de una ciudad y la edad del conductor.
d. X continua e Y discreta. Estatura del padre de familia y
número de hijos
Organizando las ideas:
5.2 Representación de la información mediante tablas bidimensionales
Sea una población de n individuos donde estudiamos, simultáneamente, dos
variables X e Y. Sean x1, x2, . . . ,xk las modalidades de X e y1, y2, . . . , yp las
modalidades de Y. La distribución de frecuencias bidimensional de estas dos
variables se presenta mediante una tabla de doble entrada
88
X / Y y 1 y 2 ............. ye Total
x 1 f11 f12 f1e f1
x 2 f21 f22 f2e f2
:
xk fk1 fk2 fki fk
Total f1 f2 fe n=
 
k
i
j
j
ijf
1 1
Donde:
ijf número de veces que aparece repetido el par (Xi , Yj) y se llama
frecuencia absoluta del par (Xi , Yj).
if =

e
j
ijf
1 =total de pares con primera componente Xi (i = 1,…,k)
jf =

k
j
ijf
1 = total de pares con segundo componente Yj (j = 1,…,e) y se
llama frecuencia marginal del valor Yj
n =  
k
i
j
j
ijf
1 1
= número total de pares observados
Las distribuciones de frecuencias de las variables bidimensionales también
pueden ser representadas gráficamente. Al igual que en el caso unidimensional
existen diferentes tipos de representaciones gráficas, aunque estas resultan a ser
más complicadas
89
5.2.1 Distribuciones Marginales
Las distribuciones marginales corresponden al estudio, por separado, de cada una
de las dos variables que componen una variable estadística bidimensional. Cada
distribución marginal será, por tanto, una distribución unidimensional y,
consecuentemente, se le podrá aplicar cualquiera de los resultados estudiados en
el tema 3.
Distribución marginal X Distribución marginal Y
Ejemplo
Supongamos que queremos analizar el comportamiento conjunto de las
variables: Grado de instrucción (X) y región de procedencia (Y) del os
empleados del Ministerio de Agricultura. Los datos están en la siguiente
tabla:
X
Y
Primaria
Completa
Secundaria
Completa
Superior Total
Costa 40 30 20 90
Sierra 35 15 10 60
Selva 30 15 5 50
Total 105 60 35 n =
200
 En muchas situaciones en vez de trabajar con las frecuencias absolutas,
podemos construir tablas con las frecuencias relativas (proporciones), como
se hizo en el caso unidimensional. Sin embargo, aquí existen 3
posibilidades de expresar la proporción de elementos de cada celda.
i) Con relación al total general y se llama frecuencia relativa. Así la
frecuencia relativa correspondiente al par (xi , yj) es dado por:
n
f
h
ij
ij 
X fi
x1 f1
x2 f2
. .
. .
. .
xk fk
Total


k
i
ifn
1
Y fj
y1 f1
Y2 f2
. .
. .
. .
yk Fe
Total


e
i
jfn
1
90
Las frecuencias relativas marginales de las variables X e Y son
dadas, respectivamente.
n
f
h i
i  , frecuencia marginal del valor xi
n
f
h
j
j  , frecuencia marginal del valor yj
ii) Con relación al total de cada fila 





i
ij
f
f
iii) Con relación al total de cada columna








j
ij
f
f
De acuerdo con el objetivo de la investigación una de estas proporciones
será la más conveniente para ser usada.
Ejemplo
La distribución conjunta de las proporciones de los datos de la anterior
tabla con relación al total de las observaciones (n = 200) está dada por:
X
Y
Primaria
Completa
Secundaria
Completa
Superior Total
Costa 20% 15% 10% 45%
Sierra 17.5% 7.5% 5% 30%
Selva 15% 7.5% 2.5% 25%
Total 52.5% 30% 17.5% 100%
Ejemplo
La distribución de las proporciones de los datos de la tabla anterior del
ejemplo 1 con relación al total de cada columna esta dado por:
X
Y
Primaria
Completa
Secundaria
Completa
Superior Total
Costa 38.1% 50% 57.1% 45%
Sierra 33.3% 25% 28.6% 30%
Selva 28.6% 25% 14.3% 25%
Total 100% 100% 100% 100%
Cada elemento del cuerpo de la tabla representa la frecuencia observada de las
realizaciones simultáneas de X e Y. Así observamos que, 40 empleados con
primaria completa son de la costa, 30 empleados con secundaria completa son de
la costa etc.
91
Los totales de las filas nos dan la distribución marginal de la variable X(grado de
instrucción), y los totales de las columnas nos dan la distribución marginal de la
variable Y(región de procedencia).
En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos
construir tablas con las frecuencias relativas (proporciones), como se hizo en el
caso unidimensional. Sin embargo, aquí existen 3 posibilidades de expresar la
proporción de elementos en cada celda.
i) Con relación al total general y se llama frecuencia relativa. Así, la
frecuencia relativa correspondiente al par (xi, yj), i = 1,2,…,k y j =
1,2,…,e es dad por:
ejki
n
f
h
ij
ij ...,2,1,,..,2,1, 
Las frecuencias relativas marginales de las variables X e Y son dadas,
respectivamente por:
)ydemarginala(frecuenci,...,2,1,
)xdemarginala(frecuenci,..,2,1,
j
i
ej
n
f
h
ki
n
f
h
j
j
i
i


ii) Con relación al total de cada fila
ejki
f
f
i
ij
,...,2,1;...,2,1, 





iii) Con relación al total de cada columna
kiej
f
f
j
ij
...,2,1;,...,2,1, 








De acuerdo con el objetivo de cada investigación, una de estas proporciones será
la más conveniente para ser usada.
Ejemplo
La distribución de las proporciones (frecuencias relativas) de los datos del
ejemplo anterior con relación al total de las observaciones (n = 200) está
dado por:
92
X
Y
Primaria
Completa
Secundaria
Completa
Superior Total
Costa 20% 15% 10% 45%
Sierra 17.5% 7.5% 5% 30%
Selva 15% 7.5% 2.5% 25%
Total 52% 30% 17.5% 100%
Ejemplo
La distribución de las proporciones (frecuencias relativas) de los datos del
ejemplo anterior con relación al total de cada columna está dado por:
X
Y
Primaria
Completa
Secundaria
Completa
Superior Total
Costa 38.1% 50% 57.1% 45%
Sierra 33.3% 25% 28.6% 30%
Selva 28.6% 25% 14.3% 25%
Total 100% 100% 100% 100%
Este tipo de distribución sirve para comparar la distribución de la procedencia de
los individuos conforme a su grado de instrucción. En forma análoga, podemos
construir la distribución conjunta de las proporciones con relación al total de cada
fila.
5.2.2 Propiedades de la Frecuencia
Sea n el número total de pares observados de la variable bidimensional (X, Y).
Son de destacar las propiedades siguientes:
1. La suma de las frecuencias absolutas es igual al número de pares
observados, esto es:
 

k
i
e
j
ij nf
1 1
2. La suma de las frecuencias relativas es igual a la unidad, es decir:
1*
11
1 1 111 1
     
n
n
f
nn
f
h
k
i
k
i
e
j
ij
e
j
ij
k
i
e
j
ij
3. 

k
i
ki nffff
1
21 ...
4. 

k
ni nffff
1
21 ...
93
5. 11
11
  
e
j
j
k
i
i hyh
6.   

k
i
ii
k
i
e
j
iij xfxf
11 1
7.   

e
j
jj
k
i
e
j
jij yfyf
11 1
5.2.3 Medias y Varianzas Marginales
Sea (         eke yxyxyxyxyx ,,...,,,,,...,,,, 1212121 valores distintos de la variables
bidimensional (X, Y), con frecuencia absoluta kefff ,...,, 1211 , respectivamente. Las
medidas y varianzas marginales de X e Y son dadas por:
n
yf
y
n
xf
x
e
j
jj
k
i
ii  

11
,
   
1
S,
1
1
2
2
y
1
2
2






 
n
yyf
n
xxf
S
e
j
jj
k
i
ii
x
Por tanto las desviaciones típicas marginales de X e Y son:
   
1
S,
1
1
2
y
1
2






 
n
yyf
n
xxf
S
e
j
jj
k
i
ii
x
Sea (         eke yxyxyxyxyx ,,...,,,,,...,,,, 1212121 valores distintos de la variables
bidimensional (X, Y), con frecuencia absoluta kefff ,...,, 1211 , respectivamente. La
covarianza entre las variables X e Y es dado por:
 
  
n
yyxxf
yxCovS
k
i
e
j
jiij
xy
 


1 1
,
94
donde  

k
i
e
j
ijfn
1 1
Formula abreviada de la covarianza:
   

k
i
e
j
jiijxy yxyxf
n
yxCovS
1 1
1
,
Ejemplo
Calcula la covarianza de la distribución del número de años de antigüedad
en una empresa y el salario diario que tienen 40 trabajadores.
Aplica la teoría !!!
Calcula la covarianza de la siguiente distribución bidimensional:
95
5.3 Distribuciones condicionales
Sean (X , Y) una variable estadística bidimensional tal que el carácter X presenta k
modalidades y el carácter Y e modalidades mutuamente excluyentes, esto es:
e
k
yyyY
xxxX
,...,,:
,...,,:
21
21
Así, la tabla de frecuencias (tabla de contingencia) para la variable bidimensional
es:
X / Y y 1 y 2 ............. Yj ………. ye Total
x 1 f11 f12 f1j f1e f1
x 2 f21 f22 f2j f2e f2
xi fi1 fi2 fij fie fi
:
xk fk1 fk2 fkj fki fk
Total
(frec.
marginal
f1 f2 fj fe n=
 
k
i
j
j
ijf
1 1
96
La distribución de la variable condicional a que la variable X tome el valor fijo xi
está dada en la a continuación
Valores de Y y 1 y 2 ............. Yj ………. ye Total
Frecuencia absoluta
de Y condicional a
ixy
i
xf
xX


/
fi1 fi2 fij fie fi
Frecuencia relativa de
Y condicional a
ixy
i
xh
xX


/
i
i
f
f 1
i
i
f
f 2
i
ij
f
f
i
ie
f
f 1
Análogamente, la distribución de la variable X condicional a que la variable Y tome
el valor fijo yj está dada por:
Valores de X x 1 x 2 ............. Xj ………. Xk Total
Frecuencia absoluta
de X condicional a
jyx
i
yf
yY


/
f1j f2j fij fjk fi
Frecuencia relativa de
X condicional a
jyx
i
yh
yY


/
j
j
f
f1
j
j
f
f2
j
ij
f
f
j
kj
f
f 1
5.4 Medidas de dependencia entre variables nominales
Uno de los principales objetivos del estudio de una distribución conjunta, es
describir la asociación existente entre las variables en estudio, esto es, queremos
conocer el grado de dependencia que existe entre ellas, de modo que podamos
predecir mejor el resultado de una de ellas en base a la ocurrencia de la otra.
Por ejemplo, si queremos estimar lo renta media de una familia que vive en la
ciudad de La Paz, la información adicional sobre la clase social a la que ella
pertenece nos permite estimar con mejor precisión esa renta, pues sabemos de la
dependencia existente entre las dos variables: Renta familiar (x) y la clase social
(Y ).
97
5.4.1 Independencia de Variables
Supongamos que la distribución conjunta de la variable X con modalidades
kxxx ,...,, 21 y la variable Y con modalidades eyyy ,...,, 21 esta dada en la siguiente
tabla:
Y
X
y1 y2 … yj … ye Total
x1 f11 f12 … f1j f1e f1
x2 f21 f22 … f2j … f2e f2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xj fi1 fi2 fij fie fi
.
.
… … … … … …
xk fk1 fk2 fkj … fke fk
Total f1 f2 … fj … fe
 ijfn
Definición.
Se dice que las variables X e Y son independientes (no asociadas), si en la tabla
de contingencia k x e se verifican la igualdad:
n
ff
f
ji
il

 (para todo i=1,2,…., k y j =1,2,….,e)
Caso contrario las variables X e Y son dependientes o están asociadas.
Ejemplo
Verificar si existe o no dependencia entre el sexo y carrera profesional
escogida por 400 alumnos de .Economía y Administración de la Universidad.
Los datos están dados en la tabla siguiente:
98
TABLA Distribución conjunta de los alumnos según el sexo (x) y carrera
escogida (y).
Solución
Tenemos:
Estos resultados parecen indicar que no hay Independencia entre las dos
variables.
Para aclarar mejor, debemos construir las proporciones según las filas o columnas
de la tabla anterior para así poder hacer las comparaciones. Fijando los totales de
las columnas, la distribución resultante está en la tabla siguiente.
TABLA Distribución conjunta de las proporciones (en porcentajes) de
alumnos según sexo (X) y carrera escogida (Y)
99
De esta tabla podemos observar que, independientemente del sexo, 60% de las
personas prefieren Economía y 40% Administración. Si no hubiera dependencia
entre las variables, esperaríamos las mismas proporciones para cada sexo.
Observando en la tabla, vemos que las proporciones están muy próximas a las
proporciones totales de las filas, esto es, del sexo masculino 60% prefieren
Economía y 40% Administración, del sexo femenino, 59% prefieren Economía y
41% Administración
Por tanto, podemos concluir que las variables sexo y carrera profesional tienden a
ser independientes.
Para descubrir el grado de dependencia entre dos variables, es necesario
cuantificaría en un único número. De un modo general, la cuantificación del grado
de dependencia de dos variables es dado por las llamadas coeficientes de
asociación o correlación.
Existen muchas medidas que cuantifican la dependencia entre variables
nominales; aquí presentamos solamente una de ellas, llamada coeficiente de
contingencia, debido a Karl Pearson. Para definir este coeficiente, Karl
Pearson introduce un estadígrafo denotado por (Chi-cuadrado) y dado por:
En caso general la expresión es dada por
100
Donde Oij representan las frecuencias observadas (fij) y eij representa las
frecuencias esperadas 





n
ff ji
.
Es fácil ver que, las dos variables son independientes si
= 0 y dependiente si bastante mayor que cero, cuanto mayor sea el valor de
chi-cuadrado , mayor será el grado de asociación existente entre las dos variables.
Sin embargo, es muy difícil juzgar si la asociación es alta o no, basándose
solamente en ch-cuadrado. Por eso, Karl Pearson, propuso el llamado coeficiente
de contingencia definido por:
nX
X
C

 2
2
Donde n es el número de observaciones. Este coeficiente será siempre un
número comprendido entre 0 y 1. si las dos variables son independientes
entonces:
= 0 , y lo mismo sucede con C.
Observación:
El uso del estadígrafo chi-cuadrado en tablas de k x e está sujeto, por
razones teóricas, a las siguientes restricciones:
1. Para emplear correctamente el estadígrafo chi-cuadrado, es necesario
que por lo menos el 80% de las frecuencias esperadas de las distintas
modalidades, en el caso de independencia, esto es, 





n
ff ji
sean
mayores o iguales que 5 y ninguno menor que 1.
2. Si hay alguna modalidad que tenga una frecuencia esperada menor que
cinco, antes de calcular chi-cuadrado, debemos agrupar dos o más
modalidades contiguas en una sola hasta lograr la condición anterior.
101
5.4.2 Diagrama de dispersión o nubes de puntos
Un diagrama de dispersión es la representación gráfica de los distintos valores de
la variable estadística bidimensional (X,Y) en le sistema cartesiano .
El diagrama de dispersión representa el grado (intendiad9 y naturaleza (forma) de
la relación entre las variables X e Y, si es que existe alguna.
Ejemplo
En la tabla siguiente se presenta la información obtenida sobe el
número de años de servicios (x) y el número de clientes (y) de 5
agentes de una compañía de seguros.
TABLA Números de clientes (Y), por número de años de servido (X)
de 5 agentes de una compañía de seguros.
Agente Años de servicio
(X)
Número de clientes
(Y)
A 4 58
B 6 66
C 7 74
D 8 70
E 10 82
Total 35 350
Trazar el diagrama de dispersión de estos datos.
Solución
Graficando el conjunto de los pares ordenados (X,Y) de la tabla tenemos la
figura 3.2.
102
Observando la posición de los puntos en el sistema cartesiano, en la
siguiente figura, concluimos que parece que hay una dependencia lineal
entre las variables X e Y, pues vemos en el conjunto, que a medida que
aumenta el tiempo de servicio, aumenta el número de clientes.
5.5 Nociones de correlación y regresión lineal
La covarianza indica cómo es la relación entre dos variables, es decir, cómo se
orienta la nube de puntos, pero este parámetro no indica de una forma concreta la
medida de esa relación. Para resolver este problema se definen los conceptos de
correlación y coeficiente de correlación.
Correlación es la relación que existe entre las dos variables que intervienen en
una variable bidimensional.
a) Correlación funcional: todos los puntos están situados sobre una recta o
una curva. Existe una relación funcional entre las variables X e Y
Ejemplo
El precio de las fotocopias de una copistería es:
La función y = 3x da la relación entre las variables.
Nº copias: xi 1 2 3 4 5
6
Precio (cts):
yi
3 6 9 12 15
18
103
b) Correlación directa: al aumentar una variable aumenta la otra.
Ejemplo
El número de pedidos que sirve un almacén y el número de
vendedores que tiene contratados dicho almacén es:
c) Correlación inversa: al aumentar una variable la otra disminuye.
Ejemplo
El número de gérmenes por cm3 y el tiempo transcurrido con un
tratamiento específico es:
Nº de vendedores:
xi
2 4 5 6 7 9 10
Nº de pedidos: yi 70 90 110 150 170 190 210
Tiempo (h): xi 0 1 2 3 4 5
Nº de gérmenes: yi 55 42 40 35 25 20
104
d) Correlación nula: no existe relación entre las variables.
Ejemplo
El número de libros vendidos en una librería y la temperatura del día
es:
5.5.1 Cálculo del Coeficiente de Correlación.
El coeficiente de correlación de Pearson es:
yx
xy
SS
S
r 
Interpretación.-
El coeficiente indica la correlación que existe entre las dos variables, es decir, si
los puntos están muy próximos o alejados del centro de gravedad.
Propiedades del coeficiente de correlación
a) El coeficiente es un número. No depende de las unidades en las que están
expresadas las variables x e y
Temperatura (°C):
xi
20 21 22 23 24 25
Nº de libros: yi 10 40 30 15 50 10
105
b) Está comprendido entre – 1 y 1
 Si r = – 1 o r = 1, la correlación es perfecta o correlación funcional.
 Si r está próximo a – 1 o a 1, la correlación es fuerte.
 Si r está próximo a cero, la correlación es débil.
 El signo, r > 0 o r < 0, indica si la correlación es directa o inversa,
respectivamente.
Correlación fuerte
Se considera que la correlación es fuerte si |r| > 0,85
Ejemplo
Calcula el coeficiente de correlación entre el número de pedidos que sirve
un almacén y el número de vendedores que tiene contratados dicho
almacén.
El coeficiente de correlación es:
982,0
823,48*5897,2
8.124

yx
xy
SS
S
r
La correlación es fuerte y directa.
5.5.2 Regresión.
La ecuación de la recta de regresión de y sobre x es:
 xx
S
S
yy
x
xy
 2
La ecuación de la recta de regresión de x sobre y es:
 yy
S
S
xx
y
xy
 2
Nº de vendedores:
xi
2 4 5 6 7 9 10
Nº de pedidos: yi 70 90 110 150 170 190 210
106
Estas rectas se pueden expresar de la forma y = Bx + A. Las letras A y B son las
que usan, generalmente, las calculadoras.
Estas rectas se determinan haciendo que se cumplan las siguientes condiciones:
a) Tienen que pasar por el centro de gravedad G(x–, y–).
b) La suma de los cuadrados de las distancias,  2
id debe ser mínima.
Siendo di = y – yi, y ordenada de la recta, yi ordenada de cada punto.
Coeficientes de regresión
Los coeficientes de regresión son las pendientes de las rectas de regresión:
Pendiente de la recta de y sobre x:
2
x
xy
yx
S
S
m 
Pendiente de la recta de x sobre y:
2
y
xy
xy
S
S
m 
Ejemplo
Calcula la recta de regresión de la altura sobre el peso en la distribución
que se obtiene al estudiar la estatura y el peso de 10 personas.
Se tiene:
Medias marginales: 5,170,5.72  yx
Desviaciones típicas marginales: Sx = 9,55, Sy = 9,6
Covarianza: Sxy = 83,75
Pendiente: 92.0
55,9
65,83
22

x
xy
S
S
La recta de regresión de y sobre x es:
y – 170,5 = 0,92(x – 72,5) ⇒y = 0,92x + 103,96
Peso (kg): xi 70 65 85 60 70 75 90 80 60 70
Altura (cm):
yi
175 160 180 155 165 180 185 175 160 170
107
Estimaciones con la recta de regresión
La recta de regresión se ajusta a la nube de puntos y describe, de una forma
genérica, su tendencia. Se pueden hacer estimaciones con la recta de regresión
sin olvidar que la estimación será fiable siempre que:
a) El coeficiente de correlación esté próximo a 1 o a – 1. Es decir, los puntos
están muy cerca de la recta.
b) Los valores sobre los que se hacen las estimaciones no deben estar muy
alejados de los datos utilizados.
Ejemplo
Se han recogido los datos de la temperatura en °C y la presión en mm en
distintas ciudades. Estima la presión que habría para una temperatura de
23°. Si la presión fuese de 830 mm, estima la temperatura.
El coeficiente de correlación es: r = 0,98
La correlación es fuerte y directa. Para hacer la estimación se calcula la recta de
regresión:
y = 6,5x + 675,5
y con ella se calcula el valor de y para x = 23
y = 6,5 · 23 + 675,5 = 825
Es decir, aproximadamente 825 mm de presión.
Si y = 830 ⇒830 = 6,5x + 675,5
Se obtiene: x = 23,77 °C
Temperatura (°C):
xi
18 19 20 18 22 21
Presión (mm): yi 790 800 805 795 820 810
108
109
6.1 Introducción
Las técnicas de conteo son aquellas para enumerar los elementos de un conjunto
particular o evento, difíciles de cuantificar.
Por ejemplo:
“El password” de un usuario de un ordenador consiste de ocho (o siete o
seis) caracteres. Cada uno de estos caracteres debe ser un dígito decimal o
una letra del alfabeto. Cada password debe contener al menos un dígito.
¿Cuántos de éstas claves de acceso diferentes pueden existir?
Los problemas de conteo surgen de las matemáticas y de las ciencias de la
computación, pero también de otras muchas disciplinas científicas como la
química o de situaciones de la actividad cotidiana en la industria, la gestión,
etc. Por ejemplo tendremos que contar los resultados positivos de un
experimento y enumerar todos los resultados para determinar
probabilidades. También necesitaremos contar el número de operaciones
realizadas por un algoritmo para analizar su costo computacional.
110
6.2 Principios básicos del proceso de contar
Principio de Multiplicación
Si un evento puede realizarse de n1 maneras diferentes, y si, continuando el
procedimiento, un segundo evento puede realizarse de n2 maneras diferentes, y
si, después de efectuado un tercer evento puede realizarse de n3 maneras
diferentes, y así sucesivamente, entonces el número de maneras en que los
eventos pueden realizarse en el orden indicado es el producto ...321  nnn
Escribe todas las palabras de dos letras (que tengan o no-sentido) que
empiecen con consonantes y terminen en vocal.
ba, be, bi, bo, bu
ca, ce, ci, co, cu
da, de, di, do, du
...
xa, xe, xi, xo, xu
za, ze, zi, zo, zu
¿Cuántas de estas palabras escribiste?
21 x 5 = 105 palabras de dos letras que empiezan con constantes y
terminan en vocal.
Notación Factorial
El producto de los enteros positivos desde 1 hasta n inclusive, se emplea con
mucha frecuencia en matemáticas y aquí lo denotamos por el símbolo !n (que se
lee “n factorial”):
    0n;12...321!  nnnn
Conviene definir 0! = 1.
Ejemplo
111
Principio de Adición
Si dos decisiones son mutuamente excluyentes (es decir disjuntos), la primera se
puede tomar de m maneras y la segunda de n maneras, entonces una o la otra se
puede tomar de m + n maneras.
La biblioteca de la USB tiene 40 libros de Base de Datos y 50 de
Matemática Discreta. Por la regla de la suma, un estudiante puede elegir
entre 40 + 50 = 90 libros para aprender de alguno de estos libros.
6.3 Arreglos
6.3.1 Arreglos simples
Un arreglo simple de n objetos diferentes tomados de k en k es una ordenación de
k objetos entre los n dados, de tal manera que estos grupos de k elementos
difieren en algún elemento o en el orden de colocación.
Teorema
El número de todos los arreglos a formarse con n objetos tomados de k en k
es obtenida por la fórmula.
 
    1...21
!
!


 knnnn
kn
n
An
k
Donde    1.guatda.com/cmx.p2...21!  nnnn y 0! = 1
Ejemplo
¿De cuántas maneras diferentes se pueden sentar 8 persona en una banca,
con capacidad para 5 personas?
Solución
Como n = 8 y k = 5, el número total de maneras diferentes que pueden
sentarse 8 personas en una banca, con capacidad para 5 personas es
 
6720
)!58(
!8
!58
!88
5 



A
Me =
Median
a
112
6.3.2 Arreglos con Repetición
Son aquellos arreglos en que un elemento cualquiera de los dados, puede
repetirse en el mismo grupo, el número de veces que se indica.
Teorema
El número de todos los arreglos con repetición a formarse con n objetos
tomados de k en k es obtenido por la fórmula
  kn
k nAR 
Ejemplo:
Un ómnibus parte de su paradero inicial con 6 personas a bordo y se
detiene en 10 paraderos diferentes. ¿De cuántas maneras pueden bajar las
6 personas en los 10 paraderos, si en unos paraderos pueden bajar
cualquier número de personas?
Solución
La primera persona puede bajar en cualquier de los 10 paraderos, la
segunda lo mismo y la sexta de igual forma, entonces, el número total de
maneras es:
  100000010610
6 AR
6.4 Permutaciones
Una ordenación de un conjunto de n objetos en un orden dado se llama una
permutación de los objetos (tomados todos a la vez). Una ordenación de un
número dichos objetos nr  , en un orden dado se llama una permutación r o una
permutación de los n objetos tomados r a la vez.
6.4.1 Permutaciones simples (n objetos tomados todos a la vez)
El número de permutaciones que pueden formarse con n objetos distintos está
dado por:
!nPn 
los n objetos tomados todos a la vez
113
Ejemplo:
¿Cuántas permutaciones de 3 elementos se forman con 3 objetos a, b, y c?
Solución
Tenemos 3 objetos entonces n = 3
Por lo tanto 6!33 P permutaciones
En detalle
Primera
Posición
Segunda
Posición
Tercera
Posición
A b c
B a c
B c a
C b a
C a b
A c b
6.4.2 Permutaciones Circulares
Son las diferentes permutaciones que pueden formarse con n objetos dados, de
modo que no hay ni primero ni último objeto, pues todos se hallan en un círculo
cerrado. Para determinar el número de permutaciones circulares que pueden
formarse con los n objetos distintos de un conjunto, basta observar que
considerando fija la posición de cualquiera de los n objetos, los n-1 restantes
podrán cambiar de lugar de (n-1)! formas diferentes tomando todas las posiciones
sobre la circunferencia relativa al primer punto.
Luego:
Ejemplo
¿De cuántas formas diferentes pueden sentarse alrededor de una mesa 6
personas?
Si la mesa fuese circular:
Caso 1:
114
120!5)!16(16 
c
P
6.4.3 Permutaciones con Repetición
Con frecuencia se desea saber el número de permutaciones de objetos de los
cuales algunos son iguales.
El número de permutaciones de n objetos de los cuales n1 son iguales, n2
son iguales, ..., nr son iguales es:
!...!!
!
321 nnn
n

Ejemplo
Supongamos que deseamos formar todas las posibles palabras de 5 letras
usando las letras empleadas en la palabra DADDY.
Existen 5 objetos de los cuales el objeto D se repite 3 veces, el objeto A, 1
vez, el objeto Y una vez.
Entonces:
n = 5 1,1,3 321  nnn
Luego:
Se pueden formar 20 palabras diferentes de 5 letras
Permutaciones de n Objetos tomados r a la vez
El número de permutaciones de n objetos tomados r a al vez lo denotamos por:
 rnP ,
Cuya fórmula es:
20
!1!1!3
!345
!1!1!3
!5





 
 !
!
,
rn
n
rnP


Caso 2:
115
Ejemplo
Hallar el número de permutaciones de 6 objetos, a saber, a, b, c, d, e, f,
tomados tres a la vez. En otras palabras, hallar el número de “palabras de
tres letras diferentes” que pueden formarse con las seis letras
mencionadas.
Representamos las palabras de tres letras por tres cajas:
La primera letra puede escogerse de 6 formas diferentes; luego, la segunda
letra se puede escoger de 5 formas diferentes; y después, la última letra se
puede escoger de 4 formas diferentes.
120456  posibles palabras de tres letras sin repetición, o hay 120
permutaciones de 6 objetos tomados 3 a la vez.
Aplicando la fórmula  
 !
!
,
rn
n
rnP

 tenemos:
6.5 Combinaciones
Supongamos que tenemos una colección de n objetos. Una combinación de estos
n objetos tomados de r a la vez, o una, combinación r, es un subconjunto de r
elementos. En otras palabras, una combinación r es una selección de r o de n
objetos donde el orden no se tiene en cuenta.
El número de combinaciones de n objetos tomados r a la vez lo denotamos por:
 rnC ,
Cuya fórmula es:
 
 !!
!
,
rnr
n
rnC
n
r 







0%
25
%
50
%
75
%
100
%
Cas
o
3:
 
 
120
!3
!3456
!3
!6
!36
!6
3,6 



P
116
1;1
0
00











 n
Ejemplo:
Las combinaciones de las letras a, b, c, d tomados 3 a la vez son:
A b c
A c d
A b d
B c d
Aplicamos la fórmula:
Analizando el siguiente esquema:
Combinación Permutación
a b c abc, acb, cab, cba, bca,
bac
a c d adc, dac, dca, cda, cad,
acd
a b d abd, adb, dab, dba, bda,
bad
b c d bcd, bdc, dbc, dcb, cdb,
cbd
Combinaciones con repetición
Al regresar a casa después de una práctica de carrera en pista, siete estudiantes
de bachillerato se detienen en un restaurante de comida rápida, donde cada uno
puede comer lo siguiente:
- una hamburguesa con queso
- un hot dog
- un taco
- un sándwich de atún
¿Cuántas compras diferentes son posibles?
Sean q, h, t y p las hamburguesas con queso, el hot dog, el taco y el sándwich de
atún, respectivamente. Aquí nos interesa el número de artículos comprados y no el
 
 
4
!1!3
!34
!34!3
!4
3,4
4
3











C
117
orden en que son adquiridos, de modo que el problema es de selecciones o
combinaciones con repetición.
q q h h t t p
q q q q h t P
q q q q q q P
h t t p p p P
t t t t t p P
t t t t t t T
p p p p p p P
El número de combinaciones de r objetos tomados de los n objetos dados, de
manera que estos objetos pueden repetirse, está dado por:
  






 1
,1
rn
r
rrnC
Ejemplo
Una pastelería ofrece cinco tipos distintos de pasteles. Si se supone que
hay al menos una docena de cada tipo, al entrar en al pastelería, ¿de
cuántas formas se podrá seleccionar una docena de pasteles?
Solución
De los cinco tipos de pasteles se pueden elegir una docena, puesto que
cada tipo tiene al menos una docena entonces:
  1820
24
13141516
!12!4
!16
12,1125
16
12
1125
12






















C
Binomio de Newton
Si a y b son números reales diferentes de cero, se puede establecer que:
Q1
Q2 Q3
118
 
 
 
 
 
  543223455
4322344
32233
222
1
0
510105
464
33
2
1
babbababaaba
babbabaaba
babbaaba
bababa
baba
ba






Los coeficientes en este producto siguen una regla que es mostrada en e siguiente
esquema, conocida como el triángulo de pascal.
 
 
 
 
 
 5
4
3
2
1
0
ba
ba
ba
ba
ba
ba





 1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
..................
Expresando  n
ba  en una fórmula a partir de:
Sea el símbolo 




 n
r
, léase “n C r” (coeficiente combinatoria), donde r y n
son enteros positivos nr  , se define como sigue:
 !!
!
rnr
nn
r 






La conexión entre estos símbolos entre estos símbolos y los coeficientes de las
expresiones  n
ba  se ve claramente del hecho que el triángulo de pascal puede
escribirse ahora así:
119
 
 
 
 
 
 5
4
3
2
1
0
ba
ba
ba
ba
ba
ba





 




 0
0





 1
0





 1
1





 2
0





 2
1





 2
2





 3
0





 3
1





 3
2





 3
3





 4
0





 4
1





 4
2





 4
3





 4
4





 5
0





 5
1





 5
2





 5
3





 5
4





 5
5
..................
 
rrn
n
r r
nn
n
n
n
n
n
n
n
n
n
nn
ba
bbabababaaba







































0
1
1
22
2
22
2
1
1
...
n
A esta expresión se le denomina el teorema del binomio.
Donde:
rrn
n
r
r bat 





 
1 donde r = 0,1,2,...,n
Propiedades
1. Es un polinomio entero, ya que sus coeficientes son enteros por ser
números combinatorios.
2. Es un polinomio homogéneo del grado n respecto de las letras a y b
3. es un polinomio completo de n +1 términos, ya que los exponentes de a van
disminuyendo sucesivamente desde n a 0
4. Los coeficientes de los términos equidistantes de los extremos son iguales,
lo cual es evidente por ser números combinatorios de grados
complementarios.
5. El exponente de a en cada término es igual al número de términos que le
siguen, y el de b al de los que le preceden
120
6. Los términos centrales en el desarrollo de un binomio  n
ba  , son:
imaparesnsitot
paresnsit
nn
n ,
2
3
2
1
1
2


Consecuencias Prácticas
1. Si los términos del binomio tienen signos contrarios, los términos del
desarrollo serán alternativamente positivos y negativos, siendo negativos
los que contengan potencias impares del término negativo del binomio.
Basta sustituir en el desarrollo a por –a
2. Si los dos términos del binomio son negativos, todos los términos del
desarrollo serán positivos o negativos, según que el exponente sea par o
impar. Se tiene en efecto.
        nnnn
bababa  11
121
LECTURAS COMPLEMENTARIAS
Los respectivos contenidos se encuentran en Prácticas
REFERENCIAS ELECTRÓNICAS
 Introducción a la estadística descriptiva
http://www.slideshare.net/lissethperez/estadistica-5357736
 Estadística conceptos básicos
http://www.slideshare.net/ysraelchavez2010/presentacion-estadistica
 ¿Qué es la Estadística?
http://www.ceibal.edu.uy/contenidos/areas_conocimiento/mat/estadistica/qu_es_la_estadstica.html
 DITUTOR Variables cualitativas
http://w w w .ditutor.com/estadistica/variable_cualitativa.html
 Gráficos para variables cualitativas
http://w w w .bioestadistica.uma.es/libro/node9.htm
 Tipos de gráficos disponibles Office 2007
http://office.microsoft.com/es-es/help/tipos-de-graficos-disponibles-HA001233737.aspx
 Razón, Proporción y Tasa
http://sameens.dia.uned.es/Trabajos7/Trabajos_Publicos/Trab_3/Gaspar_Garcia_3/razon.html
 Muestreo 2 Clasificación Slide Share
http://w w w .slideshare.net/yovannygon/muestreo-2-clasificacion
 Gráficos para variables cuantitativas
http://www.bioestadistica.uma.es/libro/node10.htm
 Ejercicios resueltos para variables cuantitativas y cualitativas
http://www.vitutor.com/estadistica/descriptiva/b_1.html
 Estadística y Probabilidad
http://www.vitutor.com/estadistica.html
122
PROBABILIDAD Y ESTADÍSTICA
INGENIERÍA DE SISTEMAS TERCER SEMESTRE
LIC. RITA TORRICO
FUNDAMENTOS DE LA ESTADÍSTICA
PRACTICA No
APELLIDOS Y NOMBRE …………....................................................................................................................
PARALELO ............................................ FECHA………………….………...........
EJERCICIOS
1. Defina estadística
2. ¿Cuál es la diferencia entre muestra y población?
3. ¿Qué es un dato estadístico?
4. ¿Qué es una variable estadística?
5. Explique la diferencia entre parámetro y estadígrafo
6. ¿Cuál es la clasificación de la estadística?
7. Busque un tema de investigación y declare el problema y los objetivos
8. Indica que variables son cualitativas y cuales cuantitativas:
a. Comida Favorita.
b. Profesión que te gusta
c. Número de goles marcados por tu equipo favorito en la última
temporada
d. Número de alumnos de tu Instituto
e. El color de los ojos de tus compañeros de clase
f. Coeficiente intelectual de tus compañeros de clase
9. Clasificar si es muestra o población
a. Las elecciones en Bolivia.
b. El salario de 20 empleados de una gran compañía.
c. Realizar una encuesta a 100 personas que ingresaron a una tienda
del total de 896 personas que accedieron a está en un día.
d. Realizar un estudio que incluya a todos los miembros de un asilo.
10.Clasificar las siguientes variables en cualitativas y cuantitativas
discretas o continuas.
a. La nacionalidad de una persona.
b. Número de litros de agua contenidos en un depósito.
c. Número de libros en un estante de librería.
d. Suma de puntos obtenidos en el lanzamiento de un par de dados.
e. La profesión de una persona.
f. El área de las distintas baldosas de un edificio.
REFERENCIAS BIBLIOGRÁFICAS
Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos.
123
PROBABILIDAD Y ESTADÍSTICA
INGENIERÍA DE SISTEMAS TERCER SEMESTRE
LIC. RITA TORRICO
EJECUCIÓN DEL TRABAJO ESTADÍSTICO
PRACTICA No
APELLIDOS Y NOMBRE …………....................................................................................................................
PARALELO ............................................ FECHA………………….………...........
EJERCICIOS
1. Se ha determinado en 30 enfermos el contenido de calcio en sangre,
obteniéndose los siguientes valores:
8.4 9.2 9.5 8.8 9.8 8.7 9.8 9.2 9.8 9.9
9.3 9.5 8.5 9.7 8.6 9.6 9.1 10.1 9.2 9.4
8.9 9 9.7 9.4 10.2 9.6 8.8 10 9.4 8.7
Agrupa los resultados en intervalos y represéntalos gráficamente.
2. Las puntuaciones obtenidas por grupo en una prueba han sido:
15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
Construya la tabla de distribución de frecuencias y dibuje el polígono
de frecuencias respectivo.
3. El director del programa de honores en la Western Universty tiene 25
solicitudes para su admisión el próximo otoño. Las calificaciones de la
prueba ACT de los solicitantes son:
27, 27, 27, 28, 27, 25, 25, 28, 26, 28, 26, 28, 31,
20, 26, 26, 28, 24, 24, 23, 29, 30, 25, 25, 30
a) ¿Cuántas clases recomienda?
b) ¿Qué intervalo de clase sugiere?
c) ¿Cuál es el límite inferior que recomendaría para la primera clase?
d) Organice las calificaciones en una distribución de frecuencias y
determine la distribución de frecuencias relativas.
4. Se realizo una encuesta en 30 hogares en la cual se pregunto el nº de
individuos que habitualmente conviven en el domicilio. Las respuestas
obtenidas han sido las siguientes:
4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las
frecuencias absolutas, relativas y sus correspondientes acumuladas.
124
b) ¿Qué proporción de hogares está compuesto por tres o menos
personas? ¿Qué proporción de individuos vive en hogares con tres o
menos miembros?
c) Dibuje el diagrama de barras de frecuencias.
d) Agrupe por intervalos de amplitud 2 los valores de la variable, calcule su
distribución de frecuencias y represente el histograma correspondient
REFERENCIAS BIBLIOGRÁFICAS
Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos.
Colecciones Shaum, (1998) Estadística yprobabilidades,McGraw- Hill,
PROBABILIDAD Y ESTADÍSTICA
INGENIERÍA DE SISTEMAS TERCER SEMESTRE
LIC. RITA TORRICO
ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS
PRACTICA No
APELLIDOS Y NOMBRE …………....................................................................................................................
PARALELO ............................................ FECHA………………….………...........
EJERCICIOS
1. Determine el salario medio por hora pagado a carpinteros que obtuvieron
los siguientes pagos por hora: $15.40, $20.10, $18.75, $22.76, $30.67,
$18.00.Para las cuestiones de a 7 a la 10.
a) calcule la media aritmética,
b) indique si es un dato estadístico de muestra o un parámetro de
población.
2.El bufete de abogados Andrews y Asociados se especializa en derecho
corporativo. Cobra un cargo por hora de $100 (dólares) por la investigación
de un caso, uno de $75 por consultas y uno de $200 por la redacción de un
informe La semana pasada uno de los socios dedicó 10 horas a consulta
con un cliente, 10 horas a la investigación del caso y 20 horas a la
elaboración del informe. ¿Cuál fue el valor medio ponderado de los
servicios legales?
3. Determine la media geométrica de los siguientes valores que siguen: 8,
12, 14, 26, 5.
4. A continuación se enlista el aumento porcentual en ventas para la
Corporación MG en los últimos 5 años. Determine la media geométrica del
aumento porcentual en ventas durante el período.
125
9.4 13.8 11.7 11.9 14.7
5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el
número de hijos de las mismas. El resultado ha sido:
Se pide:
a. Calcular el número medio de hijos, la mediana y la moda.
b. Calcular los cuartiles y el decil 7.
c. Analizar la dispersión de la distribución, interpretando los resultados.
d. Analizar la forma de la distribución calculando los coeficientes
correspondientes.
e. Comente los resultados.
6. El Departamento de Comercio -Oficina del Censo, informó acerca del
número de personas preceptoras de ingreso en familias estadounidenses:
Número de personas Ingreso
(en miles)
0 7083
1 18621
2 22414
3 5533
4 o más 2797
a) ¿Cuál es el valor modal del número de tales personas?
b) ¿Y cuál es la mediana?
c) Explique por qué no puede calcularse la media aritmética del número de
preceptores de ingreso.
7. La distribución del importe de las facturas por reparación de carrocería
de una muestra de 80 vehículos en un taller, viene dada por la tabla
siguiente:
126
Se pide:
a) Calcular el importe medio. Estudiar la representatividad de esta media.
b) Calcular el importe mediano y el importe más frecuente.
c) Calcular el tercer decil. ¿Qué interpretación tiene?
d) ¿Cuál es el importe máximo pagado por las 60 reparaciones más
baratas?
8. Calcula la desviación típica y la media de la siguiente distribución:
9. En una población de 20 la suma de los datos obtenidos en un estudio
vale 50, y la suma de los cuadrados de esos datos vale 200. ¿Cuánto vale
la desviación típica?
10. Dada la variable X , que toma los valores 2, 4, 20 y 24.
a. Hallar la media y la varianza de los valores de esa variable
tipificados.
b. Hallar la media y la varianza de la variable Y= 2X + 5
c. Hallar el coeficiente de variación de la variable X y de la variable Y e
interpretar el resultado.
d. Si a todos los valores de la variable X se les resta 2¿Cuál sería la
media y la varianza de la nueva variable?
11. Calcular los tres cuartiles de las dos distribuciones siguientes:
Xi fi
2 8
3 10
8 12
12 6
15 3
Li-1-Li fi
5-10 6
10-15 7
15-20 10
20-30 9
Calcular también estas medidas gráficamente en ambos casos
Calcula la Moda en la segunda distribución.
REFERENCIAS BIBLIOGRÁFICAS
Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos.
xi 2 4 6 8 10 12 14
fi 10 20 25 35 40 15 5
127
PROBABILIDAD Y ESTADÍSTICA
INGENIERÍA DE SISTEMAS TERCER SEMESTRE
LIC. RITA TORRICO
VARIABLE ESTADÍSTICA BIDIMENSIONAL
PRACTICA No
APELLIDOS Y NOMBRE …………....................................................................................................................
PARALELO ............................................ FECHA………………….………...........
EJERCICIOS
1. A partir de la encuesta realizada sobre 480 familias residentes en una
determinada ciudad, se han obtenido los siguientes datos sobre ingresos
mensuales (X) y depósitos a la vista en bancos y cajas de ahorros (Y), en miles
de pesetas:
Suponiendo que las marcas de clase son representativas de cada intervalo,
determine:
a) Las frecuencias absolutas de las distribuciones marginales de las
variables X e Y.
b) Las frecuencias relativas de la distribución conjunta y de las
distribuciones marginales de X y de Y.
c) Las frecuencias relativas, expresadas en términos porcentuales, f13, f21,
f32, f44, f1·, f3·, f·3, f4·.
d) Los valores que alcanzan las siguientes frecuencias relativas para
distribuciones condicionadas: f(X1/Y=350), f(X2/Y=1250), f(Y1/X=375),
f(Y2/X=200).
e) Las medias de las distribuciones marginales de X y de Y.
f) Verificar si X e Y son independientes. En caso de que no sean
independientes, cuantificar el tipo y grado de dependencia lineal.
2. Sobre un conjunto de conductores se ha realizado una encuesta para analizar
su edad (Y) y el número de accidentes que han sufrido (X). A partir de la
misma, se obtuvieron los siguientes resultados:
128
A partir de estos datos, se le pide que determine para este conjunto de
conductores:
a) Las medias y varianzas de las distribuciones marginales.
b) El número medio de accidentes que tienen los conductores con edades
comprendidas entre los 40 y los 50 años.
c) La covarianza entre las dos variables.
d) ¿Qué edad tendría como mucho un conductor con un solo accidente para
encontrarse en el grupo del 20 % de los más jóvenes?
3. Como es bien sabido, se puede establecer una dependencia entre el consumo
de una familia (variable X1, en miles ptas./mes) y su renta (variable X2, en
miles ptas./mes). Con el objeto de concretar tal relación en una determinada
economía, se recogieron datos referentes a 200 familias, obteniéndose los
siguientes resultados:
A partir de ellos, se desea conocer:
a) Para las familias con un consumo mensual entre 50.000 y 300.000 ptas.,
¿cuál sería la renta más frecuente?
b) ¿Qué porcentaje de las 200 familias tiene una renta superior a 163.000
ptas. mensuales?
c) Para las dos variables consideradas, ¿qué media sería la más
representativa?
d) ¿Son X1 e X2 independientes?
e) ¿Se puede decir con estos datos que existe una relación lineal entre las
variables anteriores?
4. Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron
el número de horas que dedicaron a estudiar la semana antes del examen y la
nota obtenida en la prueba. La información se recoge en la siguiente tabla:
129
Representa los datos mediante una nube de puntos e indica cuál de estos
valores te parece más apropiado para el coeficiente de correlación: 0,92;
5. Se ha realizado una encuesta preguntando por el número de personas que
habitan el hogar familiar y el número de habitaciones que tiene la casa. La
tabla siguiente recoge la información obtenida:
Hallar la covarianza y el coeficiente de correlación. ¿Cómo es la relación
entre las dos variables?
REFERENCIAS BIBLIOGRÁFICAS
Mitacc Meza,M. Tópicos de estadística descriptiva probabilidades,San Marcos.
PROBABILIDAD Y ESTADÍSTICA
INGENIERÍA DE SISTEMAS TERCER SEMESTRE
LIC. RITA TORRICO
ANÁLISIS COMBINATORIO
PRACTICA No
APELLIDOS Y NOMBRE …………....................................................................................................................
PARALELO ............................................ FECHA………………….………...........
EJERCICIOS
1. ¿Cuántas parejas diferentes compuestas por una mujer y un hombre se
podrían formar a partir de 6 hombres y 5 mujeres?
2. ¿Cuántos tríos diferentes compuestos por un hombre, una mujer y un niño se
pueden formar a partir de 4 hombres, 5 mujeres y 3 niños?
3. En una canasta hay 5 frutas diferentes y en otra canasta hay 3 verduras
distintas. ¿De cuántas maneras se puede elegir una fruta y una verdura?
4. ¿Cuántas palabras diferentes, con o sin significado, se pueden formar con las
letras: A, L, E y C, sin que ninguna letra se repita ni falte?
5. ¿Cuántas permutaciones simples pueden hacerse con las letras de la palabra
LEGAR?
6. ¿Cuántas de esas permutaciones comenzarán con una consonante?
7. ¿Cuántas comenzarán con una vocal?
130
8. ¿Cuántas comenzarán con la letra A?
9. Se tienen 10 bolitas de igual tamaño, 3 son de color rojo, 2 de color azul y 5 de
color verde. ¿De cuántas maneras diferentes se pueden ordenar en fila esas
10 bolitas?
10.¿Cuántas de esas permutaciones comenzarán con una bolita verde?
11.¿Cuántas terminarán con una bolita roja?
12.¿Cuántas comenzarán con una bolita azul y terminarán con una bolita verde?
13.¿Cuántos números de 3 cifras diferentes pueden formarse con los dígitos: 1, 2,
3, 4 y 5?
14.¿Cuántas palabras de 3 letras, con o sin significado, pueden formarse con las
letras de la palabra COMA?
15.Una empresa ferroviaria tiene 6 estaciones. ¿Cuántos tipos diferentes de
boletos, donde se indique la estación de salida y de llegada, deben imprimirse?
16.¿Cuántos números de 3 cifras pueden formarse con los dígitos: 5, 6, 7, 8 y 9?
17.¿Cuántos números de dos cifras pueden formarse con los diez dígitos?
18.¿De cuántas maneras diferentes se puede elegir una comisión de 5 miembros
a partir de 8 personas?
19.¿Si una persona determinada debe estar siempre incluida?
20.¿Si una persona determinada debe estar siempre excluida?
21.¿Si una persona determinada debe estar siempre incluida y otra siempre
excluida?
22.¿Si dos personas determinadas nunca deben estar juntas en esa comisión?
23.¿Cuántas diagonales pueden trazarse en un polígono convexo de n lados?
24.¿Cuántas comisiones diferentes, compuestas por 2 hombres y 3 mujeres,
pueden formarse, a partir de 10 hombres y 12 mujeres?
25.¿Cuántas palabras de 7 letras distintas (4 consonantes y 3 vocales), con o sin
significado, pueden formarse a partir de 6 consonantes y 5 vocales, todas
diferentes?
REFERENCIAS BIBLIOGRÁFICAS
Mitacc Meza,M. Tópicos de estadística descriptiva probabilidades,San Marcos.
131
BIBLIOGRAFÍA
1. Canales F.H., Alvarado E.L. y Pineda E.B.(1989) Metodología de la
Investigación. México.OPS.
2. Chungara Castro, V. (2011) Estadística y Probabilidades. La Paz, Bolivia:
Leonardo.
3. De la Quintana G., Hugo M.(1995) Introducción a la Estadística Descriptiva.
La Paz, Bolivia: Stilo Publicidad Gráfica.
4. Mitacc Meza, M. Tópicos de Estadística Descriptiva y Probabilidad. San
Marcos.
5. Universidad Salesiana de Bolivia (1999-2000) Estadística Social. Bolivia.
6. Zapata Escobar, L.(2003) Curso de Estadística Descriptiva. La Paz, Bolivia.
GLOSARIO
A
AMPLITUD O RANGO
La diferencia entre el valor máximo y mínimo de los valores de una variable. En la
amplitud de una variable se encuentran comprendidos el 100% de los valores
muestrales
ANACOVA o ANCOVA
Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues
compara medias entre grupos) y análisis de regresión (ajusta las comparaciones
de las medias entres los grupos por variables continuas o covariables)
ANOVA
Análisis de la varianza. Es una técnica estadística que sirve para
decidir/determinar si las diferencias que existen entre las medias de tres o más
grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas
de ANOVA se basan en la partición de la varianza para establecer si la varianza
explicada por los grupos formados es suficientemente mayor que la varianza
residual o no explicada
132
C
COEFICIENTE DE CORRELACIÓN Estadístico que cuantifica la correlación. Sus
valores están comprendidos entre -1 y 1
COEFICIENTE DE DETERMINACIÓN Es el cuadrado del coeficiente de
correlación. Expresado en tanto por ciento mide el grado de información
compartida entre dos variables continuas
COEFICIENTES DE REGRESIÓN En un modelo de regresión lineal son los
valores de a y b que determinan la expresión de la recta de regresión y=a + b·x
COEFICIENTE DE VARIACIÓN Es una medida de dispersión relativa. No tiene
unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral.
Se suele expresar en tanto por ciento
CORRELACIÓN
Expresa la concordancia entre dos variables según el sentido de la relación de
estas en términos de aumento ó disminución.
COVARIANZA
Representa la media del producto de las desviaciones de dos variables en relación
a su media.
CUARTILES
Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores
muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto a
número de observaciones. Así Q1 determina el valor que hace que haya un 25%
de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la
mediana
CUASIVARIANZA
Característica de una muestra o población que cuantifica su dispersión o
variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La
cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza
poblacional.
D
DECILES
Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% ,
90% y 100%
DESCRIPTIVA
Parte de la estadística que resume la información de la muestra. La información
recogida y resumida en los estadísticos se usa para la estimación de parámetros
poblacionales
133
DESVIACIÓN ESTÁNDAR (TÍPICA)
Característica de una muestra o población que cuantifica su dispersión o
variabilidad. Tiene las mismas unidades que la variable. la desviación típica es
invariante con respecto al origen de la distribución. Su cuadrado es la varianza
DIAGRAMA DE PUNTOS
(scatter plot) ES un gráfico bidimensional o tridimensional que muestra la variación
de los valores muestrales de dos o tres variables.
DIAGRAMAS DE BARRAS
Representación gráfica para las variables discretas
DISTRIBUCIÓN DE DATOS En la realización de un experimento, corresponde a la
recogida de los datos experimentales para cada individuo y cada variable
DISTRIBUCIÓN NORMAL O DE GAUSS
Es una distribución teórica de probabilidad que se usa tanto en la estadística
aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como
consecuencia del importante resultado que establece el teorema central del límite.
Tiene una forma en forma de campana, y viene caracterizada por únicamente dos
valores: la media y la varianza.
DISTRIBUCIÓN T STUDENT Distribución teórica de probabilidad. Se usa para la
comparación de dos medias en poblaciones independientes y normales
E
ERROR ESTÁNDAR DE LOS RESIDUOS Estadístico de dispersión de los valores
de los residuos después de la regresión.
ESCALA
La distribución de datos puede recogerse en distintas escalas: nominal,
dicotómica, discreta o continua
ESTADÍSTICOS
Son funciones de la muestra. Su valor variará según la muestra, pero nos permite
hacer estimaciones de parámetro poblacionales o construir estadísticos
experimentales para tomar decisiones acerca de la
ESTADÍSTICOS DE CENTRALIZACIÓN Son estadísticos que nos resumen la
información de la muestra dándonos información acerca del valor donde parece
concentrarse la distribución de datos
ESTADÍSTICOS DE DISPERSIÓN
134
Son estadísticos que nos resumen la información de la muestra dándonos
información acerca de la magnitud del alejamiento de la distribución de datos en
relación a un valor central o de concentración de los datos
F
FRECUENCIAS: ABSOLUTAS, RELATIVAS
Las frecuencias absolutas representan el recuento de los valores de una variable
discreta de forma que su suma nos da el tamaño muestral .Las relativas son las
absolutas divididas por el tamaño muestral .Las frecuencias relativas sumarán 1 ó
100 según se expresen en tanto por uno o en tanto por ciento
FUNCIÓN
Función matemática. Expresión que liga dos o mas variables de forma
determinística
H
HISTOGRAMAS
Es un gráfico en forma de barras de una variable continua que se ha discretizado
en intervalos, de forma que la altura de las barras en cada intervalo indica la
frecuencia relativa en éste.
HOMOCEDASTICIDAD
Hipótesis de igualdad de varianzas poblacionales en distintos grupos
I
INDEPENDENCIA
Son datos que no están ligados entre si
L
LIMITES CONFIDENCIALES
Extremos de los intervalos confidenciales
M
MÁXIMO
Es un valor muestral de forma que por encima de este no hay valores muestrales
MEDIANA
Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de
valores muestrales inferiores a ella y un 50% de valores muestrales superiores a
ella.
135
MEDIA
Es una medida de centralización para una variable continua. Se obtiene sumado
todos los valores muestrales y dividiendo por el tamaño muestral
MÍNIMO
Es un valor muestral de forma que por debajo de este no hay valores muestrales
MODA
Es el valor que más se repite en una variable nominal
MODELO
Intento matemático / estadístico para explicar una variable respuesta por medio de
una o más variables explicativas o factores
MUESTRAS
Subgrupos de observaciones de la población de estudio.
N
NIVEL DE CONFIANZA
Se define como 1 menos el nivel de significación. Se suele expresar en tanto por
ciento
NIVEL DE SIGNIFICACIÓN
La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad
de cometer un error de tipo I
O
OBSERVACIÓN
Sinónimo de caso registro e individuo
P
PARÁMETROS
Son valores desconocidos de características de una distribución teórica. El
objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un
intervalo confidencial
PERCENTILES
Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma
que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores
muestrales superiores a éste. Los percentiles 25%, 50%, 75% son el primer,
segundo y tercer cuartil respectivamente
POBLACIONES
Conjunto de individuos de interés. Normalmente no se dispone de información de
toda la población y se recurre a muestras
136
PORCENTAJES
Proporciones expresadas en tanto por ciento
PROBABILIDAD
Asignación de un número entre cero y uno a cada resultado experimental.
PROPORCIÓN
Número de individuos que verifican una condición entre el total del tamaño
muestral. Se puede expresar en tanto por uno o en tanto por cien
PRUEBA CHI CUADRADO
Se utiliza para analizar tablas de contingencia y comparación de proporciones en
datos independientes
PRUEBA DE FISHER
Es la prueba estadística de elección cuando la prueba de chi.cuadrado no puede
ser empleada por tamaño muestral insuficiente.
PRUEBA T DE STUDENT
Se utiliza para la comparación de dos medias de poblaciones independientes y
normales
R
RANGO
Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es
válido en variables continuas. Es una mala traducción de inglés "range". Amplitud
RANGO INTERCUARTILICO
La diferencia entre el percentil 75% y el percentil 25%
RAZÓN DE VEROSIMILITUDES
Combina resultados de varios tests diagnósticos dando una probabilidad de
enfermedad en base a ese conjunto de resultados en forma global
RECTA DE REGRESIÓN
Es el modelo que sirve para explicar una variable respuesta continua en términos
de un único factor o variable explicativa
REGRESIÓN
Técnica estadística que relaciona una variable dependiente (y) con la información
suministrada por otra variable independiente (x).ambas variables deben ser
137
continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple.
Entre las restriciones de la RLS se incluyen:
Los residuos deben ser normales Las observaciones independientes La dispersión
de los residuos debe mantenerse a lo largo de la recta de regresión
REGRESIÓN LINEAL MÚLTIPLE
El modelo de regresión lineal múltiple sirve para explicar una variable respuesta
continua en términos de varios factores o variables explicativas continuas
S
SECTORES CIRCULARES
Forma de representación en forma de tarta de variables discretas nominales
SENSIBILIDAD DE UN TEST DIAGNÓSTICO
Representa la probabilidad de que un individuo esté enfermo habiendo dado
positivo en el test diagnóstico
SESGO
La diferencia entre el valor del parámetro y su valor esperado. También se utiliza
en contraposición de aleatorio, así una muestra sesgada es no aleatoria
SIMETRÍA
Es una medida que refleja si los valores muestrales se extienden o no de igual
forma a ambos lados de la media.
SUMATORIO
Estadístico descriptivo que suma los valores numéricos de los datos muestrales de
distribuciones continuas
T
TABLAS DE CONTINGENCIA
Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos
que pertenecen a cada combinación de los posibles niveles de estas variables
TAMAÑO MUESTRAL
Número de individuos u observaciones que componen la muestra
U
UNIDAD
Concepto primario relacionado con los componentes elementales de las muestras
estadísticas. Sinónimo, pero no esencialmente idéntico, de caso , observación ,
registro o individuo
138
UNIVERSO
Conjunto infinito de elementos o unidades generado por un modelo teórico.
Conjunto real de todos los elemento que comparten unas condiciones de admisión
en el conjunto
VALORES NUMÉRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su
naturaleza puede ser nominal, dicotómica, ordinal o continua
V
VALORES NUMÉRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su
naturaleza puede ser nominal, dicotómica, ordinal o continua
VARIABLE
Objeto matemático que puede tomar diferentes valores. Generalmente asociado a
propiedades o características de las unidades de la muestra. Lo contrario de
variable es constante.
VARIABLE ALEATORIA
Variable cuyo resultado varía según la muestra según una distribución de
probabilidad.
VARIABLE CONTINUA
Aquella que puede tomar una infinidad de valores, de forma que dados dos
valores cualesquiera, también pueda tomar cualquier valor entre dichos valores
VARIABLE DISCRETA
Variable que toma un número finito o infinito de valores, de forma que no cubre
todos los posibles valores numéricos entre dos dados, en contraposición de las
continuas
VARIABLES
Describen características en las observaciones realizadas
VARIANZA
Característica de una muestra o población que cuantifica su dispersión o
variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz
cuadrada positiva es la desviación típica. La varianza muestral es un estimador
sesgado de la varianza poblacional

Más contenido relacionado

PPTX
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
DOCX
Ejercicios y problemas resueltos
PPTX
TABLA DE FRECUENCIAS - VARIABLE CUANTITATIVAS
PDF
Estadistica (1)
DOCX
Documento estadistica Graficos Estaisticos
PDF
Activus book 61 - Estadísticas básicas para la Gestión
PDF
TECNOLOGÍA ESTADÍSTICA.pdf
DOCX
ESTADISTICA CALCULOS
UNIDAD # 1. TEMA 5. Construcción de gráficas..pptx
Ejercicios y problemas resueltos
TABLA DE FRECUENCIAS - VARIABLE CUANTITATIVAS
Estadistica (1)
Documento estadistica Graficos Estaisticos
Activus book 61 - Estadísticas básicas para la Gestión
TECNOLOGÍA ESTADÍSTICA.pdf
ESTADISTICA CALCULOS

Similar a Dosier (20)

PDF
Trabajo de tecnologia
PDF
Trabajo de tecnología excel avanzado.pdf
PDF
Trabajo de tecnología liceo departamental
DOCX
Trabajo de tecnología sobre el Excel avanzado métodos estadísticos
PDF
Trabajo de tecnología excel avanzado:métodos estadísticos
PDF
Trabajo investigativo de Excel avanzado: métodos estadísticos
PDF
Estadistica
PDF
Estadistica
DOCX
212064 91 fase 2
PDF
Probabilidad y estadistica
DOCX
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
PDF
Trabajo diagrama de pareto (1).pdf
PDF
Caly prod lic 4a_u04
DOC
Capitulo 1. estadistica ciencia y datos
DOCX
Trabajo de tecnologia.docx
PDF
METODOS ESTADISTICOS3.pdf
PPTX
Clase multivaariado 01
Trabajo de tecnologia
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología liceo departamental
Trabajo de tecnología sobre el Excel avanzado métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo investigativo de Excel avanzado: métodos estadísticos
Estadistica
Estadistica
212064 91 fase 2
Probabilidad y estadistica
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
Trabajo diagrama de pareto (1).pdf
Caly prod lic 4a_u04
Capitulo 1. estadistica ciencia y datos
Trabajo de tecnologia.docx
METODOS ESTADISTICOS3.pdf
Clase multivaariado 01
Publicidad

Dosier

  • 1. 0 Universidad Salesiana de Bolivia Ingeniería de Sistemas DOSSIER DOSSIER TÉCNICASDE ESTUDIO DOCENTE: Lic. Rita R. Torrico DOSSIER DOSSIER PROBABILIDAD Y ESTADÍSTICA DOCENTE: Lic. Rolando Saúl Flores Lovera II- 2013
  • 2. 1 TÉCNICASDE ESTUDIO ÍNDICE PRESENTACIÓN UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA 1.1 Introducción…………………………………………………………………………..5 1.2 Historia de la estadística…..…………………………………………......………...6 1.3 Definición de estadística……………………………………………………………7 1.4 Clasificación de la estadística……………………………………………………...7 1.5 Fuentes de datos estadísticos……………………………………………………...8 1.6 Procedimiento para recolectar datos……..……………………...........................9 1.6.1Observación…………………………………………………………………9 1.6.2 La encuesta………………………………………………………………..10 1.6.3 Consideraciones generales para la elaboración del formulario……...11 1.6.4 Requisitos de un instrumento de medición…………………..…………12 1.7 Parámetro y estadígrafo… …………………………………...…………………...12 1.8 Etapas del método científico y estadístico…..………………………………......13 1.8.1 Etapas del método estadístico…………………………………………..13 1.9 Población y muestra ………………………………………………………………..16 UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO 2.1Tabulación…………………………………………………………………………….22 2.2 ¿Qué es una distribución de frecuencia?.........................................................22 2.3 El elemento clase de la distribución de frecuencia………………………………23 2.3.1 Frecuencia de clase……………………………………………………….23 2.3.2 Distribución de frecuencia o tabla de frecuencia………………………23 2.3.3 Datos agrupados…………………………………………………………..23 2.3.4 Intervalos de clase y límites de clase…………………………………...23 2.3.5 Fronteras de clase……………………………………………………...…24 2.3.6 Tamaño o amplitud de un intervalo…………………………………..…24 2.3.7 Marca de clase…………………………………………………………….24 2.3.8 Rango………………………………………………………………………25 2.4 Reglas generales para construir distribución de frecuencias………………….25 2.5 Frecuencia absoluta simple………………………………………………………..26. 2.6 Frecuencia relativa…………………………………………………………………..27 2.7 Representación gráfica de variables cuantitativas………………………………28 2.8 Representación gráfica de variables cualitativas………………………………..32 UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS 3.1 Concepto de variable cualitativa…………………………………………………..36 3.2 Razón…………………………………………………………………………………38
  • 3. 2 3.3. Proporción…………………………………………………………………………..39 3.4 Porcentajes………………………………………………………………………….40 3.5 Tasas…………………………………………………………………………………41 UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS 4.1 Concepto de variable cuantitativa………………………………………………...43 4.2 Medidas de tendencia central……………………………………………………..45 4.2.1 Tipos de promedio………………………………………………….46 4.2.2 Media aritmética – datos no agrupados…………………………46 4.2.3 Media aritmética – datos agrupados…………………………..…47 4.2.4 Propiedades de la media aritmética………………………………48 4.2.5 Media ponderada……………………………………………………51 4.2.6 Mediana………………………………………………………………52 4.2.7 Cuartiles………………………………………………………………55 4.2.8 Deciles………………………………………………………………..57 4.2.9 Percentiles……………………………………………………………58 4.2.10 La moda………………………………………………………….....59 4.2.11 Relación entre la media, mediana y moda……………………...62 4.2.12 Encogimiento entre la media, mediana y la moda……………..63 4.2.13 Media geométrica………………………………………………….63 4.2.14 Media armónica……………………………………………………66 4.2.15 Media cuadrática…………………………………………………..67 4.3 Medidas de dispersión o concentración………………………………………….67 4.3.1 Recorrido de la variable…………………………………………….69 4.3.2 Recorrido intercuartilitico……………………………………………69 4.3.3 Recorrido semi-cuartilitico…………………………………………..70 4.3.4 Desviación media o promedio……………………………………..70 4.3.5 Varianza y Desviación estándar…………………………………..72 4.4 Medidas de dispersión relativa…………………………………………………….77 4.4.1 Coeficiente de Variación……………………………………………78 4.4.2 Momentos………..…………………………………………………..79 4.5 Medidas de asimetría………………………………..……………………………..81 4.5.1 Coeficientes de asimetría………………………………………….82 4.6 Medidas de curtosis…………………………………………………………………83 UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL 5.1 Introducción…………………………………………………………………………..85 5.2 Representación de la información mediante tablas bidimensionales…………86 5.2.1 Distribuciones marginales………………………………………….88 5.2.2 Propiedades de la frecuencia……………………………………...91 5.2.3 Medias y Varianzas marginales……………………………………92 5.3 Distribuciones condicionales……………………………………………………….94 5.4 Medidas de dependencia entre variables nominales……………………………95 5.4.1 Independencia de variables………………………………………..96 5.4.2 Diagrama de dispersión o nubes de puntos…………………….100 5.5 Nociones de correlación y regresión lineal……………………………………...101 5.5.1 Cálculo del coeficiente de correlación…………………………..103 5.5.2 Regresión…………………………………………………………..104
  • 4. 3 UNIDAD VI ANÁLISIS COMBINATORIO 6.1 Introducción…………………………………………………………………………108 6.2 Principios básicos del proceso de contar……………………………………….109 6.3 Arreglos……………………………………………………………………………..110 6.3.1 Arreglos simples…………………………………………………..110 6.3.2 Arreglos con repetición…………………………………………...111 6.4 Permutaciones……………………………………………………………………..111 6.4.1Permutaciones simples……………………………………………111 6.4.2 Permutaciones circulares………………………………………...112 6.4.3 Permutaciones con repetición…………………………………...113 6.5 Combinaciones…………………………………………………………………….114 LECTURAS COMPLEMENTARIAS…………………………………………………120 PRÁCTICAS………………………………………………………………………….…120 BIBLIOGRAFÍA………………………………………………………………………..130 GLOSARIO…………………………………………………………………………..…130
  • 5. 4 PRESENTACIÓN El presente Dossier ha sido realizado como un instrumento de apoyo en la asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a cabo una investigación, desde la recolección, clasificación, análisis e interpretación de los datos. Así mismo este documento se divide en seis unidades. La primera aborda los conceptos fundamentales de estadística y las etapas del método estadístico que consisten en una serie de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Una vez expuestas las características generales de la estadística, en la unidad dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al concepto fundamental de frecuencia. Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables cualitativas y para ello se considera: razón, proporción, porcentajes y tasas. A continuación, la unidad cuatro procede al análisis descriptivo de las variables cuantitativas a través de las medidas de tendencia central y de dispersión, que sintetizan la información sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores que separan a los datos en grupos significativos. Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir, se analizan al mismo tiempo dos variables de cada elemento de la población. Estas variables pueden ser cuantitativas o cualitativas; para ello se desarrollarán un conjunto de técnicas que permitan describir las relaciones que ligan a esas dos variables o atributos, para establecer el grado de dependencia o asociación entre ellos, así como para estimar a una de éstas a partir del comportamiento de la otra. Finalmente la unidad seis desarrolla los principios para determinar el número de combinaciones de elementos de un conjunto finito, que es fundamental para establecer la tradicional conexión entre combinatoria y probabilidad.
  • 6. 5 1.1 Introducción ¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia, ¡La Variabilidad! que es la característica más relevante de todos los seres vivos. Se interpreta como las diferencias existentes entre individuos de un mismo grupo aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o más de una de las siguientes causas. a. El medio ambiente o efecto ecológico. b. La herencia o efecto genético. La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica los efectos de la primera a través de los métodos que se fundamentan en la matemática, la experimentación y la observación. Esta no puede estudiarse en un
  • 7. 6 solo individuo, la formulación de un problema estadístico requiere de la presencia de un grupo de ellos, mejor si es un conjunto numeroso. Originalmente estadística derivó del vocablo “estado” ¿Por qué? Porque la función tradicional de los gobiernos centrales es y ha sido llevar la cuenta de la cantidad de:  Habitantes  Nacimientos  Defunciones  Empleo  Desempleo  Empresas  Costo de la vida  Etc. Aunque se tiene muchos años de experiencia en la recolección de este tipo de información, se continúa presentando complicaciones y oportunidades para la contribución científica en lo que respecta a: recolectar procesar interpretar Hoy en día muchas actividades están relacionadas con la estadística y muchas ocupaciones implican el uso del método científico. 1.2 Historia de la Estadística La Estadística, tal como se la definió, se fundamenta en el cálculo de probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se denomina Estadística Matemática en oposición a la Estadística Estatal, cuya misión es el registro de las estadísticas de los estados: población, empleo, consumo, etc. La estadística estatal se remonta a las primeras civilizaciones conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en el siglo XIX. Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel (1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc). Genera muchas clases de datos numéricos Eficientemente tales datos
  • 8. 7 Las leyes de reaparición del carácter en cuestión y su transmisión fueron publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el nombre de Leyes de Mendel. A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la investigación de problemas sociales y educativos. Francis Galton fue el que promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson, Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño tamaño. Hoy en día, es la principal herramienta metodológica en toda investigación de cualquier ciencia. 1.3 Definición de estadística es la que proporciona destinados a los para la 1.4 Clasificación de la estadística De acuerdo a la anterior definición la estadística se clasifica en:  Estadística descriptiva.- ESTADÍSTIC A Recolecta r datos Clasificar datos Prestar datos Tablas Análisis descriptiv o CIENCIA MÉTODOS PROCEDIMIENTO S CLASIFICAR ANALIZARRECOLECTA R INTERPRETA R DATOS TOMA DE DECISIONES
  • 9. 8 Es otras palabras podemos expresar que un estudio estadístico se considera “descriptivo” cuando sólo se pretende analizar y describir los datos.  Estadística Inferencial.- Proporciona la teoría necesaria para inferir o estimar las leyes de una población partiendo de los resultados o conclusiones del análisis de una muestra que atañen a una población y como estas conclusiones nunca pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de incertidumbre o probabilidad.  Modelización Estadística.- Tiene por objetivo manejar la información para formar modelos aplicados a la realidad con capacidad para predecir. Trata de establecer relaciones lineales o no entre variables ajustándose a hipótesis probabilísticas. El insumo importante es proporcionado por muestras. 1.5 Fuentes de Datos Estadísticos Son los lugares donde se obtienen informes, resúmenes, hechos, acontecimientos. Fuente Primaria Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo, es decir se puede hablar u observar directamente a ese individuo o presenciar el acontecimiento. Fuente Secundaria Es el documento que recoge en forma exhaustiva las características de la persona y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o simplemente sus características como el sexo, color de la piel, ojos, peso, estatura. Son conocidos también como fuentes secundarias los lugares donde estos documentos se encuentran almacenados como ser: Registro Civil, Instituto Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que guardan los documentos antes citados. También pueden considerarse en esta fuente, los registros como son: tarjetas de ingreso de una institución, partes de asistencia, planillas de sueldos, Balances Gráficas
  • 10. 9 diarios, semestrales y anuales de los bancos, pólizas de importación, registros de la precipitación pluvial, etc. Fuente Terciaria Son documentos que procesan la información de la fuente primaria o de la secundaria, ubicando características similares, organizadas y presentadas al investigador, en un boletín que puede ser de una plana. Con mayor razón serían fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro tipo de publicación que presenta datos procesados. Diseños Experimentales Generan información como respuesta a estudios en los que el investigador esta en posibilidades de controlar variables independientes, buscando relaciones puras. Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en parcelas de iguales características de suelo que reciben 4 concentraciones de fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4 fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por criterio propio o experiencia de otros, elige el terreno, decide las profundidades de sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de acción. 1.6 Procedimiento para Recolectar Datos Es necesario determinar el método de recolección de datos y tipo de instrumento que se utilizará siendo esto la base para etapas siguientes.  Método.- Es el medio o camino a través del cual se establece la relación entre el investigador y el consultado para la recolección de datos y el logro de los objetivos; se citan la entrevista, la observación y el cuestionario.  Instrumento.- Es el mecanismo que utiliza el investigador para recolectar y registrar la información; entre estos se encuentran los formularios, las pruebas psicológicas, las escalas de opinión y de actitudes, las listas u hojas de control y otros. 1.6.1 Observación
  • 11. 10 Es el registro visual de lo que ocurre en una situación real, clasificando y consignando los acontecimientos pertinentes de acuerdo con algún esquema previsto y según el problema que se estudia. Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones. Como método de recolección de datos, debe ser planificado cuidadosamente para que reúna los requisitos de validez y confiabilidad. También Quinteros comenta que “las condiciones de una investigación pueden ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta los posibles errores de la observación”. Estos errores están relacionados con:  Los observadores.  El instrumento utilizado para la observación.  El fenómeno observado. 1.6.2 La Encuesta Este método consiste en obtener información de los sujetos de estudio, proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay dos maneras de obtener información con este método: la entrevista y el cuestionario. La Entrevista Es la comunicación interpersonal establecida entre el investigador y el sujeto de estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el problema propuesto. Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que tienen alguna limitación física u orgánica que les dificulte proporcionar una respuesta escrita. Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y en el mismo orden a cada uno de los participantes, quienes deben escoger la respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el investigador tiene limitada libertad para formular preguntas independientes generadas por la interacción personal. Algunas ventajas que presenta este tipo de entrevista son:  La información es más fácil de procesar, simplificando el análisis comparativo.  El entrevistador no necesita ser entrenado arduamente en la técnica.  Hay uniformidad en el tipo de información obtenida.
  • 12. 11 Pero también tiene desventajas, tales como:  Es difícil obtener información confidencial.  Se limita la posibilidad de profundizar en un tema que emerja durante la entrevista. La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la investigación rigen a las preguntas; su contenido, orden, profundidad y formulación se encuentran por entero en manos del entrevistador. Es muy útil en los estudios descriptivos y en las fases de exploración para el diseño del instrumento de recolección de datos. Las ventajas de este método son:  Es adaptable y susceptible de aplicarse a toda clase de sujetos en situaciones diversas.  Permite profundizar en los temas de interés.  Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas. Entre sus desventajas se cita:  Se requiere más tiempo.  Es más costoso por la inversión de tiempo de los entrevistadores.  Se dificulta la tabulación de los datos.  Se requiere mucha habilidad técnica para obtener la información y mayor conocimiento del tema. Cuestionario Es el método que utiliza un instrumento o formulario impreso, destinado a obtener respuestas sobre el problema en estudio y que el investigador o consultado llena por sí mismo. Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad para proporcionar información sobre un número mayor de personas en un período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar los datos. Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información no puede variar ni profundizarse; si el cuestionario se envía por correo se corre el riesgo de que no llegue al destinatario o no se obtenga respuesta de los encuestados; además, resulta difícil obtener una alta tasa de compleción del cuestionario. Debido a esta posible pérdida de información se recomienda que se seleccione una muestra más grande de sujetos de estudio. 1.6.3 Consideraciones generales para la elaboración del formulario Si el investigador decide utilizar la observación regulada, la entrevista o el cuestionario u otra fuente de información secundaria como método de recolección de datos, debe elaborar un instrumento para obtener la información que requiere,
  • 13. 12 siendo el formulario el que se emplea con más frecuencia. Para diseñar correctamente un formulario es necesario considerar algunos criterios relacionados con su organización, las preguntas a plantear según los objetivos propuestos en la investigación y las características físicas de los formularios. 1.6.4 Requisitos de un instrumento de medición Las características de relevancia de los instrumentos de medición son:  Confiabilidad  Validez El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos o mediciones que correspondan a la realidad que se pretende conocer, o sea, la exactitud de la medición, así como a la consistencia o estabilidad de la medición en diferentes momentos. Se dice que el instrumento es confiable si se obtienen medidas o datos que representen el valor real de la variable que se está midiendo y si estos datos o medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos ocasiones diferentes, o al ser aplicados por diferentes personas. La validez es entendida como el grado en que un instrumento logra medir lo que se pretende medir. 1.7 Parámetro y estadígrafo Parámetro  Medida que describe alguna característica de una población.  Se necesita utilizar la información de la población completa.  Las decisiones se toman con certidumbre total. Las más usadas son: i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional Estadígrafo  Medida que describe alguna característica de la muestra.  La toma de decisiones contiene un grado de incertidumbre. Las más usadas son: i) Media muestral ii) Proporción muestral iii) Varianza muestral
  • 14. 13 1.8 Etapas del método científico y estadístico La estadística ha tenido su origen paralelamente a la investigación comprendiéndose éste último concepto como el desarrollo sistematizado de la curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir se analizan las partes para llegar a un todo, el de deducción que inicia en el todo hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de conocimientos o método científico tiene los siguientes pasos:  Observación del fenómeno  Formulación de una hipótesis  Verificación de la hipótesis 1.8.1 Etapas del método estadístico De acuerdo con el orden de aplicaciones de la estadística a un problema determinado, los métodos estadísticos se dividen en 4 etapas: 1. Planificación del estudio Tiene por finalidad estudiar los detalles concernientes a la recolección, clasificación y análisis de la información, en base a la cual se describen las características de una determinada población o se confirmará o negará determinada hipótesis de trabajo. Se esquematiza la planificación en los siguientes pasos: Primer Paso: Planteamiento del problema El planteamiento del problema responde a la delimitación y jerarquización del tema, lo que justifica el porqué se lo está investigando. Además debe ser delimitado en base al tiempo y el espacio, es decir en que lapso de tiempo, y en que límites geográficos ha de ser observado. Asimismo debe ser jerarquizado en base a tres criterios de magnitud, trascendencia y vulnerabilidad, es decir: Definir la naturaleza e importancia del problema que se estudia.- Naturaleza explicar ¿qué vamos a estudiar? Importancia cuantificar su extensión ¿por qué se va estudiar? Segundo Paso: Elaboración del Marco Teórico
  • 15. 14 El marco teórico proporciona los conocimientos del tema que se está investigando, en este acápite se detallan las definiciones y explicaciones pre-existentes, asimismo anteriores investigaciones y sobre todo las aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo. Proporciona información a través de una adecuada bibliografía, posibilita familiarizarse con el tema, preparando el terreno de conocimientos para acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se plantearan, el análisis de los datos, de las técnicas de investigación que se utilizarán y el resultado obtenido a partir del cual se emitirán las conclusiones y recomendaciones respectivas. Tercer Paso: Determinación de objetivos a) Objetivo general explicar para que se realiza la investigación b) Objetivos específicos explicar cómo se realizará la investigación Cuarto Paso: Formulación y Verificación de hipótesis Hipótesis es una afirmación que está sujeta a verificación.  Se trata de probar una hipótesis de trabajo.  Su formulación debe hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerán de la hipótesis que se trata de probar. La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se consideran 2 aspectos: a) Diseños de la Investigación  Estudiar por adelantado cada una se sus diferentes etapas, recolección, organización, y análisis de los datos.  Determinar de antemano todo lo concerniente a las observaciones que se harán  El número de individuos que se estudiará  El procedimiento a utilizar en su selección  Investigar cuidadosamente si existen factores éticos  Época en que hará el estudio  Tiempo que durará  Gastos que determinará  Seleccionar y entrenar el personal que va colaborar
  • 16. 15  Definir la unidad que se observa, con el fin de incluir la totalidad de los individuos que presentan las características que se estudia y excluir aquellos que no las presentan  Definir lo que se va observar, para que todos los individuos sean estudiados uniformemente.  Hacer un balance de los recursos que se dispone y los que se necesitarán para ejecutar la investigación conforme lo planeado. b) Ejecución de la Investigación Es la recolección, clasificación y análisis de la información recogida, etapas que debe realizar de acuerdo a lo planificado. 2. Recolección de la información Está en función a las características del problema abordado y dependiendo de la determinación de la población a ser estudiada, se tienen dos maneras de realizar un estudio de la población:  En forma exhaustiva, global, total, completa, que significa estudiar todos y cada uno de los integrantes de la población, siendo el resultado un reflejo real y exacto de ella.  Mediante una muestra representativa de la población, que tiene las mismas características cuantitativas y cualitativas de la población total o universo, proporcionando los mismos datos que se obtiene al estudiar al total de la población. Por otra parte se debe considerar, la información que se va a recoger y la precisión con la que debe ser obtenida, ello dependiendo del propósito de la investigación y del material estudiado, siendo conveniente limitarse a recoger tan sólo aquella información que va a utilizarse. Los principales puntos que deben considerarse al recoger de la información son: a) Los errores que pueden cometerse en la recolección de los datos y la manera de controlarse b) Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la información
  • 17. 16 c) Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección. d) El diseño de los formularios que servirán para registrar la información que se recoja. 3. Tabulación, análisis e interpretación de los resultados Tabular es contar y ordenar la información recabada, ello a partir de la confección de cuadros, gráficos, y toda ayuda posible para poder luego analizar la información disponible. En el Análisis mediante formulas estadísticas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales promedio. En Interpretación se explica el sentido de todos los datos obtenidos. 4. Conclusiones y recomendaciones Ejecutado el estudio, se considera si fue realizado conforme se había planificado y con los resultados a la vista se concluirá si la hipótesis a sido verificada o no, emitiéndose las conclusiones y recomendaciones pertinentes. 5. Presentación de resultados Es la última actividad del proceso de investigación en la cual se dan a conocer los resultados y con ello se estará contribuyendo a incrementar los conocimientos existentes sobre el tema en estudio y se permitirá la aplicación de las soluciones encontradas a los problemas que motivaron la investigación. 1.9 Población y Muestra Población o Universo La totalidad de individuos o elementos en los cuales puede presentarse determinada característica susceptible de ser estudiada
  • 18. 17 Ejemplos: a) Población de ventas anuales de los supermercados de La Paz. b) Población de todos los posibles resultados cara y sello que se obtiene al arrojar una moneda un número indefinido de veces. c) Población de puntajes de rendimiento en la lectura de todos los alumnos del nivel primario es un sistema escolar. La población puede ser finita o infinita, dependiendo del número de elementos que la conforman. Población finita, es aquella que tiene un número determinado de elementos. Población infinita, es aquella que tiene un número infinito de elementos. Muestra Al número de electos de la muestra se denomina “tamaño de la muestra”. Se llama unidad estadística o individuo a cada uno de los elementos que componen la población estadística. El individuo es un ente observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto. La investigación a partir de una muestra tiene muchas ventajas, entre las que se destacan las siguientes:  Permite que el estudio se realice en menos tiempo.  Se incurre en menos gastos.  Posibilita profundizar en las variables.  Permite tener mayor control de las variables a estudiar. Parte o subconjunto de la población al cual se tiene acceso y sobre el que se realizan las observaciones (mediciones).  Debe ser “representativa”  Estar formada por miembros “seleccionados” de la población (individuos, unidades experimentales).
  • 19. 18 Dato estadístico Son números o medidas que han sido recopiladas como resultado de observaciones, que pueden ser comparadas, analizados e interpretados. Un número aislado que no puede compararse o que no muestre relación significativa con otros números no es un dato estadístico. Tipos de Muestreo Son técnicas o procedimientos que aseguran la representatividad muestral para que las unidades sean seleccionadas al azar; según la ley de probabilidades, al escoger la muestra al azar se puede tener casi la certeza de que esa muestra será representativa. Según Pardinas, el muestreo consiste en: Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo efectivamente posee las características del universo y de la población que estamos estudiando. TIPOS DE MUESTREO No ProbabilísticoProbabilístico Aleatorio simple Estratificado Sistemático Conglomerado Por conveniencia Por cuotas Accidental
  • 20. 19 Muestreo probabilístico Aleatorio simple.- Para que un muestreo sea aleatorio es requisito que todos y cada uno de los elementos de la población tengan la misma probabilidad de ser seleccionados. Existen varias modalidades, una de ellas es el procedimiento de tipo “sorteo” o “rifa” (por Ejemplo, colocando en un recipiente fichas o papeles que contengan nombre o números que correspondan a cada unidad del universo). Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este método es más rápido y práctico Estratificado.- Este término proviene de la palabra “estrato” se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar los resultados. El número de elementos que deberá tomarse de cada estrato se determina proporcionalmente, según la cantidad de unidades que integra cada estrato y en base a la totalidad de la población muestral. Sistemático.- Es similar al aleatorio simple, en donde cada unidad del universo tiene igual probabilidad de ser seleccionada, variando en el proceso de selección de la muestra. Las etapas que deben seguirse son las siguientes: o Determine el número de unidades que conformará su muestra (n). o Asegúrese de la cantidad que integra su población y que todas las unidades estén enumeradas. o Calcule el ”número de selección sistemática”.
  • 21. 20 𝑁 𝑛 = 500 100 = 5 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 o Determine la unidad muestral por la que se iniciará la selección de la muestra; se puede hacer al azar o por sorteo, definiendo de esas 5 primeras unidades la cifra por la cual se iniciará la selección. o Proceda a conformar la muestra; si al realizar el sorteo le resulta el número 4 y dado que el “número de selección sistemática” es 5, la primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente hasta completar los 100 elementos. Conglomerado.- Se utiliza cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy compleja elaborarla. Se le denomina así debido a que en la selección de la muestra en lugar de escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los que se llama “conglomerados”.
  • 22. 21 Se tiende a creer que es lo mismo que el estratificado, ambos se diferencian en que en el primero los subconjuntos se dan en la vida real o ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de industrias, bloques de casas y otros. En el de estratos el investigador decide las agrupaciones que utilizará según la posible variabilidad de los fenómenos a estudiar. Otra diferencia es que en el de estratos el investigador conoce la distribución de la variable, no así en el de conglomerado. El proceso se inicia definiendo los conglomerados, después se seleccionan los subconjuntos a estudiar (o sea que se realiza un muestreo de conglomerado); de estos seleccionados se procede a hacer el listado de las unidades que componen cada conglomerado, continuando posteriormente
  • 23. 22 con la selección de las unidades que integrarán la muestra, siguiendo alguno de los métodos aleatorios indicados. Muestreo no probabilístico Se caracteriza porque el investigador selecciona su muestra siguiendo algunos criterios identificados para los fines del estudio que le interesa realizar. Por conveniencia o intencional.- En el que el investigador decide, según sus objetivos, los elementos que integrarán la muestra, considerando aquellas unidades supuestamente “típicas” de la población que desea conocer. Por cuotas.- Consiste en que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El paso inicial consiste en determinar la cantidad o “cuota” de sujetos de estudio a incluirse y que poseen las características indicadas; un Ejemplo de esto son las encuestas de opinión pública, en las que los encuestadores proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin preocuparse por áreas geográficas, zonas u otro criterio. Accidental.- Consiste en aprovechar o utilizar para el estudio las personas disponibles en un momento dado según lo que interese estudiar. Éste es el menos eficiente.
  • 24. 23 2.1 Tabulación La palabra tabular significa expresar u ordenar unos datos en forma de tablas. El proceso de tabulación consiste en el recuento de los datos que están contenidos en los cuestionarios. En este proceso incluimos todas aquellas operaciones encaminadas a la obtención de resultados numéricos relativos a los temas de estudio que se tratan en los cuestionarios. Se requiere una previa codificación de las respuestas obtenidas en los cuestionarios. Realizamos tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que expliquen las relaciones existentes entre las diversas variables analizadas. Esta presentación se adecuará a la petición de nuestros clientes mediante análisis estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes, análisis multivariantes, tests de contraste de hipótesis 2.2 ¿Qué es una distribución de frecuencia? Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías.
  • 25. 24 2.3 El elemento clase de la distribución de frecuencia. 2.3.1 Frecuencia de clase Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos distribuidos en clases o categorías, determinando el número de individuos que pertenecen a cada categoría. Estatura (pulg) Número de estudiantes 60 - 62 63 - 65 66 - 68 69 - 71 72 - 74 5 18 42 27 8 Total 100 2.3.2 Distribución de frecuencia o tabla de frecuencia Se conoce como distribución de frecuencias o tablas de frecuencias a una disposición tabular de los datos por clases con su correspondiente frecuencias de clase. 2.3.3 Datos agrupados A los datos así organizados y reunidos, como en la anterior distribución de frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara, además de que se obtienen relacionados evidentes. 2.3.4 Intervalos de clase y límites de clase Intervalo de clase Símbolo que define una clase Ejemplo: 60 - 62 , 72 - 74
  • 26. 25 límite inferior límite superior Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase inferior o superior se le llama intervalos abierto. Ejemplo: 65 años o más 2.3.5 Fronteras de clase En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5 pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites verdaderos de clase. De aquí: 59.5 es la frontera inferior de clase 62.5 es la frontera superior de clase 2.3.6 Tamaño o amplitud de un intervalo Es la diferencia entre las fronteras de clase inferior y superior. Si todos los intervalos de una distribución de frecuencias son de las misma amplitud, a esta amplitud común se la denota por c. Ejemplo: 62.5 - 59.5 = 3 65.5 – 62.5 = 3 2.3.7 Marca de clase La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de la clase. De este modo: Del ejemplo anterior tenemos el intervalo 60 - 62 Marca de la clase: (60 + 62)/2 = 61 La marca de clase es, en definitiva, el valor que representa a la información contenida en el intervalo. 2.3.8 Rango Es la diferencia entre el número mayor y el número menor de os datos sueltos.
  • 27. 26 Ejemplo: Supongamos que las alturas de plantas, en una clase de botánica son las siguientes: 64 73 68 68 76 70 62 67 71 69 68 60 65 68 66 68 67 71 66 72 Luego el rango de estos datos es: R = 76 – 60 = 16 2.4 Reglas generales para construir distribución de frecuencias 1. Determinación del Rango.- Es conveniente primero determinar el rango de los datos obtenidos. 2. Determinación del número de clase.- Cosiste en dividir el rango en un número conveniente de intervalos de clase, generalmente del mismo tamaño. Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se tengan, más intervalos de clase deben considerarse. No hay fórmula exacta para calcular el número de intervalos de clase. Este número es determinado por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en cuenta lo siguiente: a) Número de clases = K = 5, si n = tamaño de la muestra <= 5 y K = √n , si n > 20 b) Fórmula de Sturges: K = 1 + 3.22 log(n) Cuando los resultados para obtener K en a) y b) son números reales con decimales, entonces se redondearán al entero inmediato mayor. 3. Determinación del tamaño de los intervalos.- Como regla general para encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango de las observaciones entre el número de intervalos de clase, esto es, Amplitud de clase = C = R/K. 4. Determinación de los límites de la clase.- Se debe tomar el resultado numérico más bajo de los datos originales como el límite inferior del primer intervalo de clase. Agregar C para obtener el límite superior de dicha clase. 5. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase.
  • 28. 27 Técnicas de recuento El proceso manual de recuento se puede hacer por: 2.5 Frecuencia absoluta simple Frecuencia absoluta de un dato (fi) Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al número de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas. Ejemplo Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para este propósito, se elige una muestra representativa de 50 matrimonios de ella se obtienen los siguientes datos: 2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3 , 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1 x i f i 0 4 1 9 2 12 3 10 4 8 5 4 6 2 7 1 Frecuencia absoluta acumulada de un dato (Fi) La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas desde la primera fila hasta la fila elegida.
  • 29. 28 Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen 2 o más hijos. x i f i F i 0 4 4 1 9 13 2 12 25 3 10 35 4 8 43 5 4 47 6 2 49 7 1 50 2.6 Frecuencia relativa Frecuencia relativa de un dato ( hi ) La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número total de datos ( n ). hi = fi /n En nuestro ejemplo: x i f i F i h i 0 4 4 0,08 1 9 13 0,18 2 12 25 0,24 3 10 35 0,20 4 8 43 0,16 5 4 47 0,08 6 2 49 0,04 7 1 50 0,02 Frecuencia relativa acumulada de un dato ( Hi ) La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada ( F i ) y el número total de datos ( n ). En nuestro ejemplo: x i f i F i h i H i 0 4 4 0,08 0,08 1 9 13 0,18 0,26 2 12 25 0,24 0,50
  • 30. 29 3 10 35 0,20 0,70 4 8 43 0,16 0,86 5 4 47 0,08 0,94 6 2 49 0,04 0,98 7 1 50 0,02 1,00 2.7 Representación grafica de variables cuantitativas Las más usadas son: 1. Diagrama de barras. Esta forma de representación gráfica es propia de las distribuciones que tienen muchas observaciones pero pocos valores distintos de la variables. Dicho diagrama se elabora colocando en el eje de las abscisas los distintos valores de la variable y sobre cada una de ellas se levanta una línea perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho valor.
  • 31. 30 2. Histogramas. Es una representación gráfica de una distribución de frecuencia agrupaciones en intervalos de clase, mediante una serie de rectángulos contiguos que tienen: a) Sus bases sobre un eje horizontal (eje de las X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. b) Las alturas proporcionales a la frecuencia (absoluta o relativa) tomados sobre el eje de las Y. A veces conviene más graficar en el histograma las frecuencias relativas en lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe tenerse es que el área total del histograma sea igual a 1, correspondiente a la suma total de áreas de cada rectángulo. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso. Puntajes X frecuencia absoluta Marca de Clase 11 – 17 6 14 17 – 23 4 20 23 – 29 15 26 29 – 35 13 32 35 – 41 1 38 41 – 47 1 44 Total 40
  • 32. 31 3. Polígono de frecuencia a) Si la variable es discreta, el polígono de frecuencia se obtienen uniendo los extremos superiores de las barra en el diagrama de barras
  • 33. 32 b) Si la variable está agrupada en intervalos de clase, el polígono de frecuencia se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo en el histograma. 4. Polígono de frecuencia acumuladas u ojiva Esta representación es válida para variables estadísticas agrupadas en intervalo clase. En el eje de las abscisas representamos los distintos intervalos de clase que han de estar naturalmente traslapados. En el extremo superior de cada
  • 34. 33 intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y relativa) acumulada, luego se unen los extremos superiores de las verticales con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia acumuladas absolutas alcanzará su máxima altura en el último intervalo. 2.8 Representación de variables cualitativas a) Diagrama de rectángulos o de Barras Se representa en el eje de las abscisas los distintos caracteres cualitativos y se levantan sobre ellos rectángulos de bases iguales que no tiene porque estar traslapados y cuya altura será igual a la frecuencia absoluta correspondiente. Ejemplo: FACULTAD NUMERO DE ALUMNOS Ingeniería Metalúrgica 200 Economía 1500 Ingeniería Industrial 3000 Contabilidad 800 Derecho 700 Ciencias de la Comunicación 900 Ingeniería de Sistemas 400 Ciencias Administrativas 600
  • 35. 34 Ejemplo: Causa del Accidente Sexo Total Masculino Femenino Accidentesde transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 TOTAL 2444 779 3223
  • 36. 35 b) Diagramas de sectores o Gráfico Sectorial Es una representación de un conjunto de datos estadísticos, en un círculo, por medio de sectores circulares. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Causa del Accidente Sexo Total Masculino Femenino Accidentesde transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 TOTAL 2444 779 3223
  • 37. 36 c) Pictogramas Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele indicar. ¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más plantaciones?
  • 38. 37 Una variable estadística es una característica de la población que interesa al investigador y que puede tomar diferentes valores. La variables estadísticas generalmente se denotan con las letras x, y, z, etc. Ejemplo Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores cuando se observan diferentes individuos. Importante: Si los valores numéricos que toma una variable, provienen de factores fortuitos (accidental) y si un determinado valor no se puede predecir exactamente con anticipación, esa variable se denomina “variable aleatoria”. 3.1 Concepto de Variable Cualitativa Sus valores consisten en categorías de clasificación, o sea se refiere a las cualidades que presenta la población, no lleva clasificación numérica. Se refieren a propiedades de los objetos en estudio, sean éstos animados o inanimados. Lo que determina que una variable sea cualitativa es el hecho de que no puede ser medida en términos de la cantidad de la propiedad presente, sino que sólo se determina la presencia o ausencia de ella. Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se consideran cualitativas en vista de que no se les puede asignar mayor o menor peso a las diferentes categorías; lo único que se puede hacer es clasificarlas.
  • 39. 38 A su vez estas variables puede clasificarse en:  Variable Cualitativa Nominal.- Surge cuando se definen categorías y se cuenta el número de observaciones pertinentes a cada categoría y no lleva ninguna ordenación en las posibles modalidades. Ejemplo:  Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus casos en términos del grado que poseen una determinada característica. Es decir se clasifican los objetos, hechos o fenómenos en forma jerárquica según el grado que posea una característica determinada, sin proporcionar información sobre la magnitud de las diferencias entre los casos así clasificados. Ejemplo Variable Categorías Estado marital Soltero Casado Divorciado Viudo Unión libre Orientación en el tiempo Presente Pasado Futuro Color de ojos Castaños Azules Negros, etc. Partidos políticos UN MAS MSM, etc. Variable Categorías Clase social Alta, media, baja. Nota de un examen Excelente, bueno, malo, pésimo Puesto en una prueba deportiva 1o, 2o, 3º,... Medallas en una prueba deportiva Oro, Plata, Bronce
  • 40. 39 3.2 Razón La Razón es el cociente de dos cantidades entre sí, que representan dos variables sujetas a comparación de unidad vs. Unidad. Ejemplo: Se debe determinar que variable será la unidad, es decir el denominador. a) En el caso de que la unidad corresponda a Mujeres, el denominador de las dos variables será el número de las 15 Mujeres, realizándose las operaciones de la siguiente manera: 15/15 = 1 10/15 = 0,67 1 : 0,67 Mujeres : Hombres La interpretación de estas cifras no refiere que por cada mujer atendida se atendió un poco más de la mitad de un hombre, sino que hay menos hombres en la consulta que mujeres. b) Si se decide que la unidad serán los hombres, el planteamiento es: 10/10 = 1 15/10 = 1,5 1 : 1,5 Hombres : Mujeres Se aprecia que hay más mujeres atendidas que hombres. Los resultados nos pueden dar las siguientes variaciones: 1 : 0,67 0,67 : 1 Mujeres : Hombres Hombres : Mujeres 1 : 1,5 1,5 : 1 Hombres : Mujeres Mujeres : Hombres En todos los casos podemos inferir que hay más mujeres, aunque no sabremos cuántas mujeres u hombres hay en el universo estudiado. La razón es aplicada para valorar el crecimiento o la disminución de la población. Atención hospitalaria Mujeres Hombres 15 10 25
  • 41. 40 Ejemplo: En el año 2002, según el Centro Nacional de Epidemiología se declararon los siguientes casos de legionelosis (enfermedad bacteriana ambiental): Comunitario (adquirida en la comunidad) Nosocomial (adquirida en centros de salud) Total Casos Defunciones Casos Defunciones Casos Defunciones 372 9 29 5 401 14 Casos de Legionelosis adquirida en la comunidad / casos de legionelosis nosocomiales 372 / 29 = 12,8 Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios Defunciones por legionelosis comunitario / defunciones por legionelosis nosocomiales 9 / 5 = 1,8 Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por legionelosis comunitario. 3.3 Proporción Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede explicar mejor, si tomamos las cifras del primer ejemplo Total = 25 pacientes Parte = 15 mujeres Parte = 10 hombres La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de los pacientes atendidos. Proporción de mujeres: 15/25 = 0,6 Para el caso de los varones tendremos: Proporción de hombres: 10/25 = 0,4
  • 42. 41 Si observamos en la siguiente tabla las proporciones serán: Mediante estas medidas tenemos idea de la proporción, pero al igual que en las razones, ignoramos cuantas mujeres o varones existen en éste universo. En las proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto una proporción no excede la unidad. Con el segundo ejemplo tendríamos: 3.4 Porcentajes El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con el primer Ejemplo si tenemos las proporciones para mujeres y hombres. Mujeres 0,6 le corresponde 60% Hombres 0,4 le corresponde 40% Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por qué se puede apreciar mejor un 40% que un 0,4%. Atención hospitalaria Sexo Proporción Mujeres 0,6 Hombres 0,4 Total 1,0 Legionelosis Casos Proporción Defunciones Proporción Comunitario 372 0,93 9 0,64 Nosocomial 29 0,07 5 0,36 Total 401 1,00 14 1,00 Atención hospitalaria Sexo Proporción Porcentaje Mujeres 0,6 60% Hombres 0,4 40% Total 1,0 100%
  • 43. 42 3.5 Tasas Esta medida, indicador o número índice es una proporción en la que se relaciona como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos, muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de acuerdo a la magnitud de denominador para hacer comprables las tasas. Las tasas tienen dos características importantes: Tiempo y lugar.  Tiempo.- Es el hecho vital que se estudia durante un año determinado, un mes, semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de Febrero.  Lugar.- Puede ser un país, una provincia, un Departamento, una ciudad o un barrio. Los dos componentes permiten que las tasas puedan ser utilizadas para comparar los hechos vitales entre dos zonas geográficas distintas o similares, así como también entre dos épocas distintas. El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a comparar eventos, casuística, comportamiento entre distintas poblaciones sin importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo abstracción de la cantidad de habitantes, podemos concluir de que en ambos países, el comportamiento de los nacimientos es similar. Ejemplo: Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada en España una población de 41.837.894 personas. a) Tasa de legionelosis en el año 2002 en España 𝐶𝑎𝑠𝑜𝑠 𝑑𝑒 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜) 𝑥 100.000 401 41.837.894 𝑥 100.000 = 0,96
  • 44. 43 Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por cada 100.000 habitantes. b) Tasa de mortalidad por legionelosis en España en 2002 𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜) 𝑥 100.000 14 41.837.894 𝑥 100.000 = 0,033 Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por cada 100.000 habitantes.
  • 45. 44 4.1 Concepto de Variables Cuantitativas Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es, que los valores de los fenómenos se encuentran distribuidos a lo largo de una escala. Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa en doble en edad de una que tiene 25 años. Las variables cuantitativas se clasifican en:  Variables Continuas.- Son aquellas cuya unidad de medición utilizada en la escala puede ser subdividida en forma infinita. Ejemplo: - Estatura de los estudiantes de la U.S.B. Si la unidad de medición es el metro éste puede ser subdividido en centímetros y milímetros. - Nivel de colesterol de ciertos pacientes del hospital Obrero
  • 46. 45  Variables Discontinuas o Discretas.- Son aquellas que pueden tomar solamente un número finito de valores, debido a que la unidad de medición no puede ser fraccionada. Ejemplo: - Número de hijos (los hijos no pueden fraccionarse). - Número de monedas que una persona lleva en su bolsillo. - Número de admisiones en un hospital durante un día determinado. - Número de accidentes automovilísticos que se producen en una ciudad. Sumatorias La suma de los valores de la variable x: nxxx ,...,, 21 , se define mediante la notación  e indica que han de sumarse los elementos de la sucesión desde el subíndice i = 1 hasta el subíndice n, esto es:   n i ni xxxx 1 21 ... Ejemplo:            4 1 6141312111 i i ¡Hazlo tú!   5 1 6 i i Nótese que el elemento típico de la sumatoria es una función únicamente del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del elemento típico, debe considerarse constante.
  • 47. 46 Suponga que se seleccionan n = 5 compañías cerveceras del total en el país. Sus tasas de ganancia, como porcentaje de precio de venta, son respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas cantidades como 2.121 x 8.102 x 4.103 x 1.124 x 3.115 x a) Hallar  5 1i ix b) Hallar 5 5 1 i ix c) Hallar  5 1 2 i ix Propiedades de la Sumatoria 1.   n i nCCCCCC 1 ... , donde C es una constante 2.     n i n i ii xCCx 1 1 3.             n i i n i i n i iiii n i i n i n i iii zyxzyxb yxyxa 111 11 1 ) ) 4.        n i n i iii n i i n i ii yCyxCxCyx 1 1 22 1 2 1 2 4.2 Medidas de tendencia central  Clasificados los datos originales se debe  Calcular un conjunto de indicadores Caracterizan en forma algo mas precisa la distribución que se estudia.  Para esto se dispone de estadígrafos - Representan valores centrales en torno de los cuales se agrupen las observaciones, llamadas usualmente promedios. - Utilidad: análisis y comparación de una distribución.
  • 48. 47 Medida de tendencia central Es un índice de localización central empleado en la descripción de las distribuciones de frecuencias. …también sirve como una base para medir y evaluar valores anormalmente altos o anormalmente bajos (o valores extremos), Características del valor central 1. Debe estar definido en forma objetiva. 2. debe depender de toda la información obtenida en lo posible. 3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de interpretar. 4. Debe ser fácil de calcular. 5. Debe ser estable (no debe se sensible a fluctuaciones). 6. Debe ser adecuado a cálculos algebraicos posteriores. 4.2.1 Tipos de Promedio Los promedios más usuales son: a) La media aritmética o media b) La mediana c) La moda d) La media geométrica e) La media cuadrática f) La media armónica 4.2.2 Media Aritmética – Datos no agrupados Sea nxxx ,...,, 21 , valores de la variable X. La media aritmética simple de X representada por X es dada por: donde n es el tamaño de la muestra o número de elementos del conjunto de observaciones. Ejemplo: n x X n i i  1
  • 49. 48 Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos será de: Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2 4.2.3 Media Aritmética – Datos agrupados Sean kxxx ,...,, 21 valores de la variable X ponderados por sus respectivas frecuencias absolutas: kfff ,...,, 21 . La media de la variable X es dado por: n xf X k i ii  1 o n xh X k i ii  1 donde   k i ifn 1 y khhh ,...,, 21 son las frecuencias relativas respectivas. Ejemplo Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg. xi fi xi fi 54 59 63 64 2 3 4 1 108 177 252 64 Total 10 601
  • 50. 49 kg n xf X k i ii 1.60 10 6011   Ejemplo Clases fi Marca de clase Xi fixi [30,40] 3 35 105 (40,50] 2 45 90 (50,60] 5 55 275 Total 10 470 47 10 4701   n xf X k i ii 4.2.4 Propiedades de la media Aritmética 1. La suma de las desviaciones (diferencias) entre los valores de la variable X y su media aritmética X es ceros, esto es:    0xxf ii 2. Para un conjunto dado de observaciones, la media es única. 3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un valore se modifica, la media aritmética X también se modifica. 4. La suma de los cuadrados de las desviaciones entre los valores de la variable X y de su mediad aritmética X es mínima, esto es:       2 1 2 Bxfxxf ii k i ii , para cualquier constante B 5. Si a los valores de una valores de una variable X se resuma o se le resta una constante C, entonces la media aritmética X quedará aumentada o disminuida en la constante C, esto es:
  • 51. 50 CXYCXY  6. Si fueran multiplicados o divididos los valores de una variable X por una constante C, entonces la media de X, X , quedará multiplicada o dividida por esta constante, esto es: XCYCXY  7. En general, si CXbYCbXY  Ventajas e inconvenientes: - La media aritmética viene expresada en las mismas unidades que la variable. - En su cálculo intervienen todos los valores de la distribución. - Es el centro de gravedad de toda la distribución, representando a todos los valores observados. - Es única. - Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños de la distribución. Ejemplo En una empresa donde los salarios tienen una media de 100000 el sindicato solicita que cada salario X, se transforma en Y, mediante la siguiente. 1005.2  XY El directorio acoge parcialmente la petición rebajando los salarios propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular la media aritmética de la nueva distribución de salarios. Solución Tenemos: 100000X Si   2501001001000005.21005.21005.2  XYXY El salario propuesto por el directorio es:    2250902501009.09.09.0%10  YZYYYZ Luego, la media de la nueva distribución de salarios es: 225090
  • 52. 51 A) Primer proceso abreviado para el calculo de la media Sea tO (el origen de trabajo) el valore más frecuente de la variable de X o que está hacia el centro de la distribución de frecuencias, y sea tii Oxd   ki ,...,2,1 las desviaciones de ix respecto a tO entonces tii Odx  Luego        itiiiii k i ii fOdf n Odf nn xf X 111 B) Segundo proceso abreviado para el de la media Este procedimiento es particularmente útil para ser aplicado cuando los valores de X son grandes y la amplitud de clase constante. Como veremos, el uso de éste proceso nos ofrece rapidez y facilidad en los cálculos. Primer Paso: Se efectúa el cambio de variable de X a  , utilizando la siguiente fórmula: C Ox ti   1) donde: ix =valores de la variable tO = origen de trabajo i =Valores transformados C = amplitud del intervalo de clase Segundo Paso: Cálculo de la mediana X Tenemos: de 1): iti COx  n df OX k i ii t   |
  • 53. 52 Entonces       iitiitiii fCOf n COf n xf n X  111 Por tanto: 4.2.5 Medida Ponderada Hay ocasiones en que se requiere expresar en una sola cifra los resultados de varios grupos de datos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los promedios parciales, sino que es necesario tener en cuenta el numero de observaciones en que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada y es definida como sigue: Sean rXXX ,...,, 21 , las medias aritméticas de r subconjuntos menores, cada uno con rnnn ,...,, 21 observaciones respectivamente. La media aritmética del conjunto formado por los términos de los r subconjuntos es dado por la fórmula: n Xn nnn XnXnXn X r j jj rr p      1 321 2211 ... ... donde:   r i jnn 1 En general, si rppp ,...,, 21 son los pesos asociados a los valores de la variable rxxxX ,...,,: 21 respectivamente, entonces la media ponderada será:           n f COX ii t            n f COX ii t       r i i r i ii p p xp X 1 1
  • 54. 53 Ejemplo: Supongamos que en una ciudad en particular hay dos precios de pan, 0.80 centavos en los supermercados que vende 10000 unidades, y un centavo en las panaderías que venden 1000 unidades. Hallar el promedio ponderado del precio del pan: Solución Tenemos:       8182.0 11000 9000 100010000 100000.11000080.0    pX Por tanto, el precio promedio del pan es de 0.8182. 4.2.6 Mediana La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de observaciones. La notación que vamos a emplear será: En el cálculo de la mediana, podemos considerar los 3 casos siguientes: La variable en estudio es discreta y n (numero de observaciones) es impar. 2 1  n Me Ejemplo: En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los envejecí entes que pueden caminar sin dificultades. Buscar la mediana de las siguientes edades. 69 73 65 70 71 74 60 62 78 Solución Ordenando estos valores de acuerdo a la magnitud que tenemos: 60 62 65 69 70 71 73 74 78 Unidad seleccio nada
  • 55. 54 donde n = 9 entonces 5 2 19 2 1      n Me to,  Me = 70 La edad de 70, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha. La variable en estudio es discreta y n (numero de observaciones) es par. En este caso no, no existe e la ordenación un valor de la variable que ocupe la posición central, esto es, la mediana es indeterminada, pues cualquier valor comprendido entre los valores que ocupan la posición 1 22  n y n Por tanto por convención la mediana es: 2 1 22    nn xx Me Ejemplo Buscar la mediana de los siguientes números: 25 15 28 29 25 26 21 26 Solución Arreglando estos valores en orden creciente tenemos: 15 21 25 25 26 26 28 29 Calculamos los valores que ocupan las posiciones: 1 22  n y n , esto es: to n to n 51 2 8 1 2 4 2 8 2   Luego: 5.25 2 2625 2 1 22       nn xx Me
  • 56. 55 E valor 25.5, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha. La variable es continua. En este caso el problema consiste en determinar un punto dentro del intervalo en que está comprendido la mediana. Procedimiento 1er Paso. Calcular la posición de orden 2 n . Como la variable es continua, no se debe preocuparse si n es par o impar 2do paso. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple: kk F n F  2 1 Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada kF . 3er Paso. Utilizar la fórmula: med kk k med C FF F n lMe *2 1 1                  donde: medl Límite inferior de la clase que contiene a la mediana. n = Tamaño de la muestra. meC Amplitud de la clase que contiene a la mediana. kF Frecuencia acumulada de la clase que contiene la mediana. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la mediana Ejemplo: Clases  45,35  55,45  65,55  75,65  85,75  95,85 if 5 12 18 14 6 3 Ciuda d
  • 57. 56 Hallar la mediana. Solución Clases if iF  45,35 5 5  55,45 12 17  65,55 18 35  75,65 14 49  85,75 6 55  95,85 3 58 Total 58 Paso 1: von 29 2 58 2  posición Paso 2: kk F n F  2 1  352917 32  FF vo Paso 3: 67.6110* 1735 1729 55*2 1 1                           med kk k med C FF F n lMe 4.2.7 Cuartiles Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales. Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superiores a él. Q2 = 2do cuartil, coincide con la mediana Q3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de éstas superiores a él. Calle
  • 58. 57 Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase. Determinación de Q1: 1er Paso: Se calcula 4 n 2do Paso: Se identifica la clase que contiene a Q1 por medio de las frecuencias acumuladas, esto es, por la desigualdad. kk F n F  4 1 3er Paso: Se aplica la fórmula 11 *4 1 1 1 Q kk k Q C FF F n lQ                  o 11 *4 1 1 1 1 Q kk k Q C HH H lQ                  (Cuando se usa frecuencias acumuladas relativas) donde: 1Ql Límite inferior de la clase que contiene a Q1. n = Tamaño de la muestra. 1QC Amplitud de la clase que contiene al primer cuartil. kF Frecuencia acumulada de la clase que contiene al primer cuartil. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene al primer cuartil. Determinación de Q3: 1er Paso: Se calcula 4 3n 2do Paso: Se identifica la clase que contiene a Q3 por medio de las frecuencias acumuladas, esto es, por la desigualdad.
  • 59. 58 jj F n F  4 3 1 3er Paso: Se aplica la fórmula 33 *4 3 1 1 3 Q jj j Q C FF F n lQ                  o 33 *4 3 1 1 3 Q jj j Q C HH H lQ                  (Cuando se usa frecuencias acumuladas relativas) donde: 3Ql Límite inferior de la clase que contiene a Q3. n = Tamaño de la muestra. 3QC Amplitud de la clase que contiene a Q3. jF Frecuencia acumulada de la clase que contiene a Q3. 1jF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Q3. 4.2.8 Deciles Los deciles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en 10 partes iguales. D1 = 1er decil, deja 10% de las observaciones menores o iguales a él. D2 = 2do decil, deja 20% de las observaciones menores o iguales a él . . . . D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él. Edificio Barrios
  • 60. 59 Para determinar los deciles seguimos los siguientes pasos: 1er Paso: Se calcula 4 *ni , donde i = 1,2,…,9 2do Paso: Se identifica la clase que contiene los deciles por medio de las frecuencias acumuladas, esto es, por la desigualdad. kk F ni F  4 * 1 3er Paso: Se aplica la fórmula ii D kk k Di C FF F ni lD *10 * 1 1                  donde: iDl Límite inferior de la clase que contiene a Di, i = 1,2,…,9 n = Tamaño de la muestra. iDC Amplitud de la clase que contiene a Di. kF Frecuencia acumulada de la clase que contiene a Di. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Di. 4.2.9 Percentiles Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales. P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él . . . VARIABLE: CONDUCTOR REFERIDO CATEGORÍAS CÓDIGOS FRECUENCIAS AMT 1 50 LEM 2 88 FGI 3 12 MML 4 3 TOTAL 153 Total
  • 61. 60 P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a él y el 1% superiores a él Para calcular los percentiles se siguen los siguientes pasos: 1er Paso: Se calcula 100 *ni , donde i = 1,2,…,98,99. 2do Paso: Se identifica la clase que contiene los Pi por la frecuencia acumulada, esto es, por la desigualdad. kk F ni F  100 * 1 3er Paso: Se aplica la fórmula ii P kk k Pi C FF F ni lP *100 * 1 1                  donde: iPl Límite inferior de la clase que contiene a Pi, i = 1,2,…,99 n = Tamaño de la muestra. iPC Amplitud de la clase que contiene a Pi. kF Frecuencia acumulada de la clase que contiene a Pi. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Pi. 4.2.10 La Moda Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente de la distribución. Nota.- La moda no siempre existe y no siempre es única Ejemplo Considere los pesos (en kilos) de 9 adultos 82, 65, 59, 74, 60, 67, 71, 73 y 70
  • 62. 61 Estas nueve medidas no definen una moda. Ejemplo Considere la distribución de los pesos de 15 adultos 63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83 El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego la moda de estas observaciones es: Mo = 63 Kilos y Mo = 71 Kilos En este caso la distribución se llamará bimodal. En general, se tiene lo siguiente: i) La distribución que tiene una sola moda se llama unimodal ii) La distribución que tiene dos modas se llama bimodal iii) La distribución que tiene más de dos modas se llama multimodal Propiedades del moda 1) El valor de la moda es totalmente independiente de los valores extremos. 2) La moda es una medida inestable porque varía si se cambia el intervalo de clase. 3) Su significado es imitado cuando no se dispone de un gran número de valores. 4) Es el valor típico y por ello el promedio más descriptivo. 5) La moda no se presta a manipulaciones algebraicas posteriores. Cálculo de la Moda: caso de datos agrupados en intervalos de clase Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el cálculo de la moda. Aquí presentamos dos procesos: 1er Proceso: Fórmula Czuber 1er Paso: Se identifica la clase modal (la clase con mayor frecuencia) 2do Paso: se aplica la fórmula: MoMo ClMo * 21 1          donde:
  • 63. 62 Mol = límite inferior de la clase modal 1 = 1ffMo  ( 1f = frecuencia de la clase inmediatamente anterior a la clase modal) Mof = frecuencia de la clase modal 2 = 2ffMo  ( 2f = frecuencia de la clase inmediatamente posterior a la clase modal) MoC = amplitud de la clase modal Ejemplo Intervalo de clase fi  1,0 3  2,1 10  3,2 17  4,3 8  5,4 5 TOTAL 43 Solución 1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el tercer  3,2 2do Paso.- Aplicando la fórmula: MoMo ClMo * 21 1          1 = 710171  ffMo 1* 97 7 2        Mo 2 = 98172  ffMo 44.2Mo 1MoC 2do Proceso: Determinación gráfica de la moda. En este caso, es necesario construir el histograma de la distribución, identificar la clase modal (aquella clase con mayor altura) y hacer la construcción que a continuación se indica.
  • 64. 63 4.2.11 Relación entre la Media, Mediana y Moda 1. Distribución Simétrica. Se dice que una distribución de frecuencias es simétrica cuando valores de la variable equidistantes de una valor central tienen las mismas frecuencias. Es importante destacar es este caso que. MoMeX  2. Para un distribución sesgada hacia la derecha (si la cola mayor se presenta a la derecha de la curva) MoMeX  Para una distribución sesgada hacia la izquierda tenemos: MoMeX  TareaTar ea
  • 65. 64 4.2.12 Encogimiento entre la Media, Mediana y la Moda. De las tres medidas de posición central, la media aritmética suele ser más frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en muchas ocasiones la mediana o la moda resultan de mayor interés. a. La media aritmética como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a cualquier otra medida de resumen. b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo de hospitalización, de 5 niños con gastroenteritis fuera respectivamente 2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de la enfermedad, hace aparecer la permanencia en el hospital mucho más larga de lo que generalmente es. El promedio: 9 5 45 5 306432   X días, es engañoso, pero en cambio la mediana, que es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos, dando una impresión más acorde con lo usual. Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales la primera o la última clase no tienen limites precisos. Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre la media aritmética, pues su valor depende solamente del número de términos sin tomar en cuenta los valores numéricos de estos. c. La moda no es una medida de tendencia central muy usual, pero se emplea cuando el interés se centra en conocer el valor que se presenta más frecuentemente. Por ejemplo en los negocios, sirve para determinar qué tamaño del producto es el de mayor demanda. Similarmente para programar la producción de un medicamento el fabricante estará interesado en ¿cuál es la dosis más comúnmente recetada por los médicos?. 4.2.13 Media Geométrica Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes,
  • 66. 65 tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula: Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera.     n xf n xfxfxf GX k n ii kk G     10 1021021101 1010 log log...loglog loglog Luego,               n xf AntiGX k n ii G 10log .log Ejemplo: Calcule la media geométrica de las observaciones maestrales: 3, 6, 12, 24, 48 Solución Propiedades de la media geométrica  Si se define una variable y x z i i i G G G y x Z   Es única  Utiliza todos los elementos  Sólo se puede calcular con variables cuantitativas positivas 1224883248*24*12*6*3**** 55 21 21  n f k ff G k xxxX n f k ff G k xxxX **** 21 21
  • 67. 66  Su logaritmo es la media aritmética de la variable log X  Es el centro de gravedad de la distribución en términos multiplicativos  Es más robusta que la media a valores grandes pero no a los pequeños y siempre toma valores mas pequeños que la media aritmética  No es invariante por cambios de origen y escala  Es útil para promediar tasas, porcentajes, tipos de interés y, en general, en todas aquellas situaciones en las que la variable analizada presente variaciones acumulativas En demografía, para estimar la población de una determinada localidad en un año t, cuando se supone crecimiento geométrico entre dos censos, se usa la fórmula: Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es la población en el segundo censo, realizado en la fecha t1 y Px es la población que se quiere determinar en la fecha tx. Si se quiere determinar la población en el centro de período  10 ,tt esto es, para 222 01 0 01 0 01 tt t tt tt tt t xx       Luego, 10 2/1 0 1 0 01 0 2 1 pp p p pp tt tt x x          esto es, xp es la media geométrica de 0p y 1p Ejemplo: Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a 8 millones. ¿Cuál es la población media del período?
  • 68. 67 Solución: Aplicando la última fórmula para Px tenemos 21.78*5.610  pppx 4.2.14 Media Armónica Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas f1,f2,…,fk respectivamente. La media armónica de X es dado por:     k i i i k k H x f n x f x f x f n HX 12 2 1 1 ... Donde: n =  k i if 1 Esta media, como la media geométrica, solo es aplicable a ciertos tipos de problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es ó próximo a cero no se puede calcular Ejemplo: Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los 10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media durante todo el trayecto. Solución A primera vista muchos pensarían que la velocidad media sería igual a 45 2 6030   X km/h . Sin embargo, al recordar que la velocidad definida como la distancia total recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir que el resultado anterior incorrecto. A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10 kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una velocidad media de:
  • 69. 68 40 5.0 2  km/h Este resultado puede ser obtenido directamente calculando media armónica entre las dos velocidades. Así tenemos: hkmH /40 3 120 30 3 2 60 1 30 1 2    Propiedades de la media armónica  La media armónica se basa en todas las observaciones por lo que está afectada por todos los valores de la variable. Da a los valores extremadamente grandes un peso menor que el que les da la media geométrica, mientras que a los valores pequeños les da un peso mayor que el que les da tanto la media aritmética como la media geométrica.  La media armónica esta indeterminada si alguno de los valores es cero, pues hallar el recíproco de cero implica dividir entre cero, lo cual no es válido. La media armónica está rígidamente definida y siempre es definitiva, excepto cuando uno de los valores es cero.  La media armónica es el promedio que se ha de usar, cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones.  La media armónica se presta a manipulaciones algebraicas posteriores  XGH  , siempre que se trate de lamisca serie y cuando los términos son iguales. 4.2.15 Media Cuadrática Cuando se observa una distribución hay veces que no nos interesa tener en cuenta la influencia del signo de los valores de la variable. Es típico en el caso de los errores, ya que el error es error tanto en más como en menos. Este problema se resuelve utilizando la media cuadrática.                 n xf n xfxfxf X k i ii kk c 1 2 22 22 2 11 ... 2 5
  • 70. 69 4.3 Medidas de dispersión o concentración En las secciones precedentes, se ha centrado la atención en un método básico para describir un conjunto de datos, el promedio que resume los da tos en un solo valor. En este aparado se describiremos otras medidas estadísticas necesarias para mostrar como varían los datos alrededor del promedio, ya que esta variación es a veces tan importante como el mismo promedio. Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me- dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite concluir que la situación económica de las dos ciudades es la misma?. Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central de una distribución, no es suficiente para su completa caracterización. El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso puede ser traducido diciendo que en A los ingresos no varían de individuo a individuo, o sea, la distribución de los ingresos no presentan variabilidad. Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede ser expresado diciendo que en B los ingresos varían o que la distribución de ingresos presentan variabilidad. Así tenemos la siguiente definición. Definición Las medidas de dispersión son los que cuantifican el grado de concentración o de dispersión de los valores de la variable en torno de un promedio o valor central de la distribución. Las medí das de dispersión se necesitan para dos propósitos básicos: a) Para verificar la confiabilidad de los promedios y b) Para que sirva come base para el control de la variación misma. También podemos decir que los términos concentración y dispersión pueden ser utilizados indistintamente, pues se da la relación. alta dispersión  baja concentración baja dispersión  alta concentración Las medidas de dispersión que se utilizan con mayor frecuencia son:
  • 71. 70 1) Recorrido o rango 2) Recorrido Intercuartilico 3) Recorrido semi-intercuartilico 4) Desviación media 5) Varianza y desviación estándar 4.3.1 Recorrido de la Variable El recorrido de una variable estadística es simplemente la diferencia entre su valor máximo y su valor mínimo y se denota por: R = máx {X} - mín {X} Desventaja La utilización del rango como medida de dispersión es muy limitado, si bien brinda una primera idea acerca de la heterogeneidad de los datos, tiene el inconveniente que sólo toma en cuenta los valores extremos descuidando el conjunto de valores intermedios. Puede suceder que uno de los valores extremos esté accidentalmente desplazado y no constituye por tanto un valor representativo; en este caso el recorrido sería exagerado y la dispersión aparecería distorsionado. Ejemplo Serie 1: 1 5 7 7 8 9 9 10 17 Serie 2: 2 4 6 8 10 12 14 16 18 Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. 4.3.2 Recorrido Intercuartilico Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces la medida dada por: 13 QQQI  llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.
  • 72. 71 Desventaja Si bien es cierto que este indicador representa un adelanto respecto del rango, sin embargo, también depende de dos valores de la variable, dejando de lado el resto, y en consecuencia la influencia de valores extremos puede, aunque en menor medida, originar algún tipo de deformación en cuanto al grado de dispersión. 4.3.3 Recorrido Semi-Intercuartilico Esta medida, que se basa en la posición ocupada por los 50% de los valores centrales de la distribución, es dada por: 2 13 QQ Q IS   4.3.4 Desviación Media o Promedio En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que llamaremos desviación media. Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética de la distribución, y de indica así: n xx DM i   Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la diferencia de cada valor de la variable con la media es en más o en menos. Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin agrupar. Ejemplo: Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores.
  • 73. 72 x xx  x 2 -3 3 2 3 3 4 -1 1 4 -1 1 4 -1 1 5 0 0 6 1 1 7 2 2 8 3 3 8 3 3 DM = 1,8 Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos. n xf DM ii donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes. Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir, n xxf DM mi   )( Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa: Clase fi 16-20 2 20-24 8 24-28 8 28-32 18 32-36 20 36-40 18 40-44 15 44-48 8 48-52 3
  • 74. 73 veamos cómo se procede: Clase fi xm ni * xm xx  fi  xx  16-20 2 18 36 16,72 33,44 20-24 8 22 176 24-28 8 28-32 18 32-36 20 36-40 18 40-44 18 44-48 8 48-52 3 100 DM = 6,09 Propiedades de la Desviación Media 1. Como medida de dispersión, la desviación media es superior al recorrido y la desviación cuartílica, pues toma en cuenta cada elemento, y es más simple y se ve menos afectada por la presencia de valores extremos. Por lo tanto, se usa a menudo en muestras pequeñas que incluyen valores extremos. 2. La principal deficiencia de la desviación promedio surge del hecho de que promedia los valores absolutos de las desviaciones, esto es, que no reconoce el signo de las desviaciones. Esto hace que sea menos conveniente que la desviación estándar (que se describirá en la siguiente apartado) cuando se requiere una medida de dispersión para ser usada en cálculos posteriores. 4.3.5 Varianza y Desviación Estándar Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk, respectivamente. La varianza muestral de x es dado por:     1 1 2 2     n Xxf SXVar k i ii
  • 75. 74 Fórmula alternativa     n Xxf SXVar k i ii   1 2 2 Si S2 = 0, entendemos que todos los xi coinciden con la media X , esto es, todas las observaciones están concentradas en un mismo punto, por lo que la dispersión es mínima (nula). La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza.   1 1     n Xxf k i ii  El valor numérico de  cuantifica el grado de dispersión de los valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación estándar. Propiedades de la Varianza y Desviación Estándar 1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0 2. Var[X ± C] = Var[X] 3. Var[CX] = C2 Var[X] , C constante 4. Var[CX+b] = C2 Var[X] , C constante 5. Sean 1X y 2X las medias de dos submuestras de tamaño n1 y n2 respectivamente y sean 2 1S y 2 2S las varianzas correspondientes. La varianza de la muestra de tamaño n = n1 + n2 es dada por:         2 22 2 11 2 22 2 11 2 11 1 1 pp XXnXXnSnSn n S    donde pX es la media ponderada de 1X y 2X
  • 76. 75 6. El hecho de que la desviación estándar es matemáticamente lógica significa que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta característica es la que da a la desviación estándar su gran superioridad sobre las demás medidas de dispersión. 7. La desviación estándar es de la misma naturaleza que la variable X y depende de su magnitud. 8. Para distribuciones simétricas resulta que: a) El 68.27% de los casos están comprendidos entre X - S y X + S. b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto es aproximadamente 95% de los casos están situados dentro de dos unidades de desviación estándar de la media. c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S
  • 77. 76 A) Primer método abreviado Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza y desviación típica, podemos usar las fórmulas.           222 1 1 Xnxf n S ii y           22 1 1 Xnxf n ii Ejemplo Calcular la varianza y la desviación estándar de la siguiente distribución muestral. xi 5 7 8 9 11 fi 2 3 5 4 2 Solución Completando la distribución de frecuencias tenemos. xi fi fi xi fi xi 2 5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 TOTAL 16 129 1083 Aplicando las fórmulas respectivas se tiene: 1.8 16 1291   n xf X k i ii     22.224.33 15 1 76.10491083 15 1 1 1 222           Xnxf n S ii Entonces 49.122.2 
  • 78. 77 b) Segundo método abreviado Sea tO (origen de trabajo) el valor más frecuente de la variable X o que está hacia el centro de la distribución de frecuencias, y sea: tii Oxd   ki ,...,2,1 las desviaciones de xi respecto a tO . Entonces se tiene: tii Odx  Luego:                            k i k i iiiitti k i i k i ii dndf n ddf n dOOdf nn Xxf S 1 2 1 222 1 1 2 2 1 1 1 1 1 1 1 Por tanto:           k i ii dndf n S 1 22 1 1 y           k i ii dndf n 1 22 1 1  c) Tercer método abreviado Este procedimiento es particularmente usado cuando los datos agrupados en distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para calcular la varianza por este método se siguen los siguientes: Primer Paso. Se efectúa el cambio de variable de X a  , utilizando la fórmula: C Ox ti   dO n df OX t k i ii t  |
  • 79. 78 Tarea donde: ix =valores de la variable tO = origen de trabajo i =Valores transformados C = amplitud del intervalo de clase Segundo Paso Se calcula la media aritmética X , usando la fórmula   CO n f COX t k i ii t               1 Tercer Paso Se calcula la varianza S2:           22 2 2 1  nf n C S ii y           22 1 1  nf n C ii Dada la distribución de frecuencias de 150 personas según su edad, calcule la desviación estándar. Edad  30,20  40,30  50,40  60,50  70,60 N° de personas 15 22 48 40 25 4.4 Medidas de Dispersión Relativa Las medidas de dispersión que se han descrito en la sección anterior se expresan en las unidades originales de medida, tales como estaturas, kilos, etc. Se pueden utilizar para comparar la variación de dos distribuciones siempre que las variables se expresen en las mismas unidades de medida y sean aproximadamente del mismo tamaño promedio. Sin embargo, a veces es necesario comparar dos conjuntos de datos expresados en unidades diferentes (tales como toneladas de azúcar y metros cúbicos de kerosene). En estos casos las medidas de dispersión
  • 80. 79 absoluta no son comparables y deben utilizar utilizarse medidas de dispersión relativa. La medida relativa de dispersión, útil para la comparación en términos relativos del grado de concentración en torno a la media de dos distribuciones distintas es dado por el coeficiente de Variación. 4.4.1 Coeficiente de Variación Coeficiente de Variación = C.V = X S Algunas veces se llama coeficiente de dispersión porque "coeficiente" significa una razón o un número puro independiente de la unidad de medición. Generalmente el coeficiente de variación se expresa como un porcentaje. En la práctica, se acostumbra considerar que C.V. superior a 50% indica alto grado de dispersión y, consecuentemente, pequeña representatividad de la media aritmética. En cuanto para valores inferiores a 50%, la media será tanto más representativa, cuanto menor sea el C.V. Ejemplo: En una empresa, el salario medio de los hombres es de 4000 con una desviación estándar de 1500, y el de las mujeres es un promedio de 3000 con desviación estándar de 1200. Hallar el coeficiente de variación de los salarios de los hombres y mujeres. Solución Aplicando la fórmula de coeficiente de variación tenemos Para hombres: C.V = 375.0 4000 1500  X S Para hombres: C.V = 375.0 4000 1500  X S Para hombres: C.V = 37.5% Para mujeres: C.V. = 40%
  • 81. 80 4.4.2 Momentos Sean x1,x2,…,xk valores de la variable X, asociados a las frecuencias absolutas f1,f2,…,fk, respectivamente. El momento de orden r respecto al parámetro C es dado por:            k i i rk i ii r fn n Cxf CM 1 1 , En particular nos interesan dos casos: A) Momentos de respecto al origen Cuando C = 0 se tiene los momentos respecto al origen denotado por      k i i rk i i r fn n xf M 1 1' , B) Momentos respecto a la media En el caso en que C = X tenemos los momentos respecto a la media o momentos centrales          k i i r i k i i r fn n Xxf M 1 1 , Algunos momentos particulares son:   1,1 0 1 0 1 0 ' 0      n Xxf M n xf M i k i i k i ii
  • 82. 81   0, 1 1 1' 1      n Xxf MX n xf M i k i i k i ii   2 2 1 2 1 2 ' 2 , S n Xxf M n xf M i k i i k i ii      Siempre se pueden encontrar relaciones que liguen los momentos centrales con los momentos respecto al origen. Para esto bastará usar el binomio de Newton. Ejemplo: En una clínica infantil se han anotado, durante un mes, el número de metros que el niño anda, seguido y sin cesar, el primer día que comienza a caminar. Obteniéndose así la tabla de información adjunta. Número de niños 2 6 10 5 10 3 2 2 Número de metros 1 2 3 4 5 6 7 8 Se pide: a) Momentos respecto al origen de primero, segundo y tercer orden. b) Momentos centrales de orden primero y tercero Solución Para hallar los momentos hacemos los cálculos en la siguiente tabla
  • 83. 82 4.5 Medidas de Asimetría Hay ocasiones en que es deseable calcular una medida que muestre la dirección de la dispersión con respecto al centro de la distribución. Las medidas de dispersión solamente indican la magnitud de las variaciones, pero no proveen información acerca de la dirección hacia donde tienden a ocurrir las variaciones. Las medidas asimétricas indican la deformación horizontal de las curvas de frecuencias. Cuando la curva de frecuencia está inclinada o alargada hacia la derecha (Ver fig. 1), se llama a la derecha o positiva, y si está alargada o inclinada hacia el lado izquierdo (Ver fig. 2), se denomina asimetría a la izquierda o negativa.
  • 84. 83 fig 1 fig. 2 4.5.1Coeficientes de Asimetría Cuando disponemos de los valores de la media, moda, mediana, cuartiles y desviación estándar debemos utilizar: I) Primer Coeficiente de Pearson Si AS = 0, la distribución es simétrica Si AS > 0, la distribución es sesgada hacia la derecha Si AS < 0, la distribución es sesgada hacia el lado izquierdo Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones unimodales. II) Segundo Coeficiente de Pearson Este coeficiente, generalmente se usa cuando no se puede calcular la media y la desviación estándar III) Coeficientes de asimetría de Fisher Este coeficiente es dado por: 13 13 2 QQ MeQQ AS      3 1 3 3 nS Xxf S M A k i ii S       MeXMoX estándarDesviación ModaMedia AS       3
  • 85. 84 4.6 Medidas de Curtosis. Se entiende por curtosis el grado de deformación vertical (apuntamiento) de una distribución de frecuencias. Con relación al grado de apuntamiento, podemos tener las siguientes curvas. Para el grado de apuntamiento (deformación vertical) utilizaremos el coeficiente denotado por:  1090 13 2 PP QQ K    donde: P90 = percentil 90; Q1 = primer cuartil P10 = percentil 10; Q3 = tercer cuatil Si K = 0.263, diremos que la curva correspondiente a la distribución de frecuencias es mesocúrtica (tiene igual apuntamiento que el anormal o campana de Gaus).
  • 86. 85 Si K > 0.263, diremos que la curva correspondiente a la distribución de frecuencias es platicúrtica. Si K < 0.263, diremos que la curva correspondiente a la distribución de frecuencias es leptocúrtica.
  • 87. 86 5.1 Introducción Hasta ahora, hemos visto como organizar y resumir informaciones corres- pondientes a una única característica o variable de una población. Sin embargo, en la práctica muchas veces estamos interesados en analizar el comportamiento conjunto de dos o más variables. Aquí consideraremos aquellas situaciones en las que el investigador realiza la observación simultánea de dos caracteres en el individuo, obteniéndose, de esta manera, pares de resultados. Tal es el caso, de observar en una persona su peso y su altura. Los distintos valores que pueden adoptar estos caracteres en estudio forman un conjunto de pares, que denotaremos por (X , Y) , y llamaremos variable estadística bidimensional.  La variable estadística bidimensional (X, Y) puede representar las situaciones siguientes: i) Dos caracteres cualitativos. La educación y región de procedencia de una persona. ii) Dos caracteres cuantitativos. El peso y altura de una persona.
  • 88. 87 iii) Uno cualitativo y el otro cuantitativo . La profesión y la edad de una persona. Si las componentes de la variable bidimensional (X, Y) son caracteres cuantitativas, puede a su vez clasificarse en: a. X discreta e Y discreta. Número de admisiones y número de Médicos en un hospital durante un mes. b. X continua e Y continua. Peso y altura de una persona c. X discreta e Y continua. Número de accidentes automovilísticos que se producen dentro de los límites de una ciudad y la edad del conductor. d. X continua e Y discreta. Estatura del padre de familia y número de hijos Organizando las ideas: 5.2 Representación de la información mediante tablas bidimensionales Sea una población de n individuos donde estudiamos, simultáneamente, dos variables X e Y. Sean x1, x2, . . . ,xk las modalidades de X e y1, y2, . . . , yp las modalidades de Y. La distribución de frecuencias bidimensional de estas dos variables se presenta mediante una tabla de doble entrada
  • 89. 88 X / Y y 1 y 2 ............. ye Total x 1 f11 f12 f1e f1 x 2 f21 f22 f2e f2 : xk fk1 fk2 fki fk Total f1 f2 fe n=   k i j j ijf 1 1 Donde: ijf número de veces que aparece repetido el par (Xi , Yj) y se llama frecuencia absoluta del par (Xi , Yj). if =  e j ijf 1 =total de pares con primera componente Xi (i = 1,…,k) jf =  k j ijf 1 = total de pares con segundo componente Yj (j = 1,…,e) y se llama frecuencia marginal del valor Yj n =   k i j j ijf 1 1 = número total de pares observados Las distribuciones de frecuencias de las variables bidimensionales también pueden ser representadas gráficamente. Al igual que en el caso unidimensional existen diferentes tipos de representaciones gráficas, aunque estas resultan a ser más complicadas
  • 90. 89 5.2.1 Distribuciones Marginales Las distribuciones marginales corresponden al estudio, por separado, de cada una de las dos variables que componen una variable estadística bidimensional. Cada distribución marginal será, por tanto, una distribución unidimensional y, consecuentemente, se le podrá aplicar cualquiera de los resultados estudiados en el tema 3. Distribución marginal X Distribución marginal Y Ejemplo Supongamos que queremos analizar el comportamiento conjunto de las variables: Grado de instrucción (X) y región de procedencia (Y) del os empleados del Ministerio de Agricultura. Los datos están en la siguiente tabla: X Y Primaria Completa Secundaria Completa Superior Total Costa 40 30 20 90 Sierra 35 15 10 60 Selva 30 15 5 50 Total 105 60 35 n = 200  En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos construir tablas con las frecuencias relativas (proporciones), como se hizo en el caso unidimensional. Sin embargo, aquí existen 3 posibilidades de expresar la proporción de elementos de cada celda. i) Con relación al total general y se llama frecuencia relativa. Así la frecuencia relativa correspondiente al par (xi , yj) es dado por: n f h ij ij  X fi x1 f1 x2 f2 . . . . . . xk fk Total   k i ifn 1 Y fj y1 f1 Y2 f2 . . . . . . yk Fe Total   e i jfn 1
  • 91. 90 Las frecuencias relativas marginales de las variables X e Y son dadas, respectivamente. n f h i i  , frecuencia marginal del valor xi n f h j j  , frecuencia marginal del valor yj ii) Con relación al total de cada fila       i ij f f iii) Con relación al total de cada columna         j ij f f De acuerdo con el objetivo de la investigación una de estas proporciones será la más conveniente para ser usada. Ejemplo La distribución conjunta de las proporciones de los datos de la anterior tabla con relación al total de las observaciones (n = 200) está dada por: X Y Primaria Completa Secundaria Completa Superior Total Costa 20% 15% 10% 45% Sierra 17.5% 7.5% 5% 30% Selva 15% 7.5% 2.5% 25% Total 52.5% 30% 17.5% 100% Ejemplo La distribución de las proporciones de los datos de la tabla anterior del ejemplo 1 con relación al total de cada columna esta dado por: X Y Primaria Completa Secundaria Completa Superior Total Costa 38.1% 50% 57.1% 45% Sierra 33.3% 25% 28.6% 30% Selva 28.6% 25% 14.3% 25% Total 100% 100% 100% 100% Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones simultáneas de X e Y. Así observamos que, 40 empleados con primaria completa son de la costa, 30 empleados con secundaria completa son de la costa etc.
  • 92. 91 Los totales de las filas nos dan la distribución marginal de la variable X(grado de instrucción), y los totales de las columnas nos dan la distribución marginal de la variable Y(región de procedencia). En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos construir tablas con las frecuencias relativas (proporciones), como se hizo en el caso unidimensional. Sin embargo, aquí existen 3 posibilidades de expresar la proporción de elementos en cada celda. i) Con relación al total general y se llama frecuencia relativa. Así, la frecuencia relativa correspondiente al par (xi, yj), i = 1,2,…,k y j = 1,2,…,e es dad por: ejki n f h ij ij ...,2,1,,..,2,1,  Las frecuencias relativas marginales de las variables X e Y son dadas, respectivamente por: )ydemarginala(frecuenci,...,2,1, )xdemarginala(frecuenci,..,2,1, j i ej n f h ki n f h j j i i   ii) Con relación al total de cada fila ejki f f i ij ,...,2,1;...,2,1,       iii) Con relación al total de cada columna kiej f f j ij ...,2,1;,...,2,1,          De acuerdo con el objetivo de cada investigación, una de estas proporciones será la más conveniente para ser usada. Ejemplo La distribución de las proporciones (frecuencias relativas) de los datos del ejemplo anterior con relación al total de las observaciones (n = 200) está dado por:
  • 93. 92 X Y Primaria Completa Secundaria Completa Superior Total Costa 20% 15% 10% 45% Sierra 17.5% 7.5% 5% 30% Selva 15% 7.5% 2.5% 25% Total 52% 30% 17.5% 100% Ejemplo La distribución de las proporciones (frecuencias relativas) de los datos del ejemplo anterior con relación al total de cada columna está dado por: X Y Primaria Completa Secundaria Completa Superior Total Costa 38.1% 50% 57.1% 45% Sierra 33.3% 25% 28.6% 30% Selva 28.6% 25% 14.3% 25% Total 100% 100% 100% 100% Este tipo de distribución sirve para comparar la distribución de la procedencia de los individuos conforme a su grado de instrucción. En forma análoga, podemos construir la distribución conjunta de las proporciones con relación al total de cada fila. 5.2.2 Propiedades de la Frecuencia Sea n el número total de pares observados de la variable bidimensional (X, Y). Son de destacar las propiedades siguientes: 1. La suma de las frecuencias absolutas es igual al número de pares observados, esto es:    k i e j ij nf 1 1 2. La suma de las frecuencias relativas es igual a la unidad, es decir: 1* 11 1 1 111 1       n n f nn f h k i k i e j ij e j ij k i e j ij 3.   k i ki nffff 1 21 ... 4.   k ni nffff 1 21 ...
  • 94. 93 5. 11 11    e j j k i i hyh 6.     k i ii k i e j iij xfxf 11 1 7.     e j jj k i e j jij yfyf 11 1 5.2.3 Medias y Varianzas Marginales Sea (         eke yxyxyxyxyx ,,...,,,,,...,,,, 1212121 valores distintos de la variables bidimensional (X, Y), con frecuencia absoluta kefff ,...,, 1211 , respectivamente. Las medidas y varianzas marginales de X e Y son dadas por: n yf y n xf x e j jj k i ii    11 ,     1 S, 1 1 2 2 y 1 2 2         n yyf n xxf S e j jj k i ii x Por tanto las desviaciones típicas marginales de X e Y son:     1 S, 1 1 2 y 1 2         n yyf n xxf S e j jj k i ii x Sea (         eke yxyxyxyxyx ,,...,,,,,...,,,, 1212121 valores distintos de la variables bidimensional (X, Y), con frecuencia absoluta kefff ,...,, 1211 , respectivamente. La covarianza entre las variables X e Y es dado por:      n yyxxf yxCovS k i e j jiij xy     1 1 ,
  • 95. 94 donde    k i e j ijfn 1 1 Formula abreviada de la covarianza:      k i e j jiijxy yxyxf n yxCovS 1 1 1 , Ejemplo Calcula la covarianza de la distribución del número de años de antigüedad en una empresa y el salario diario que tienen 40 trabajadores. Aplica la teoría !!! Calcula la covarianza de la siguiente distribución bidimensional:
  • 96. 95 5.3 Distribuciones condicionales Sean (X , Y) una variable estadística bidimensional tal que el carácter X presenta k modalidades y el carácter Y e modalidades mutuamente excluyentes, esto es: e k yyyY xxxX ,...,,: ,...,,: 21 21 Así, la tabla de frecuencias (tabla de contingencia) para la variable bidimensional es: X / Y y 1 y 2 ............. Yj ………. ye Total x 1 f11 f12 f1j f1e f1 x 2 f21 f22 f2j f2e f2 xi fi1 fi2 fij fie fi : xk fk1 fk2 fkj fki fk Total (frec. marginal f1 f2 fj fe n=   k i j j ijf 1 1
  • 97. 96 La distribución de la variable condicional a que la variable X tome el valor fijo xi está dada en la a continuación Valores de Y y 1 y 2 ............. Yj ………. ye Total Frecuencia absoluta de Y condicional a ixy i xf xX   / fi1 fi2 fij fie fi Frecuencia relativa de Y condicional a ixy i xh xX   / i i f f 1 i i f f 2 i ij f f i ie f f 1 Análogamente, la distribución de la variable X condicional a que la variable Y tome el valor fijo yj está dada por: Valores de X x 1 x 2 ............. Xj ………. Xk Total Frecuencia absoluta de X condicional a jyx i yf yY   / f1j f2j fij fjk fi Frecuencia relativa de X condicional a jyx i yh yY   / j j f f1 j j f f2 j ij f f j kj f f 1 5.4 Medidas de dependencia entre variables nominales Uno de los principales objetivos del estudio de una distribución conjunta, es describir la asociación existente entre las variables en estudio, esto es, queremos conocer el grado de dependencia que existe entre ellas, de modo que podamos predecir mejor el resultado de una de ellas en base a la ocurrencia de la otra. Por ejemplo, si queremos estimar lo renta media de una familia que vive en la ciudad de La Paz, la información adicional sobre la clase social a la que ella pertenece nos permite estimar con mejor precisión esa renta, pues sabemos de la dependencia existente entre las dos variables: Renta familiar (x) y la clase social (Y ).
  • 98. 97 5.4.1 Independencia de Variables Supongamos que la distribución conjunta de la variable X con modalidades kxxx ,...,, 21 y la variable Y con modalidades eyyy ,...,, 21 esta dada en la siguiente tabla: Y X y1 y2 … yj … ye Total x1 f11 f12 … f1j f1e f1 x2 f21 f22 … f2j … f2e f2 . . . . . . . . . . . . . . . . xj fi1 fi2 fij fie fi . . … … … … … … xk fk1 fk2 fkj … fke fk Total f1 f2 … fj … fe  ijfn Definición. Se dice que las variables X e Y son independientes (no asociadas), si en la tabla de contingencia k x e se verifican la igualdad: n ff f ji il   (para todo i=1,2,…., k y j =1,2,….,e) Caso contrario las variables X e Y son dependientes o están asociadas. Ejemplo Verificar si existe o no dependencia entre el sexo y carrera profesional escogida por 400 alumnos de .Economía y Administración de la Universidad. Los datos están dados en la tabla siguiente:
  • 99. 98 TABLA Distribución conjunta de los alumnos según el sexo (x) y carrera escogida (y). Solución Tenemos: Estos resultados parecen indicar que no hay Independencia entre las dos variables. Para aclarar mejor, debemos construir las proporciones según las filas o columnas de la tabla anterior para así poder hacer las comparaciones. Fijando los totales de las columnas, la distribución resultante está en la tabla siguiente. TABLA Distribución conjunta de las proporciones (en porcentajes) de alumnos según sexo (X) y carrera escogida (Y)
  • 100. 99 De esta tabla podemos observar que, independientemente del sexo, 60% de las personas prefieren Economía y 40% Administración. Si no hubiera dependencia entre las variables, esperaríamos las mismas proporciones para cada sexo. Observando en la tabla, vemos que las proporciones están muy próximas a las proporciones totales de las filas, esto es, del sexo masculino 60% prefieren Economía y 40% Administración, del sexo femenino, 59% prefieren Economía y 41% Administración Por tanto, podemos concluir que las variables sexo y carrera profesional tienden a ser independientes. Para descubrir el grado de dependencia entre dos variables, es necesario cuantificaría en un único número. De un modo general, la cuantificación del grado de dependencia de dos variables es dado por las llamadas coeficientes de asociación o correlación. Existen muchas medidas que cuantifican la dependencia entre variables nominales; aquí presentamos solamente una de ellas, llamada coeficiente de contingencia, debido a Karl Pearson. Para definir este coeficiente, Karl Pearson introduce un estadígrafo denotado por (Chi-cuadrado) y dado por: En caso general la expresión es dada por
  • 101. 100 Donde Oij representan las frecuencias observadas (fij) y eij representa las frecuencias esperadas       n ff ji . Es fácil ver que, las dos variables son independientes si = 0 y dependiente si bastante mayor que cero, cuanto mayor sea el valor de chi-cuadrado , mayor será el grado de asociación existente entre las dos variables. Sin embargo, es muy difícil juzgar si la asociación es alta o no, basándose solamente en ch-cuadrado. Por eso, Karl Pearson, propuso el llamado coeficiente de contingencia definido por: nX X C   2 2 Donde n es el número de observaciones. Este coeficiente será siempre un número comprendido entre 0 y 1. si las dos variables son independientes entonces: = 0 , y lo mismo sucede con C. Observación: El uso del estadígrafo chi-cuadrado en tablas de k x e está sujeto, por razones teóricas, a las siguientes restricciones: 1. Para emplear correctamente el estadígrafo chi-cuadrado, es necesario que por lo menos el 80% de las frecuencias esperadas de las distintas modalidades, en el caso de independencia, esto es,       n ff ji sean mayores o iguales que 5 y ninguno menor que 1. 2. Si hay alguna modalidad que tenga una frecuencia esperada menor que cinco, antes de calcular chi-cuadrado, debemos agrupar dos o más modalidades contiguas en una sola hasta lograr la condición anterior.
  • 102. 101 5.4.2 Diagrama de dispersión o nubes de puntos Un diagrama de dispersión es la representación gráfica de los distintos valores de la variable estadística bidimensional (X,Y) en le sistema cartesiano . El diagrama de dispersión representa el grado (intendiad9 y naturaleza (forma) de la relación entre las variables X e Y, si es que existe alguna. Ejemplo En la tabla siguiente se presenta la información obtenida sobe el número de años de servicios (x) y el número de clientes (y) de 5 agentes de una compañía de seguros. TABLA Números de clientes (Y), por número de años de servido (X) de 5 agentes de una compañía de seguros. Agente Años de servicio (X) Número de clientes (Y) A 4 58 B 6 66 C 7 74 D 8 70 E 10 82 Total 35 350 Trazar el diagrama de dispersión de estos datos. Solución Graficando el conjunto de los pares ordenados (X,Y) de la tabla tenemos la figura 3.2.
  • 103. 102 Observando la posición de los puntos en el sistema cartesiano, en la siguiente figura, concluimos que parece que hay una dependencia lineal entre las variables X e Y, pues vemos en el conjunto, que a medida que aumenta el tiempo de servicio, aumenta el número de clientes. 5.5 Nociones de correlación y regresión lineal La covarianza indica cómo es la relación entre dos variables, es decir, cómo se orienta la nube de puntos, pero este parámetro no indica de una forma concreta la medida de esa relación. Para resolver este problema se definen los conceptos de correlación y coeficiente de correlación. Correlación es la relación que existe entre las dos variables que intervienen en una variable bidimensional. a) Correlación funcional: todos los puntos están situados sobre una recta o una curva. Existe una relación funcional entre las variables X e Y Ejemplo El precio de las fotocopias de una copistería es: La función y = 3x da la relación entre las variables. Nº copias: xi 1 2 3 4 5 6 Precio (cts): yi 3 6 9 12 15 18
  • 104. 103 b) Correlación directa: al aumentar una variable aumenta la otra. Ejemplo El número de pedidos que sirve un almacén y el número de vendedores que tiene contratados dicho almacén es: c) Correlación inversa: al aumentar una variable la otra disminuye. Ejemplo El número de gérmenes por cm3 y el tiempo transcurrido con un tratamiento específico es: Nº de vendedores: xi 2 4 5 6 7 9 10 Nº de pedidos: yi 70 90 110 150 170 190 210 Tiempo (h): xi 0 1 2 3 4 5 Nº de gérmenes: yi 55 42 40 35 25 20
  • 105. 104 d) Correlación nula: no existe relación entre las variables. Ejemplo El número de libros vendidos en una librería y la temperatura del día es: 5.5.1 Cálculo del Coeficiente de Correlación. El coeficiente de correlación de Pearson es: yx xy SS S r  Interpretación.- El coeficiente indica la correlación que existe entre las dos variables, es decir, si los puntos están muy próximos o alejados del centro de gravedad. Propiedades del coeficiente de correlación a) El coeficiente es un número. No depende de las unidades en las que están expresadas las variables x e y Temperatura (°C): xi 20 21 22 23 24 25 Nº de libros: yi 10 40 30 15 50 10
  • 106. 105 b) Está comprendido entre – 1 y 1  Si r = – 1 o r = 1, la correlación es perfecta o correlación funcional.  Si r está próximo a – 1 o a 1, la correlación es fuerte.  Si r está próximo a cero, la correlación es débil.  El signo, r > 0 o r < 0, indica si la correlación es directa o inversa, respectivamente. Correlación fuerte Se considera que la correlación es fuerte si |r| > 0,85 Ejemplo Calcula el coeficiente de correlación entre el número de pedidos que sirve un almacén y el número de vendedores que tiene contratados dicho almacén. El coeficiente de correlación es: 982,0 823,48*5897,2 8.124  yx xy SS S r La correlación es fuerte y directa. 5.5.2 Regresión. La ecuación de la recta de regresión de y sobre x es:  xx S S yy x xy  2 La ecuación de la recta de regresión de x sobre y es:  yy S S xx y xy  2 Nº de vendedores: xi 2 4 5 6 7 9 10 Nº de pedidos: yi 70 90 110 150 170 190 210
  • 107. 106 Estas rectas se pueden expresar de la forma y = Bx + A. Las letras A y B son las que usan, generalmente, las calculadoras. Estas rectas se determinan haciendo que se cumplan las siguientes condiciones: a) Tienen que pasar por el centro de gravedad G(x–, y–). b) La suma de los cuadrados de las distancias,  2 id debe ser mínima. Siendo di = y – yi, y ordenada de la recta, yi ordenada de cada punto. Coeficientes de regresión Los coeficientes de regresión son las pendientes de las rectas de regresión: Pendiente de la recta de y sobre x: 2 x xy yx S S m  Pendiente de la recta de x sobre y: 2 y xy xy S S m  Ejemplo Calcula la recta de regresión de la altura sobre el peso en la distribución que se obtiene al estudiar la estatura y el peso de 10 personas. Se tiene: Medias marginales: 5,170,5.72  yx Desviaciones típicas marginales: Sx = 9,55, Sy = 9,6 Covarianza: Sxy = 83,75 Pendiente: 92.0 55,9 65,83 22  x xy S S La recta de regresión de y sobre x es: y – 170,5 = 0,92(x – 72,5) ⇒y = 0,92x + 103,96 Peso (kg): xi 70 65 85 60 70 75 90 80 60 70 Altura (cm): yi 175 160 180 155 165 180 185 175 160 170
  • 108. 107 Estimaciones con la recta de regresión La recta de regresión se ajusta a la nube de puntos y describe, de una forma genérica, su tendencia. Se pueden hacer estimaciones con la recta de regresión sin olvidar que la estimación será fiable siempre que: a) El coeficiente de correlación esté próximo a 1 o a – 1. Es decir, los puntos están muy cerca de la recta. b) Los valores sobre los que se hacen las estimaciones no deben estar muy alejados de los datos utilizados. Ejemplo Se han recogido los datos de la temperatura en °C y la presión en mm en distintas ciudades. Estima la presión que habría para una temperatura de 23°. Si la presión fuese de 830 mm, estima la temperatura. El coeficiente de correlación es: r = 0,98 La correlación es fuerte y directa. Para hacer la estimación se calcula la recta de regresión: y = 6,5x + 675,5 y con ella se calcula el valor de y para x = 23 y = 6,5 · 23 + 675,5 = 825 Es decir, aproximadamente 825 mm de presión. Si y = 830 ⇒830 = 6,5x + 675,5 Se obtiene: x = 23,77 °C Temperatura (°C): xi 18 19 20 18 22 21 Presión (mm): yi 790 800 805 795 820 810
  • 109. 108
  • 110. 109 6.1 Introducción Las técnicas de conteo son aquellas para enumerar los elementos de un conjunto particular o evento, difíciles de cuantificar. Por ejemplo: “El password” de un usuario de un ordenador consiste de ocho (o siete o seis) caracteres. Cada uno de estos caracteres debe ser un dígito decimal o una letra del alfabeto. Cada password debe contener al menos un dígito. ¿Cuántos de éstas claves de acceso diferentes pueden existir? Los problemas de conteo surgen de las matemáticas y de las ciencias de la computación, pero también de otras muchas disciplinas científicas como la química o de situaciones de la actividad cotidiana en la industria, la gestión, etc. Por ejemplo tendremos que contar los resultados positivos de un experimento y enumerar todos los resultados para determinar probabilidades. También necesitaremos contar el número de operaciones realizadas por un algoritmo para analizar su costo computacional.
  • 111. 110 6.2 Principios básicos del proceso de contar Principio de Multiplicación Si un evento puede realizarse de n1 maneras diferentes, y si, continuando el procedimiento, un segundo evento puede realizarse de n2 maneras diferentes, y si, después de efectuado un tercer evento puede realizarse de n3 maneras diferentes, y así sucesivamente, entonces el número de maneras en que los eventos pueden realizarse en el orden indicado es el producto ...321  nnn Escribe todas las palabras de dos letras (que tengan o no-sentido) que empiecen con consonantes y terminen en vocal. ba, be, bi, bo, bu ca, ce, ci, co, cu da, de, di, do, du ... xa, xe, xi, xo, xu za, ze, zi, zo, zu ¿Cuántas de estas palabras escribiste? 21 x 5 = 105 palabras de dos letras que empiezan con constantes y terminan en vocal. Notación Factorial El producto de los enteros positivos desde 1 hasta n inclusive, se emplea con mucha frecuencia en matemáticas y aquí lo denotamos por el símbolo !n (que se lee “n factorial”):     0n;12...321!  nnnn Conviene definir 0! = 1. Ejemplo
  • 112. 111 Principio de Adición Si dos decisiones son mutuamente excluyentes (es decir disjuntos), la primera se puede tomar de m maneras y la segunda de n maneras, entonces una o la otra se puede tomar de m + n maneras. La biblioteca de la USB tiene 40 libros de Base de Datos y 50 de Matemática Discreta. Por la regla de la suma, un estudiante puede elegir entre 40 + 50 = 90 libros para aprender de alguno de estos libros. 6.3 Arreglos 6.3.1 Arreglos simples Un arreglo simple de n objetos diferentes tomados de k en k es una ordenación de k objetos entre los n dados, de tal manera que estos grupos de k elementos difieren en algún elemento o en el orden de colocación. Teorema El número de todos los arreglos a formarse con n objetos tomados de k en k es obtenida por la fórmula.       1...21 ! !    knnnn kn n An k Donde    1.guatda.com/cmx.p2...21!  nnnn y 0! = 1 Ejemplo ¿De cuántas maneras diferentes se pueden sentar 8 persona en una banca, con capacidad para 5 personas? Solución Como n = 8 y k = 5, el número total de maneras diferentes que pueden sentarse 8 personas en una banca, con capacidad para 5 personas es   6720 )!58( !8 !58 !88 5     A Me = Median a
  • 113. 112 6.3.2 Arreglos con Repetición Son aquellos arreglos en que un elemento cualquiera de los dados, puede repetirse en el mismo grupo, el número de veces que se indica. Teorema El número de todos los arreglos con repetición a formarse con n objetos tomados de k en k es obtenido por la fórmula   kn k nAR  Ejemplo: Un ómnibus parte de su paradero inicial con 6 personas a bordo y se detiene en 10 paraderos diferentes. ¿De cuántas maneras pueden bajar las 6 personas en los 10 paraderos, si en unos paraderos pueden bajar cualquier número de personas? Solución La primera persona puede bajar en cualquier de los 10 paraderos, la segunda lo mismo y la sexta de igual forma, entonces, el número total de maneras es:   100000010610 6 AR 6.4 Permutaciones Una ordenación de un conjunto de n objetos en un orden dado se llama una permutación de los objetos (tomados todos a la vez). Una ordenación de un número dichos objetos nr  , en un orden dado se llama una permutación r o una permutación de los n objetos tomados r a la vez. 6.4.1 Permutaciones simples (n objetos tomados todos a la vez) El número de permutaciones que pueden formarse con n objetos distintos está dado por: !nPn  los n objetos tomados todos a la vez
  • 114. 113 Ejemplo: ¿Cuántas permutaciones de 3 elementos se forman con 3 objetos a, b, y c? Solución Tenemos 3 objetos entonces n = 3 Por lo tanto 6!33 P permutaciones En detalle Primera Posición Segunda Posición Tercera Posición A b c B a c B c a C b a C a b A c b 6.4.2 Permutaciones Circulares Son las diferentes permutaciones que pueden formarse con n objetos dados, de modo que no hay ni primero ni último objeto, pues todos se hallan en un círculo cerrado. Para determinar el número de permutaciones circulares que pueden formarse con los n objetos distintos de un conjunto, basta observar que considerando fija la posición de cualquiera de los n objetos, los n-1 restantes podrán cambiar de lugar de (n-1)! formas diferentes tomando todas las posiciones sobre la circunferencia relativa al primer punto. Luego: Ejemplo ¿De cuántas formas diferentes pueden sentarse alrededor de una mesa 6 personas? Si la mesa fuese circular: Caso 1:
  • 115. 114 120!5)!16(16  c P 6.4.3 Permutaciones con Repetición Con frecuencia se desea saber el número de permutaciones de objetos de los cuales algunos son iguales. El número de permutaciones de n objetos de los cuales n1 son iguales, n2 son iguales, ..., nr son iguales es: !...!! ! 321 nnn n  Ejemplo Supongamos que deseamos formar todas las posibles palabras de 5 letras usando las letras empleadas en la palabra DADDY. Existen 5 objetos de los cuales el objeto D se repite 3 veces, el objeto A, 1 vez, el objeto Y una vez. Entonces: n = 5 1,1,3 321  nnn Luego: Se pueden formar 20 palabras diferentes de 5 letras Permutaciones de n Objetos tomados r a la vez El número de permutaciones de n objetos tomados r a al vez lo denotamos por:  rnP , Cuya fórmula es: 20 !1!1!3 !345 !1!1!3 !5         ! ! , rn n rnP   Caso 2:
  • 116. 115 Ejemplo Hallar el número de permutaciones de 6 objetos, a saber, a, b, c, d, e, f, tomados tres a la vez. En otras palabras, hallar el número de “palabras de tres letras diferentes” que pueden formarse con las seis letras mencionadas. Representamos las palabras de tres letras por tres cajas: La primera letra puede escogerse de 6 formas diferentes; luego, la segunda letra se puede escoger de 5 formas diferentes; y después, la última letra se puede escoger de 4 formas diferentes. 120456  posibles palabras de tres letras sin repetición, o hay 120 permutaciones de 6 objetos tomados 3 a la vez. Aplicando la fórmula    ! ! , rn n rnP   tenemos: 6.5 Combinaciones Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos tomados de r a la vez, o una, combinación r, es un subconjunto de r elementos. En otras palabras, una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta. El número de combinaciones de n objetos tomados r a la vez lo denotamos por:  rnC , Cuya fórmula es:    !! ! , rnr n rnC n r         0% 25 % 50 % 75 % 100 % Cas o 3:     120 !3 !3456 !3 !6 !36 !6 3,6     P
  • 117. 116 1;1 0 00             n Ejemplo: Las combinaciones de las letras a, b, c, d tomados 3 a la vez son: A b c A c d A b d B c d Aplicamos la fórmula: Analizando el siguiente esquema: Combinación Permutación a b c abc, acb, cab, cba, bca, bac a c d adc, dac, dca, cda, cad, acd a b d abd, adb, dab, dba, bda, bad b c d bcd, bdc, dbc, dcb, cdb, cbd Combinaciones con repetición Al regresar a casa después de una práctica de carrera en pista, siete estudiantes de bachillerato se detienen en un restaurante de comida rápida, donde cada uno puede comer lo siguiente: - una hamburguesa con queso - un hot dog - un taco - un sándwich de atún ¿Cuántas compras diferentes son posibles? Sean q, h, t y p las hamburguesas con queso, el hot dog, el taco y el sándwich de atún, respectivamente. Aquí nos interesa el número de artículos comprados y no el     4 !1!3 !34 !34!3 !4 3,4 4 3            C
  • 118. 117 orden en que son adquiridos, de modo que el problema es de selecciones o combinaciones con repetición. q q h h t t p q q q q h t P q q q q q q P h t t p p p P t t t t t p P t t t t t t T p p p p p p P El número de combinaciones de r objetos tomados de los n objetos dados, de manera que estos objetos pueden repetirse, está dado por:           1 ,1 rn r rrnC Ejemplo Una pastelería ofrece cinco tipos distintos de pasteles. Si se supone que hay al menos una docena de cada tipo, al entrar en al pastelería, ¿de cuántas formas se podrá seleccionar una docena de pasteles? Solución De los cinco tipos de pasteles se pueden elegir una docena, puesto que cada tipo tiene al menos una docena entonces:   1820 24 13141516 !12!4 !16 12,1125 16 12 1125 12                       C Binomio de Newton Si a y b son números reales diferentes de cero, se puede establecer que: Q1 Q2 Q3
  • 119. 118             543223455 4322344 32233 222 1 0 510105 464 33 2 1 babbababaaba babbabaaba babbaaba bababa baba ba       Los coeficientes en este producto siguen una regla que es mostrada en e siguiente esquema, conocida como el triángulo de pascal.            5 4 3 2 1 0 ba ba ba ba ba ba       1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 .................. Expresando  n ba  en una fórmula a partir de: Sea el símbolo       n r , léase “n C r” (coeficiente combinatoria), donde r y n son enteros positivos nr  , se define como sigue:  !! ! rnr nn r        La conexión entre estos símbolos entre estos símbolos y los coeficientes de las expresiones  n ba  se ve claramente del hecho que el triángulo de pascal puede escribirse ahora así:
  • 120. 119            5 4 3 2 1 0 ba ba ba ba ba ba             0 0       1 0       1 1       2 0       2 1       2 2       3 0       3 1       3 2       3 3       4 0       4 1       4 2       4 3       4 4       5 0       5 1       5 2       5 3       5 4       5 5 ..................   rrn n r r nn n n n n n n n n n nn ba bbabababaaba                                        0 1 1 22 2 22 2 1 1 ... n A esta expresión se le denomina el teorema del binomio. Donde: rrn n r r bat         1 donde r = 0,1,2,...,n Propiedades 1. Es un polinomio entero, ya que sus coeficientes son enteros por ser números combinatorios. 2. Es un polinomio homogéneo del grado n respecto de las letras a y b 3. es un polinomio completo de n +1 términos, ya que los exponentes de a van disminuyendo sucesivamente desde n a 0 4. Los coeficientes de los términos equidistantes de los extremos son iguales, lo cual es evidente por ser números combinatorios de grados complementarios. 5. El exponente de a en cada término es igual al número de términos que le siguen, y el de b al de los que le preceden
  • 121. 120 6. Los términos centrales en el desarrollo de un binomio  n ba  , son: imaparesnsitot paresnsit nn n , 2 3 2 1 1 2   Consecuencias Prácticas 1. Si los términos del binomio tienen signos contrarios, los términos del desarrollo serán alternativamente positivos y negativos, siendo negativos los que contengan potencias impares del término negativo del binomio. Basta sustituir en el desarrollo a por –a 2. Si los dos términos del binomio son negativos, todos los términos del desarrollo serán positivos o negativos, según que el exponente sea par o impar. Se tiene en efecto.         nnnn bababa  11
  • 122. 121 LECTURAS COMPLEMENTARIAS Los respectivos contenidos se encuentran en Prácticas REFERENCIAS ELECTRÓNICAS  Introducción a la estadística descriptiva http://www.slideshare.net/lissethperez/estadistica-5357736  Estadística conceptos básicos http://www.slideshare.net/ysraelchavez2010/presentacion-estadistica  ¿Qué es la Estadística? http://www.ceibal.edu.uy/contenidos/areas_conocimiento/mat/estadistica/qu_es_la_estadstica.html  DITUTOR Variables cualitativas http://w w w .ditutor.com/estadistica/variable_cualitativa.html  Gráficos para variables cualitativas http://w w w .bioestadistica.uma.es/libro/node9.htm  Tipos de gráficos disponibles Office 2007 http://office.microsoft.com/es-es/help/tipos-de-graficos-disponibles-HA001233737.aspx  Razón, Proporción y Tasa http://sameens.dia.uned.es/Trabajos7/Trabajos_Publicos/Trab_3/Gaspar_Garcia_3/razon.html  Muestreo 2 Clasificación Slide Share http://w w w .slideshare.net/yovannygon/muestreo-2-clasificacion  Gráficos para variables cuantitativas http://www.bioestadistica.uma.es/libro/node10.htm  Ejercicios resueltos para variables cuantitativas y cualitativas http://www.vitutor.com/estadistica/descriptiva/b_1.html  Estadística y Probabilidad http://www.vitutor.com/estadistica.html
  • 123. 122 PROBABILIDAD Y ESTADÍSTICA INGENIERÍA DE SISTEMAS TERCER SEMESTRE LIC. RITA TORRICO FUNDAMENTOS DE LA ESTADÍSTICA PRACTICA No APELLIDOS Y NOMBRE ………….................................................................................................................... PARALELO ............................................ FECHA………………….………........... EJERCICIOS 1. Defina estadística 2. ¿Cuál es la diferencia entre muestra y población? 3. ¿Qué es un dato estadístico? 4. ¿Qué es una variable estadística? 5. Explique la diferencia entre parámetro y estadígrafo 6. ¿Cuál es la clasificación de la estadística? 7. Busque un tema de investigación y declare el problema y los objetivos 8. Indica que variables son cualitativas y cuales cuantitativas: a. Comida Favorita. b. Profesión que te gusta c. Número de goles marcados por tu equipo favorito en la última temporada d. Número de alumnos de tu Instituto e. El color de los ojos de tus compañeros de clase f. Coeficiente intelectual de tus compañeros de clase 9. Clasificar si es muestra o población a. Las elecciones en Bolivia. b. El salario de 20 empleados de una gran compañía. c. Realizar una encuesta a 100 personas que ingresaron a una tienda del total de 896 personas que accedieron a está en un día. d. Realizar un estudio que incluya a todos los miembros de un asilo. 10.Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas. a. La nacionalidad de una persona. b. Número de litros de agua contenidos en un depósito. c. Número de libros en un estante de librería. d. Suma de puntos obtenidos en el lanzamiento de un par de dados. e. La profesión de una persona. f. El área de las distintas baldosas de un edificio. REFERENCIAS BIBLIOGRÁFICAS Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos.
  • 124. 123 PROBABILIDAD Y ESTADÍSTICA INGENIERÍA DE SISTEMAS TERCER SEMESTRE LIC. RITA TORRICO EJECUCIÓN DEL TRABAJO ESTADÍSTICO PRACTICA No APELLIDOS Y NOMBRE ………….................................................................................................................... PARALELO ............................................ FECHA………………….………........... EJERCICIOS 1. Se ha determinado en 30 enfermos el contenido de calcio en sangre, obteniéndose los siguientes valores: 8.4 9.2 9.5 8.8 9.8 8.7 9.8 9.2 9.8 9.9 9.3 9.5 8.5 9.7 8.6 9.6 9.1 10.1 9.2 9.4 8.9 9 9.7 9.4 10.2 9.6 8.8 10 9.4 8.7 Agrupa los resultados en intervalos y represéntalos gráficamente. 2. Las puntuaciones obtenidas por grupo en una prueba han sido: 15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13. Construya la tabla de distribución de frecuencias y dibuje el polígono de frecuencias respectivo. 3. El director del programa de honores en la Western Universty tiene 25 solicitudes para su admisión el próximo otoño. Las calificaciones de la prueba ACT de los solicitantes son: 27, 27, 27, 28, 27, 25, 25, 28, 26, 28, 26, 28, 31, 20, 26, 26, 28, 24, 24, 23, 29, 30, 25, 25, 30 a) ¿Cuántas clases recomienda? b) ¿Qué intervalo de clase sugiere? c) ¿Cuál es el límite inferior que recomendaría para la primera clase? d) Organice las calificaciones en una distribución de frecuencias y determine la distribución de frecuencias relativas. 4. Se realizo una encuesta en 30 hogares en la cual se pregunto el nº de individuos que habitualmente conviven en el domicilio. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3. a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.
  • 125. 124 b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros? c) Dibuje el diagrama de barras de frecuencias. d) Agrupe por intervalos de amplitud 2 los valores de la variable, calcule su distribución de frecuencias y represente el histograma correspondient REFERENCIAS BIBLIOGRÁFICAS Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos. Colecciones Shaum, (1998) Estadística yprobabilidades,McGraw- Hill, PROBABILIDAD Y ESTADÍSTICA INGENIERÍA DE SISTEMAS TERCER SEMESTRE LIC. RITA TORRICO ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS PRACTICA No APELLIDOS Y NOMBRE ………….................................................................................................................... PARALELO ............................................ FECHA………………….………........... EJERCICIOS 1. Determine el salario medio por hora pagado a carpinteros que obtuvieron los siguientes pagos por hora: $15.40, $20.10, $18.75, $22.76, $30.67, $18.00.Para las cuestiones de a 7 a la 10. a) calcule la media aritmética, b) indique si es un dato estadístico de muestra o un parámetro de población. 2.El bufete de abogados Andrews y Asociados se especializa en derecho corporativo. Cobra un cargo por hora de $100 (dólares) por la investigación de un caso, uno de $75 por consultas y uno de $200 por la redacción de un informe La semana pasada uno de los socios dedicó 10 horas a consulta con un cliente, 10 horas a la investigación del caso y 20 horas a la elaboración del informe. ¿Cuál fue el valor medio ponderado de los servicios legales? 3. Determine la media geométrica de los siguientes valores que siguen: 8, 12, 14, 26, 5. 4. A continuación se enlista el aumento porcentual en ventas para la Corporación MG en los últimos 5 años. Determine la media geométrica del aumento porcentual en ventas durante el período.
  • 126. 125 9.4 13.8 11.7 11.9 14.7 5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido: Se pide: a. Calcular el número medio de hijos, la mediana y la moda. b. Calcular los cuartiles y el decil 7. c. Analizar la dispersión de la distribución, interpretando los resultados. d. Analizar la forma de la distribución calculando los coeficientes correspondientes. e. Comente los resultados. 6. El Departamento de Comercio -Oficina del Censo, informó acerca del número de personas preceptoras de ingreso en familias estadounidenses: Número de personas Ingreso (en miles) 0 7083 1 18621 2 22414 3 5533 4 o más 2797 a) ¿Cuál es el valor modal del número de tales personas? b) ¿Y cuál es la mediana? c) Explique por qué no puede calcularse la media aritmética del número de preceptores de ingreso. 7. La distribución del importe de las facturas por reparación de carrocería de una muestra de 80 vehículos en un taller, viene dada por la tabla siguiente:
  • 127. 126 Se pide: a) Calcular el importe medio. Estudiar la representatividad de esta media. b) Calcular el importe mediano y el importe más frecuente. c) Calcular el tercer decil. ¿Qué interpretación tiene? d) ¿Cuál es el importe máximo pagado por las 60 reparaciones más baratas? 8. Calcula la desviación típica y la media de la siguiente distribución: 9. En una población de 20 la suma de los datos obtenidos en un estudio vale 50, y la suma de los cuadrados de esos datos vale 200. ¿Cuánto vale la desviación típica? 10. Dada la variable X , que toma los valores 2, 4, 20 y 24. a. Hallar la media y la varianza de los valores de esa variable tipificados. b. Hallar la media y la varianza de la variable Y= 2X + 5 c. Hallar el coeficiente de variación de la variable X y de la variable Y e interpretar el resultado. d. Si a todos los valores de la variable X se les resta 2¿Cuál sería la media y la varianza de la nueva variable? 11. Calcular los tres cuartiles de las dos distribuciones siguientes: Xi fi 2 8 3 10 8 12 12 6 15 3 Li-1-Li fi 5-10 6 10-15 7 15-20 10 20-30 9 Calcular también estas medidas gráficamente en ambos casos Calcula la Moda en la segunda distribución. REFERENCIAS BIBLIOGRÁFICAS Mitacc Meza, M. Tópicos de estadística descriptiva probabilidades.San Marcos. xi 2 4 6 8 10 12 14 fi 10 20 25 35 40 15 5
  • 128. 127 PROBABILIDAD Y ESTADÍSTICA INGENIERÍA DE SISTEMAS TERCER SEMESTRE LIC. RITA TORRICO VARIABLE ESTADÍSTICA BIDIMENSIONAL PRACTICA No APELLIDOS Y NOMBRE ………….................................................................................................................... PARALELO ............................................ FECHA………………….………........... EJERCICIOS 1. A partir de la encuesta realizada sobre 480 familias residentes en una determinada ciudad, se han obtenido los siguientes datos sobre ingresos mensuales (X) y depósitos a la vista en bancos y cajas de ahorros (Y), en miles de pesetas: Suponiendo que las marcas de clase son representativas de cada intervalo, determine: a) Las frecuencias absolutas de las distribuciones marginales de las variables X e Y. b) Las frecuencias relativas de la distribución conjunta y de las distribuciones marginales de X y de Y. c) Las frecuencias relativas, expresadas en términos porcentuales, f13, f21, f32, f44, f1·, f3·, f·3, f4·. d) Los valores que alcanzan las siguientes frecuencias relativas para distribuciones condicionadas: f(X1/Y=350), f(X2/Y=1250), f(Y1/X=375), f(Y2/X=200). e) Las medias de las distribuciones marginales de X y de Y. f) Verificar si X e Y son independientes. En caso de que no sean independientes, cuantificar el tipo y grado de dependencia lineal. 2. Sobre un conjunto de conductores se ha realizado una encuesta para analizar su edad (Y) y el número de accidentes que han sufrido (X). A partir de la misma, se obtuvieron los siguientes resultados:
  • 129. 128 A partir de estos datos, se le pide que determine para este conjunto de conductores: a) Las medias y varianzas de las distribuciones marginales. b) El número medio de accidentes que tienen los conductores con edades comprendidas entre los 40 y los 50 años. c) La covarianza entre las dos variables. d) ¿Qué edad tendría como mucho un conductor con un solo accidente para encontrarse en el grupo del 20 % de los más jóvenes? 3. Como es bien sabido, se puede establecer una dependencia entre el consumo de una familia (variable X1, en miles ptas./mes) y su renta (variable X2, en miles ptas./mes). Con el objeto de concretar tal relación en una determinada economía, se recogieron datos referentes a 200 familias, obteniéndose los siguientes resultados: A partir de ellos, se desea conocer: a) Para las familias con un consumo mensual entre 50.000 y 300.000 ptas., ¿cuál sería la renta más frecuente? b) ¿Qué porcentaje de las 200 familias tiene una renta superior a 163.000 ptas. mensuales? c) Para las dos variables consideradas, ¿qué media sería la más representativa? d) ¿Son X1 e X2 independientes? e) ¿Se puede decir con estos datos que existe una relación lineal entre las variables anteriores? 4. Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron el número de horas que dedicaron a estudiar la semana antes del examen y la nota obtenida en la prueba. La información se recoge en la siguiente tabla:
  • 130. 129 Representa los datos mediante una nube de puntos e indica cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,92; 5. Se ha realizado una encuesta preguntando por el número de personas que habitan el hogar familiar y el número de habitaciones que tiene la casa. La tabla siguiente recoge la información obtenida: Hallar la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables? REFERENCIAS BIBLIOGRÁFICAS Mitacc Meza,M. Tópicos de estadística descriptiva probabilidades,San Marcos. PROBABILIDAD Y ESTADÍSTICA INGENIERÍA DE SISTEMAS TERCER SEMESTRE LIC. RITA TORRICO ANÁLISIS COMBINATORIO PRACTICA No APELLIDOS Y NOMBRE ………….................................................................................................................... PARALELO ............................................ FECHA………………….………........... EJERCICIOS 1. ¿Cuántas parejas diferentes compuestas por una mujer y un hombre se podrían formar a partir de 6 hombres y 5 mujeres? 2. ¿Cuántos tríos diferentes compuestos por un hombre, una mujer y un niño se pueden formar a partir de 4 hombres, 5 mujeres y 3 niños? 3. En una canasta hay 5 frutas diferentes y en otra canasta hay 3 verduras distintas. ¿De cuántas maneras se puede elegir una fruta y una verdura? 4. ¿Cuántas palabras diferentes, con o sin significado, se pueden formar con las letras: A, L, E y C, sin que ninguna letra se repita ni falte? 5. ¿Cuántas permutaciones simples pueden hacerse con las letras de la palabra LEGAR? 6. ¿Cuántas de esas permutaciones comenzarán con una consonante? 7. ¿Cuántas comenzarán con una vocal?
  • 131. 130 8. ¿Cuántas comenzarán con la letra A? 9. Se tienen 10 bolitas de igual tamaño, 3 son de color rojo, 2 de color azul y 5 de color verde. ¿De cuántas maneras diferentes se pueden ordenar en fila esas 10 bolitas? 10.¿Cuántas de esas permutaciones comenzarán con una bolita verde? 11.¿Cuántas terminarán con una bolita roja? 12.¿Cuántas comenzarán con una bolita azul y terminarán con una bolita verde? 13.¿Cuántos números de 3 cifras diferentes pueden formarse con los dígitos: 1, 2, 3, 4 y 5? 14.¿Cuántas palabras de 3 letras, con o sin significado, pueden formarse con las letras de la palabra COMA? 15.Una empresa ferroviaria tiene 6 estaciones. ¿Cuántos tipos diferentes de boletos, donde se indique la estación de salida y de llegada, deben imprimirse? 16.¿Cuántos números de 3 cifras pueden formarse con los dígitos: 5, 6, 7, 8 y 9? 17.¿Cuántos números de dos cifras pueden formarse con los diez dígitos? 18.¿De cuántas maneras diferentes se puede elegir una comisión de 5 miembros a partir de 8 personas? 19.¿Si una persona determinada debe estar siempre incluida? 20.¿Si una persona determinada debe estar siempre excluida? 21.¿Si una persona determinada debe estar siempre incluida y otra siempre excluida? 22.¿Si dos personas determinadas nunca deben estar juntas en esa comisión? 23.¿Cuántas diagonales pueden trazarse en un polígono convexo de n lados? 24.¿Cuántas comisiones diferentes, compuestas por 2 hombres y 3 mujeres, pueden formarse, a partir de 10 hombres y 12 mujeres? 25.¿Cuántas palabras de 7 letras distintas (4 consonantes y 3 vocales), con o sin significado, pueden formarse a partir de 6 consonantes y 5 vocales, todas diferentes? REFERENCIAS BIBLIOGRÁFICAS Mitacc Meza,M. Tópicos de estadística descriptiva probabilidades,San Marcos.
  • 132. 131 BIBLIOGRAFÍA 1. Canales F.H., Alvarado E.L. y Pineda E.B.(1989) Metodología de la Investigación. México.OPS. 2. Chungara Castro, V. (2011) Estadística y Probabilidades. La Paz, Bolivia: Leonardo. 3. De la Quintana G., Hugo M.(1995) Introducción a la Estadística Descriptiva. La Paz, Bolivia: Stilo Publicidad Gráfica. 4. Mitacc Meza, M. Tópicos de Estadística Descriptiva y Probabilidad. San Marcos. 5. Universidad Salesiana de Bolivia (1999-2000) Estadística Social. Bolivia. 6. Zapata Escobar, L.(2003) Curso de Estadística Descriptiva. La Paz, Bolivia. GLOSARIO A AMPLITUD O RANGO La diferencia entre el valor máximo y mínimo de los valores de una variable. En la amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales ANACOVA o ANCOVA Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres los grupos por variables continuas o covariables) ANOVA Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada
  • 133. 132 C COEFICIENTE DE CORRELACIÓN Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1 COEFICIENTE DE DETERMINACIÓN Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado de información compartida entre dos variables continuas COEFICIENTES DE REGRESIÓN En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y=a + b·x COEFICIENTE DE VARIACIÓN Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral. Se suele expresar en tanto por ciento CORRELACIÓN Expresa la concordancia entre dos variables según el sentido de la relación de estas en términos de aumento ó disminución. COVARIANZA Representa la media del producto de las desviaciones de dos variables en relación a su media. CUARTILES Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1 determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la mediana CUASIVARIANZA Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional. D DECILES Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y 100% DESCRIPTIVA Parte de la estadística que resume la información de la muestra. La información recogida y resumida en los estadísticos se usa para la estimación de parámetros poblacionales
  • 134. 133 DESVIACIÓN ESTÁNDAR (TÍPICA) Característica de una muestra o población que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto al origen de la distribución. Su cuadrado es la varianza DIAGRAMA DE PUNTOS (scatter plot) ES un gráfico bidimensional o tridimensional que muestra la variación de los valores muestrales de dos o tres variables. DIAGRAMAS DE BARRAS Representación gráfica para las variables discretas DISTRIBUCIÓN DE DATOS En la realización de un experimento, corresponde a la recogida de los datos experimentales para cada individuo y cada variable DISTRIBUCIÓN NORMAL O DE GAUSS Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del importante resultado que establece el teorema central del límite. Tiene una forma en forma de campana, y viene caracterizada por únicamente dos valores: la media y la varianza. DISTRIBUCIÓN T STUDENT Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y normales E ERROR ESTÁNDAR DE LOS RESIDUOS Estadístico de dispersión de los valores de los residuos después de la regresión. ESCALA La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica, discreta o continua ESTADÍSTICOS Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer estimaciones de parámetro poblacionales o construir estadísticos experimentales para tomar decisiones acerca de la ESTADÍSTICOS DE CENTRALIZACIÓN Son estadísticos que nos resumen la información de la muestra dándonos información acerca del valor donde parece concentrarse la distribución de datos ESTADÍSTICOS DE DISPERSIÓN
  • 135. 134 Son estadísticos que nos resumen la información de la muestra dándonos información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos F FRECUENCIAS: ABSOLUTAS, RELATIVAS Las frecuencias absolutas representan el recuento de los valores de una variable discreta de forma que su suma nos da el tamaño muestral .Las relativas son las absolutas divididas por el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto por uno o en tanto por ciento FUNCIÓN Función matemática. Expresión que liga dos o mas variables de forma determinística H HISTOGRAMAS Es un gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en éste. HOMOCEDASTICIDAD Hipótesis de igualdad de varianzas poblacionales en distintos grupos I INDEPENDENCIA Son datos que no están ligados entre si L LIMITES CONFIDENCIALES Extremos de los intervalos confidenciales M MÁXIMO Es un valor muestral de forma que por encima de este no hay valores muestrales MEDIANA Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.
  • 136. 135 MEDIA Es una medida de centralización para una variable continua. Se obtiene sumado todos los valores muestrales y dividiendo por el tamaño muestral MÍNIMO Es un valor muestral de forma que por debajo de este no hay valores muestrales MODA Es el valor que más se repite en una variable nominal MODELO Intento matemático / estadístico para explicar una variable respuesta por medio de una o más variables explicativas o factores MUESTRAS Subgrupos de observaciones de la población de estudio. N NIVEL DE CONFIANZA Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento NIVEL DE SIGNIFICACIÓN La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I O OBSERVACIÓN Sinónimo de caso registro e individuo P PARÁMETROS Son valores desconocidos de características de una distribución teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial PERCENTILES Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil respectivamente POBLACIONES Conjunto de individuos de interés. Normalmente no se dispone de información de toda la población y se recurre a muestras
  • 137. 136 PORCENTAJES Proporciones expresadas en tanto por ciento PROBABILIDAD Asignación de un número entre cero y uno a cada resultado experimental. PROPORCIÓN Número de individuos que verifican una condición entre el total del tamaño muestral. Se puede expresar en tanto por uno o en tanto por cien PRUEBA CHI CUADRADO Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes PRUEBA DE FISHER Es la prueba estadística de elección cuando la prueba de chi.cuadrado no puede ser empleada por tamaño muestral insuficiente. PRUEBA T DE STUDENT Se utiliza para la comparación de dos medias de poblaciones independientes y normales R RANGO Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es válido en variables continuas. Es una mala traducción de inglés "range". Amplitud RANGO INTERCUARTILICO La diferencia entre el percentil 75% y el percentil 25% RAZÓN DE VEROSIMILITUDES Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en base a ese conjunto de resultados en forma global RECTA DE REGRESIÓN Es el modelo que sirve para explicar una variable respuesta continua en términos de un único factor o variable explicativa REGRESIÓN Técnica estadística que relaciona una variable dependiente (y) con la información suministrada por otra variable independiente (x).ambas variables deben ser
  • 138. 137 continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restriciones de la RLS se incluyen: Los residuos deben ser normales Las observaciones independientes La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión REGRESIÓN LINEAL MÚLTIPLE El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua en términos de varios factores o variables explicativas continuas S SECTORES CIRCULARES Forma de representación en forma de tarta de variables discretas nominales SENSIBILIDAD DE UN TEST DIAGNÓSTICO Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el test diagnóstico SESGO La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en contraposición de aleatorio, así una muestra sesgada es no aleatoria SIMETRÍA Es una medida que refleja si los valores muestrales se extienden o no de igual forma a ambos lados de la media. SUMATORIO Estadístico descriptivo que suma los valores numéricos de los datos muestrales de distribuciones continuas T TABLAS DE CONTINGENCIA Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que pertenecen a cada combinación de los posibles niveles de estas variables TAMAÑO MUESTRAL Número de individuos u observaciones que componen la muestra U UNIDAD Concepto primario relacionado con los componentes elementales de las muestras estadísticas. Sinónimo, pero no esencialmente idéntico, de caso , observación , registro o individuo
  • 139. 138 UNIVERSO Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elemento que comparten unas condiciones de admisión en el conjunto VALORES NUMÉRICOS Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua V VALORES NUMÉRICOS Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua VARIABLE Objeto matemático que puede tomar diferentes valores. Generalmente asociado a propiedades o características de las unidades de la muestra. Lo contrario de variable es constante. VARIABLE ALEATORIA Variable cuyo resultado varía según la muestra según una distribución de probabilidad. VARIABLE CONTINUA Aquella que puede tomar una infinidad de valores, de forma que dados dos valores cualesquiera, también pueda tomar cualquier valor entre dichos valores VARIABLE DISCRETA Variable que toma un número finito o infinito de valores, de forma que no cubre todos los posibles valores numéricos entre dos dados, en contraposición de las continuas VARIABLES Describen características en las observaciones realizadas VARIANZA Característica de una muestra o población que cuantifica su dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional