SlideShare una empresa de Scribd logo
YOLANDA GALLARDO DE PARADA
       ADONAY MORENO GARZÓN




              Serie
   APRENDER A INVESTIGAR




          Módulo 4
ANÁLISIS DE LA INFORMACIÓN
INSTITUTO COLOMBIANO PARA EL FOMENTO
                        DE LA EDUCACIÓN SUPERIOR, ICFES

                        Subdirección General Técnica y de Fomento


                                 PATRICIA MARTÍNEZ BARRIOS
                                      Directora General

                                 PATRICIA ASMAR AMADOR
                         Subdirectora General Técnica y de Fomento

                                   MÓNICA IBARRA ROSERO
                                  Jefe División de Fomento (A)

                              MARÍA JESÚS RESTREPO ALZATE
                                 Coordinadora del Proyecto




Serie: APRENDER A INVESTIGAR
ISBN: 958-9279-11-2 Obra completa
ISBN: 958-9279-15-5 Módulo 4



1ª   Edición: 1987
1ª   Reimpresión: 1988
2ª   Reimpresión: 1991
2ª   Edición: 1995
     Reimpresión: 1998
3ª   Edición: (corregida y aumentada) 1999


©    ICFES
     Calle 17 Nº 3-40 A.A. 6319
     Teléfono: 2819311 - 2834027 - 2834067 - 2435129
     Fax: 2845309 - 2834047 - 2845980
     Santa Fe de Bogotá


Diseño de carátula, diagramación e impresión:
ARFO EDITORES LTDA.
Carrera 15 Nº 53-86
Tels.: 2355968 - 2175794
Santa Fe de Bogotá, D.C.
INSTITUTO COLOMBIANO PARA EL FOMENTO
                            DE LA EDUCACIÓN SUPERIOR




                Serie:   APRENDER A INVESTIGAR

                Módulos:     1.   CIENCIA, TECNOLOGÍA, SOCIEDAD Y DESARROLLO
                             2.   LA INVESTIGACIÓN
                             3.   RECOLECCIÓN DE LA INFORMACIÓN
                             4.   ANÁLISIS DE LA INFORMACIÓN
                             5.   EL PROYECTO DE INVESTIGACIÓN




La serie APRENDER A INVESTIGAR ha sido realizada por el ICFES. Para las ediciones anteriores se contó
con el siguiente grupo de autores:

   CARLOS ESCALANTE A.                               HUMBERTO RODRÍGUEZ M.
   Profesor Universidad Nacional de Colombia         Profesor Universidad Nacional de Colombia

   ALBERTO MAYOR M.                                  EDUARDO VÉLEZ B.
   Profesor Universidad Nacional de Colombia         Investigador Instituto SER de Investigaciones

                                      ÁNGEL FACUNDO D.
                                      Exjefe División de Fomento
                                      Investigativo ICFES


El proyecto de actualización y revisión de la presente edición de la serie APRENDER A IN-
VESTIGAR fue realizado por el ICFES, para lo cual se conformó el siguiente grupo de autores:


   Módulo 1:
   LUIS JAVIER JARAMILLO

   Módulos 3 y 4:
   ADONAY MORENO                                       Universidad San Buenaventura - Cali
   YOLANDA GALLARDO DE PARADA                          Universidad de Pamplona (N.S.)

   Módulos 2 y 5:
   MARIO TAMAYO Y TAMAYO                               Universidad ICESI - Cali

   Instructivos para videos:
   LUZ ESTELLA URIBE VÉLEZ                             EAFIT - Medellín
4   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                                                             5




                                                                                                     Contenido
SERIE APRENDER A INVESTIGAR
   Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    7
   Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    9
   Propósito, población y objetivos de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                     11
   Estructura de aprendizaje de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                13
   La organización de la serie: los módulos, y material audiovisual . . . . . . . . . . . . . . .                               17
   Descripción sintética de los módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                   19
   La asesoría de tutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         23

Módulo 4: ANÁLISIS DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                              25

1.    NATURALEZA DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                          25

2.    DIVISIÓN DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    27
      2.1 Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .           27
           2.1.1 Descripción de datos, técnicas de representación gráfica . . . . . . . . . .                                   29
           2.1.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                  31
           2.1.3 Elaboración de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . .                          31
           2.1.4 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               33
                 2.1.4.1 Histogramas y polígonos de frecuencias . . . . . . . . . . . . . . . .                                 34
                 2.1.4.2 Gráficas de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 35
                 2.1.4.3 Gráficas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                36
                 2.1.4.4 Gráficas circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                  37

3.    DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS . . . . . . . . . . . . . . . . . . . . .                                       41
      3.1 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                  41
          3.1.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         41
          3.1.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .          42
          3.1.3 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .             44
      3.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               46
          3.2.1 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        47
          3.2.2 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         47
          3.2.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        48
          3.2.4 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 50
          3.2.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                  50
      3.3 Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     51
      3.4 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    51
      3.5 Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .              53
6                                                                                            SERIE: APRENDER A INVESTIGAR


4.    INTRODUCCIÓN A LAS PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                  60
      4.1 Probabilidades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 60
      4.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      62
      4.3 Leyes de las probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                62
      4.4 Análisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .              64
           4.4.1 Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .             64
           4.4.2 Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         66
           4.4.3 Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               66
      4.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               67
      4.6 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            70
      4.7 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            70
      4.8 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .              76

5.    ESTADÍSTICA INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    80
      5.1 La prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .             81
      5.2 Pruebas de significancia de muestras únicas o simples . . . . . . . . . . . . . . . . .                                86
          5.2.1 Prueba Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .           86
          5.2.2 Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                  87
          5.2.3 Distribución Chi cuadrado: χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                      92

6.    REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                     98
      6.1 Introducción a la bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                   98
      6.2 Ajuste de una recta de regresión rectilínea simple . . . . . . . . . . . . . . . . . . . . .                           101
      6.3 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      104
      6.4 Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               107

7.    ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    111

8.    ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO . . . . . . . . . . . . . .                                               117
      8.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    117
      8.2 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   119
      8.3 Requerimientos mínimos para la instalación del Software SAS . . . . . . . . . . .                                      120
      8.4 Requerimientos mínimos para la instalación del Software SPSS . . . . . . . . . .                                       120
      8.5 Manejador de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                   121

9.    STATGRAPHICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         125
      9.1 Grupo I: Data handling and system utilities . . . . . . . . . . . . . . . . . . . . . . . . . .                        125
      9.2 Grupo II: Plotting and descriptive statistics . . . . . . . . . . . . . . . . . . . . . . . . . .                      125
      9.3 Grupo III: Anova and regression analysis . . . . . . . . . . . . . . . . . . . . . . . . . . .                         126
      9.4 Grupo IV: Time series procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                     126
      9.5 Grupo V: Advanced procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                     126
      9.6 Grupo VI: Mathematical procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                        126
      9.7 Requerimientos físicos para la instalación de Statgraphics . . . . . . . . . . . . . .                                 127

ANEXO: Instructivo para el uso del video
   1.  Uso didáctico del video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 137
   2.  Videos:
       • La medición y las ciencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    145
       • La curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               151
       • La muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            157
BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .       165
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  7




                    SERIE APRENDER A INVESTIGAR




                                                            Presentación

    El Instituto Colombiano para el Fomento de la Educación ICFES, ha venido desa-
rrollando proyectos que propenden por el mejoramiento de la calidad de la educación
superior y la formación del talento humano que sea capaz de asumir el reto que nos
impone la educación del siglo XXI.

    Dentro de este marco de referencia, la formación de directivos, docentes e inves-
tigadores en el tema de la investigación ha sido prioritaria para el ICFES, razón por la
cual ha continuado impulsando la divulgación de materiales de gran utilidad para
incentivar la práctica investigativa en la educación superior.

    La SERIE APRENDER A INVESTIGAR es un material autoinstructivo que ofrece
los conceptos, las herramientas y los métodos necesarios para la formulación, perfec-
cionamiento y diseño de proyectos de investigación.

   A las puertas del nuevo milenio, estamos entregando a la comunidad académica
una nueva edición actualizada y complementada de la SERIE APRENDER A IN-
VESTIGAR, la cual contribuirá a generar la cultura investigativa, que constituye la
base de la educación, la ciencia y la tecnología del país.




                                                       PATRICIA MARTÍNEZ BARRIOS
                                                                   Directora General
8   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  9




                                                            Introducción
                                                                a la serie

     El presente programa autoinstruccional denominado APRENDER A INVESTI-
GAR, contiene algunos de los principales elementos, teóricos y prácticos, sobre concep-
tos, métodos y técnicas usualmente empleados en el trabajo de investigación científica.

    Aprender a Investigar es un proceso largo y complejo, que comprende diversas
dimensiones y etapas formativas, algunas de las cuales comienzan, o deben comenzar
a desarrollarse, desde los primeros años de vida. Para el grupo de autores del progra-
ma, Aprender a Investigar no se reduce al estudio y dominio de la metodología gene-
ral de la investigación científica. Aprender a Investigar implica, entre otras cosas, el
desarrollo de diversas dimensiones, tales como:

a) Un espíritu de permanente observación, curiosidad, indagación y crítica de
   la realidad, el cual nos permite preguntarnos si aquello que se conoce sobre algo
   es realmente un conocimiento o si acaso ofrece una mejor explicación del fenóme-
   no o del objeto de estudio. Este espíritu de observación, crítica y creatividad se
   desarrolla desde los primeros años de vida.

b) Una sólida formación general y un creciente dominio de los conocimientos
   sobre un área específica de la realidad, pues éstos son la base y el punto de
   partida para poder aportar nuevos conocimientos. Como el cúmulo de información
   científica es hoy en día tan grande y se encuentra en constante aumento, se hace
   necesario concentrar la atención en tópicos específicos, pues cada vez es más
   difícil seguir de cerca y estar al día sobre diversas temáticas y métodos de conoci-
   miento. La formación general y la concentración del interés y aprendizaje perma-
   nentes en aspectos particulares de la realidad se ha venido efectuando a través de
   los diferentes niveles educativos hasta llegar a centrar el interés en un área espe-
   cífica del conocimiento. Esta segunda dimensión, unida al dominio de la metodolo-
10                                                           SERIE: APRENDER A INVESTIGAR


     gía general de la investigación científica, es otro de los requisitos decisivos para
     aprender a investigar.

c) La práctica investigativa misma por medio de la cual las teorías, principios,
   conceptos, métodos y técnicas dejan de ser simples enunciados para conver-
   tirse en algo concreto y vivencial, constituye la tercera condición indispensable.
   El adagio popular dice que a nadar se aprende nadando. De forma semejante,
   para aprender a investigar hay que lanzarse a la práctica investigativa. La teoría
   sin la práctica es vacía, pero la práctica sin la teoría es ciega. Los conocimientos
   sobre los contenidos y métodos que se han venido adquiriendo sobre las disciplinas
   de estudio, y aquellos que se puedan adquirir a través de esta serie sobre metodo-
   logía general de investigación científica, deben servir como guías iluminadoras de
   la acción. En la medida de lo posible, para aprender a investigar es necesario
   integrarse a un equipo de investigación, el cual pueda ser conducido y orientado
   por la experiencia teórico-práctica de investigadores profesionales que estén en la
   misma línea de interés investigativo.

    El estudio de la metodología general de la investigación científica, junto con ese
espíritu indagador y creativo y los conocimientos de los contenidos y métodos de áreas
específicas del saber que usted ha venido adquiriendo, así como el deseo de lanzarse
pronto a la práctica investigativa, justifica el nombre que se ha dado a la serie: APREN-
DER A INVESTIGAR.

    De otra parte, es importante advertir sobre las ventajas y limitaciones de un pro-
grama como éste. En primer lugar, al haber sido escrito dentro de la metodología de
la autoinstrucción, si bien cuenta con la ventaja de permitir estudiar por cuenta pro-
pia, de acuerdo con el tiempo disponible y el ritmo personal de aprendizaje, tiene la
limitante de tener que suponer que quien sigue el programa posee los aprendizajes
previos requeridos para asimilar los contenidos y el nivel académico adecuado; se
cuenta por tanto, básicamente, con la seriedad del estudiante y con el cumplimiento
estricto de las diferentes instrucciones del programa.

    Es segundo término, debe tenerse en cuenta que la función de un programa como
éste es proporcionar los principales conceptos, métodos y técnicas de un proceso de
investigación, los cuales son tratados de forma sencilla y resumida. Se presentan en
forma sucinta las diferentes discusiones que sobre cada aspecto se han dado en la
comunidad científica. Si se desea un conocimiento más profundo, debe necesariamen-
te recurrirse a aquellos textos que analicen cada tópico en toda su complejidad, al
investigador, profesor, instructor o tutor.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  11




                                           Propósito, población
                                           y objetivos de la serie

    El propósito del programa, serie APRENDER A INVESTIGAR, es familiarizar al
estudiante con los elementos conceptuales y algunas técnicas básicas que le permitan,
en su área de estudio, comenzar a resolver problemas de conocimiento, aplicando la
lógica del proceso investigativo utilizando determinados instrumentos básicos. No se
trata de proporcionar una información para memorizar sino que ésta debe servir para
orientar la práctica investigativa del estudiante, dentro de la disciplina científica en
la cual se prepara como profesional e investigador.

    En este sentido, la serie APRENDER A INVESTIGAR ha sido diseñada para
una población de estudiantes de educación superior que se ha iniciado en el conoci-
miento de los contenidos y métodos básicos de una disciplina científica determinada y
que, por tanto, comienza a plantearse y a enfrentar algunos problemas de investi-
gación.

    En la situación corriente de nuestras instituciones de educación superior, la pobla-
ción objetivo de esta serie son estudiantes que están cursando aproximadamente el
quinto semestre de carrera, y que van a tener su primera aproximación a la metodolo-
gía general de investigación científica.

    El objetivo terminal de toda la serie o del curso completo consiste en lo siguiente:

    Al finalizar el proceso instructivo, el estudiante deberá estar en condición de dise-
ñar y emprender un proyecto de investigación dentro de su disciplina académica, apli-
cando tanto los contenidos adquiridos con las asignaturas propias de su carrera, como
los elementos conceptuales y técnicos adquiridos con el estudio de esta serie. Esto lo
12                                                          SERIE: APRENDER A INVESTIGAR


capacitará para enfrentar y tratar de resolver problemas de su área de estudio siguien-
do la metodología de la investigación científica.

    Para cumplir estos propósitos y estos objetivos, se supone que los usuarios de este
curso (estudiantes que están en la mitad de una carrera de educación superior), han
desarrollado los siguientes aprendizajes:

–    Comprensión clara de textos escritos.
–    Deducción lógica, abstracción y aplicación de principios.
–    Conocimientos básicos de historia.
–    Manejo general de los temas y métodos básicos de su disciplina de estudio.
–    Manejo de las operaciones matemáticas.
–    Solución de ecuaciones de primer grado.
–    Definición de funciones matemáticas.
–    Entendimiento de los conceptos lógicos de probabilidad.

    Hacemos explícitas estas conductas mínimas de entrada, con la finalidad de
garantizar, por una parte, la adecuada ubicación del curso dentro de los programas
académicos, o en el caso eventual de que éste se siga por fuera del ámbito de un
programa académico formal, con la finalidad de garantizar la necesaria nivelación
previa de los conocimientos básicos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  13




                                                             Estructura
                                                         de aprendizaje
                                                              de la serie

    La serie APRENDER A INVESTIGAR consta de los siguientes elementos:

*   Cinco módulos escritos y guías de utilización de videocasetes.
*   Cinco videocasetes que contienen trece programas de video para BETA o VHS.
*   Guía de utilización de videocasetes.

     Los módulos son el material fundamental de trabajo. Sin embargo, en aquellos
temas en los cuales el medio audiovisual permite una mayor riqueza y facilidad de
expresión, se prefirió su uso al del material escrito. En otros aspectos que presentan
alguna dificultad de comprensión, el material audiovisual cumple la función de comple-
mento o refuerzo del material escrito. En ningún caso el material audiovisual es repe-
titivo dcl material escrito.

     Toda la serie ha sido diseñada como material autoinstructivo. Por tal razón, sin
sacrificar la necesaria precisión de los conceptos, se ha utilizado el lenguaje coloquial
y sencillo. Según el propósito y el objeto antes expresados, se ha buscado hacer un
primer acercamiento del estudiante a los conceptos, métodos y técnicas básicas de
investigación, buscando ante todo despertar su interés por ellas. En los casos en los
cuales el estudiante desee profundizar, deberá recurrir a la bibliografía básica que se
le indica al final de cada unidad, así como una consulta con tutores, profesores o con
expertos investigadores en la materia. El conocimiento adquirido a través del curso
debe servirle de guía para continuar profundizando en la materia.

    Los módulos de que consta la serie son:
14                                                                SERIE: APRENDER A INVESTIGAR


                             Serie Aprender a Investigar
                             Organización de los módulos

                            Material escrito                          Videocasetes

  Módulo 1     CIENCIA, TECNOLOGÍA Y DESARROLLO             *Ciencia y tecnología:
               *Naturaleza de la actividad científica        desarrollo del hombre         15
               *Naturaleza de la tecnología
               *Investigación y desarrollo experimental
               *El impacto socio-económico
                de la ciencia y la tecnología
               *La ciencia y la tecnología en
                 la nueva revolución industrial

  Módulo 2     LA INVESTIGACIÓN                             *Tipos de investigación
               *El conocimiento científico                   científica                    15’
               *Tipos de investigación                      *El experimento                15’
               *Modelos y diseños de investigación
               *La interdisciplinariedad

  Módulo 3     RECOLECCIÓN DE LA INFORMACIÓN                *Información primaria
               *Conceptos básicos de medición                 y secundaria                 15’
               *Información primaria y secundaria           *La observación                15’
               *Unidades variables y valores                *La encuesta                   15’
               *Técnicas para el registro                   *La entrevista                 15’
                 de información secundaria
               *Técnicas para la recolección
                de información primaria
               *La encuesta

  Módulo 4     ANÁLISIS DE LA INFORMACIÓn                   *La medición
               *Descripción de datos - Técnicas              y las ciencias                15’
                 de representación gráfica                  *La curva normal               15’
               *Distribución de datos - Técnicas            *La muestra                    15’
                numéricas
               *Introducción a las probabilidades
               *La prueba de hipótesis
               *Regresión y varianza
               *Análisis y muestra
               *Universo y muestra
               *Estudio de factibilidad
                 de software estadístico

  Módulo 5     EL PROYECTO DE INVESTIGACIÓN                 *Cómo utilizar las fuentes
               *Elementos del proceso investigativo          de información                15’
               *Administración del proyecto                 *De dónde surgen los
               *Evaluación del proyecto                      problemas de investigación    15’
               *El informe investigativo                    *Vamos a elaborar
                                                             un proyecto


Nota: En los módulos escritos se incluye una guía didáctica para utilización de los videocasetes.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                             15


    Se trata de que cada módulo (tanto en el material escrito como en el material
audiovisual) sea autosuficiente, es decir, que en forma independiente comunique una
información completa sobre un determinado tema. Sin embargo, no debe perderse de
vista que cada uno de ellos es parte integrante del programa total. Entre uno y otro
módulo existen relaciones determinadas de orden y niveles, que conforman la ES-
TRUCTURA DE APRENDIZAJE con la cual se diseñó la serie.

   Es importante conocer esta estructura de aprendizaje, pues ella es una gran
ayuda, tanto para el estudio como para la evaluación de los objetivos de aprendizaje
propuestos.
16   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  17




                              La organización de la serie:
                                             los módulos
                                   y material audiovisual

    Un módulo consta de unidades de aprendizaje, que son consideradas como eta-
pas que hay que recorrer, siguiendo una ruta estratégicamente diseñada, para lograr un
objetivo propuesto.

    Dentro de cada módulo y antes de empezar cada Unidad se explicitan cuáles son
los objetivos específicos de aprendizaje que se persiguen.

    En la técnica de estudio independiente o de autoinstrucción, usted debe ser muy
consciente, antes de entrar a trabajar, de qué es lo que va a hacer. Esto le ayudará en
el aprendizaje. Una vez usted haya estudiado un contenido de acuerdo con su ritmo
propio de trabajo, al final de cada unidad encontrará unas preguntas sobre los conteni-
dos que trata el módulo que le permitirán autoevaluarse, conocer si usted domina esos
contenidos y, por tanto, decidir en forma personal y responsable si puede continuar
avanzando.

    Recuerde y tenga siempre en cuenta que no todas las partes del proceso investigativo
presentadas en el modelo aparecen desarrolladas en el texto escrito, algunas han sido
desarrolladas en los videocasetes, por lo cual, cuando así se le indique, usted deberá
recurrir al beta o VHS y seguir la guía de utilización de videos.

    La serie está diseñada de tal forma que es básicamente usted quien juega el rol
principal, quien estudia y quien debe decidir si ha alcanzado los objetivos previstos. Se
han hecho grandes esfuerzos para organizar los diferentes materiales en función de un
aprendizaje a partir de un estudio independiente.
18   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  19




                                            Descripción sintética
                                                 de los módulos

El módulo 1
    Hemos denominado al módulo 1: Ciencia, tecnología, sociedad y desarrollo

–   El propósito de este módulo es proporcionar al estudiante que se inicia en el estudio
    de la metodología general de investigación, una rápida visión de cómo la ciencia,
    la tecnología y la investigación son actividades de carácter histórico, es decir,
    que han evolucionado con el desarrollo del hombre y de la sociedad.

–   Mostrar cómo han adquirido en la actualidad una importancia estratégica.

–   Introducir en los conceptos de ciencia, tecnología e investigación.

    Este módulo se complementa con el videocasete: “Ciencia y tecnología: desarrollo
del hombre”, 15’.



El módulo 2

    Hemos denominado el módulo 2: La investigación

–   El propósito de este módulo es presentar el conocimiento y el método científico
    como punto de partida para enfrentar la realidad y plantear procesos investigativos.

–   Mostrar los diferentes tipos de investigación y dar elementos de juicio para la
    utilización de medios y determinación del tipo de diseño a seguir.
20                                                            SERIE: APRENDER A INVESTIGAR


–    Presentar la interdisciplinariedad como una metodología de investigación cientí-
     fica.

    Este módulo se complementa con dos videocasettes: 1. Tipos de investigación
científica, 15’ y 2. El experimento, 15’.



El módulo 3
     Hemos denominado al módulo 3: Recolección de la información

–    El propósito de este módulo es identificar las técnicas básicas para recolectar la
     información que se requiere para el trabajo de investigación.

–    Distinguir las reglas de diseño a que están sometidas.

–    Plantear elementos básicos para que, en dependencia con el tipo de investigación,
     el programa que se enfrenta y la estrategia concebida para resolverla, es decir, con
     la hipótesis conductora del trabajo, se pueda emplear las técnicas que más se
     ajusten a esos requerimientos.

    Este módulo se complementa con cuatro videocasettes: 1-. Información primaria y
secundaria, 15’. 2-. La observación, 15’. 3-. La encuesta, 15’. 4- La entrevista, 15’.



El módulo 4

     Hemos denominado al módulo 4: Análisis de la información

–    El propósito de este módulo es plantear las técnicas más comunes para el análisis
     de datos, y el saber cuándo, cómo y por qué utilizarlas. Se plantea además el análisis
     conceptual y la descripción de paquetes estadísticos para uso del computador.

    Este módulo se complementa con tres videocasettes: 1-. La medición y las cien-
cias, l 5’. 2-. La curva normal, I 5’. 3-. La muestra, 15’.



El módulo 5

     Hemos denominado el módulo 5: El proyecto de investigación
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                  21


–   El propósito de este módulo es lograr que el estudiante retome e integre los con-
    ceptos y los procesos de la metodología de investigación científica y pueda formu-
    lar un proyecto de investigación en su respectiva área de estudio.

–   Presentar elementos básicos para el desarrollo del proyecto de investigación rela-
    cionados con el proceso de investigación: la administración del proyecto; la evalua-
    ción del proyecto y el informe investigativo.

    Este módulo se complementa con tres videocasettes. 1-. Cómo utilizar las fuentes
de información, 15’. 2-. De dónde surgen los problemas de investigación, 15’. 3-.
Vamos a elaborar un proyecto, 15’.

    Consideramos que este módulo es de vital importancia y tanto los videos como los
otros módulos convergen a éste. Es decir que el módulo 5 es el centro de la serie
APRENDER A INVESTIGAR.

    Como objetivos específicos del módulo, tenemos:

–   Indicar al estudiante los factores a tener en cuenta en la elección de un tema para
    investigar.

–   Proporcionar al estudiante las herramientas básicas que le permitan identificar,
    analizar y formular problemas de investigación dentro de su área de estudio.

–   Capacitar al estudiante para que pueda formular hipótesis para la solución de los
    problemas y señalarle algunos de los pasos que generalmente se siguen para poner
    a prueba las hipótesis de investigación.

–   Señalar las diferencias que existen entre las actividades cientifico-técnicas, con la
    finalidad de que pueda comprender la peculiaridad de una de ellas: la investigación.

–   Hacer conocer que la forma moderna de investigar es a través de la planeación,
    ejecución y determinación de aspectos administrativos del proyecto.

–   Proporcionar al estudiante y a los profesores parámetros de evaluación para pro-
    yectos de investigación.

–   Lograr que el estudiante entienda la necesidad e importancia de elaborar informes
    parciales y finales, que estén en capacidad de elaborarlos aplicando las técnicas
    básicas correspondientes.
22   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                               23




                                         La asesoría de tutores

    Aunque los módulos han sido diseñados para que puedan utilizarse en estudio inde-
pendiente o en forma auto-instructiva, es conveniente valerse de la asesoría de tuto-
res, profesores o expertos investigadores.

    El trabajo tutorial es conveniente para:
–   Aclarar, ampliar y profundizar conceptos.
–   Orientar los ejemplos, ejercicios y prácticas hacia los temas y problemas propios
    de la disciplina que estudie cada participante.
–   Resolver inquietudes y dudas.
–   Coordinar el contacto y trabajo con otros estudiantes.
–   Estimulación del debate en grupos.
–   Estimular el aprendizaje en la práctica.
–   Auto-regular el proceso de aprendizaje.

    Según lo previsto en el diseño y organización de la serie, la asesoría de tutores,
profesores o expertos investigadores no solo es conveniente sino necesaria en las
siguientes actividades:
–   La realización de experimentos y trabajo en laboratorios.
–   El diseño y la ejecución del proyecto de investigación.

    Sin embargo, es importante enfatizar que el participante es el directo responsable
de su aprendizaje. Tanto los materiales escritos y los audiovisuales que conforman los
diferentes módulos del programa, así como los tutores, profesores o investigadores-
asesores son solamente medios que le apoyen en su decisión de aprender.
24   SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        25




                                                     Módulo 4
                          Análisis
                de la información
   El análisis de la información en el proceso investigativo, depende del
enfoque y del tipo de investigación que se haya seleccionado, como tam-
bién de los objetivos que se hayan planteado.

     La estadística se constituye en una herramienta fundamental para el
análisis de la información. Sin embargo es necesario precisar y seleccio-
nar el tratamiento estadístico dependiendo del enfoque cuantitativo o cua-
litativo, de la escala de medición de las variables, de las hipótesis y de los
objetivos.

    La estadística es fundamental para resolver problemas de descripción
de datos, análisis de muestras, contrastación de hipótesis, medición de
relaciones y predicciones.


1. NATURALEZA DE LA ESTADÍSTICA
   La estadística es una rama de la ciencia, encargada del diseño y apli-
cación de métodos para recolectar, organizar, analizar y hacer deduccio-
nes a partir de ellos.

    Aunque los orígenes de la estadística se remontan a los estudios de
los juegos de azar del siglo XVIII, sólo en los últimos 60 años se han desa-
26                                                   SERIE: APRENDER A INVESTIGAR


rrollado las aplicaciones de los métodos estadísticos en casi todos los
campos de la ciencia (social, comportamental y física). La mayor parte de
las primeras aplicaciones de la estadística consistieron principalmente en
la presentación de datos en forma de tablas y gráficas. Este campo se
desarrolló con rapidez llegando a incluir gran variedad de métodos para
ordenar, resumir y expresar en alguna forma las características de un con-
junto de números. Hoy estas técnicas cubren lo que es sin duda la más
visible aplicación de la estadística: la masa de información cuantitativa
que se recopila y se publica todos los días en nuestra sociedad. Las tasas
de natalidad, de mortalidad, los índices de precios, los promedios de go-
les obtenidos en las fechas semanales de fútbol, son algunas de las mu-
chas «estadísticas» que nos resultan familiares.

    Además de expresar las características de la información cuantifica-
ba, estas medidas proporcionan una base importante para el análisis en
casi todas las disciplinas académicas, especialmente en las ciencias so-
ciales y del comportamiento, donde la conducta humana no puede gene-
ralmente ser descrita con la precisión que se consigue en las ciencias
exactas. Las medidas estadísticas de satisfacción, inteligencia, aptitud
para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro
conocimiento de las motivaciones y del rendimiento humano, son ejem-
plos de lo dicho. Del mismo modo, los índices de precios, productividad,
producto nacional bruto, empleo, reservas disponibles y exportaciones son
elementos útiles tanto para el gerente como para el gobernante cuando se
trata de trazar una política encaminada a lograr el desarrollo y la estabili-
dad económica a largo plazo.

     La estadística proporciona una metodología para evaluar y juzgar las
discrepancias entre la realidad y la teoría. Además de su papel instrumen-
tal, el estudio de la estadística es importante para entender las posibilida-
des y limitaciones de la investigación experimental, para diferenciar las
conclusiones que pueden obtenerse de los datos de aquellas que carecen
de base empírica y en definitiva para desarrollar un pensamiento crítico y
antidogmático ante la realidad.

   En la actualidad con la ayuda de la informática y la tecnología el trata-
miento estadístico de la información se hace más sencillo.

  Para el análisis de datos cuantitativos, tenemos en la actualidad progra-
mas como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA-
PHIS. Para el análisis de datos cualitativos existen programas como el
QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          27


2. DIVISIÓN DE LA ESTADÍSTICA
   La estadística se divide en dos grandes ramas, dependiendo del méto-
do empleado para manejar la información y hacer que tenga sentido: esta-
dística descriptiva y estadística inferencial.



                                              Población

                                  Muestra
                                                    Estadística inferencial
              Estadística                      K
              descriptiva
                       K


                                       Gráfica 1.




    2.1 Estadística descriptiva. Permite describir resumir y analizar la
información obtenida de la muestra.

   Para tal fin se recolecta la información, se tabula, se grafica y en mu-
chos casos en vez de trabajar con todas las observaciones, es preferible
tener unas medidas que resuman los datos.

   Básicamente hay tres tipos de medidas de resumen: medidas de ten-
dencia central, medidas de dispersión o variabilidad de los datos y medi-
das de ubicación.

   La gráfica 1 se interpreta así: con los datos de la muestra se aplica la
estadística descriptiva; con los resultados de la estadística descriptiva se
hacen análisis de estadística inferencial referidos a la población.
28                                             SERIE: APRENDER A INVESTIGAR


             MAPA CONCEPTUAL DE ESTADÍSTICA DESCRIPTIVA




                      TABLAS DE FRECUENCIAS
TABULACIÓN
                      TABLAS DE CONTINGENCIA




                      PUNTOS
GRÁFICAS O            LÍNEAS
DIAGRAMAS             BARRAS                   HISTOGRAMAS
                      CÍRCULO
                      CAJA



                                               MEDIA
                      MEDIDAS DE               MEDIANA
                      TENDENCIA                MODA
                      CENTRAL                  MEDIA GEOMÉTRICA



                                               RANGO
MEDIDAS               MEDIDAS DE               DESVIACIÓN ESTÁNDAR
DE                    DISPERSIÓN               VARIANZA
RESUMEN                                        ÍNDICE DE DISPERSIÓN
                                               CATEGÓRICO


                                               CUARTILES
                      MEDIDAS DE               QUINTILES
                      UBICACIÓN                DECILES
                                               PERCENTILES
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                     29


2.1.1 Descripción de datos, técnicas de representación gráfica

    El concepto de la descripción está asociada a la distribución de fre-
cuencias, que consiste en el ordenamiento o clasificación de los valores
observados en una variable, de acuerdo con su magnitud numérica. Per-
mite al investigador identificar la forma como ciertos puntos o caracterís-
ticas están distribuidos.

  La distribución de frecuencia se puede construir a partir de variables
medidas a cualquier nivel, desde nominal hasta de razón.

   Podríamos suponer que queremos ver cuántos productores agrícolas
en una vereda son grandes, medianos o pequeños productores.

   Entrevistamos a los productores de la vereda y les preguntamos la
extensión de su explotación y la clasificamos de acuerdo con el tamaño
(magnitud) en una de las tres categorías.

    Se construye la distribución de frecuencias que muestre cuántos pro-
ductores son grandes, cuántos medianos y cuántos pequeños. El recuen-
to será:

                     Tabla 1 - Tipo de productor agrícola


           Tipo de productor                       Frecuencia

           Pequeño                                           7
           Mediano                                          12
           Grande                                            9
           Total                                            28




   En el cuadro sólo se ha agrupado el número de agricultores pertene-
cientes a cada categoría. El número de agricultores se denomina obser-
vaciones o frecuencia (f).

  Para el caso de variables medidas a nivel intervalo o de razón, pode-
mos hacer exactamente el mismo ejercicio.

   Si se tiene, por ejemplo, la información acerca del número de cajas de
madera que construyen al día unos carpinteros en un taller, podríamos
clasificarlos por su productividad.
30                                                   SERIE: APRENDER A INVESTIGAR


     Tabla 2 - Número de cajas construidas por 15 carpinteros

                                                    N° de cajas
              Carpinteros                           construidas

                    1                                    11
                    2                                    10
                    3                                     8
                    4                                    12
                    5                                    12
                    6                                    10
                    7                                     7
                    8                                     8
                    9                                    10
                   10                                    11
                   11                                    10
                   12                                     9
                   13                                     9
                   14                                    10
                   15                                    11


    A partir de esta información podemos aclarar aún más la naturaleza de
la producción por carpintero y se podría entrar a comparar esta productivi-
dad con la de otro tipo de taller o fábrica.

    En la tabla 3 introducimos un mayor significado y ordenamiento a la
información que se está analizando.

     Tabla 3 - Número de cajas construidas por 15 carpinteros

                                Nº de carpinteros
          Nº de cajas           que construyen X              F
          construidas              Nº de cajas

              7                         I                     1
              8                         II                    2
              9                         II                    2
              10                                              5
              11                       III                    3
              12                        II                    2


    Hasta ahora los ordenamientos que se han hecho son bastante simples,
pero en la vida real muchas veces la información analizada es más compleja
y la distribución de frecuencias debe ser construida a partir de un mayor
número de puntajes.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                     31


2.1.2 Distribuciones de frecuencias

   La distribución de frecuencias es un método para organizar y resumir
datos. Bajo este método los datos que componen una serie, se clasifican
y ordenan, indicándose el número de veces en que se repite cada valor.

    Los caracteres de los elementos de una población pueden ser: cualita-
tivos y cuantitativos.

    Los datos cualitativos, denominados también atributos, son todos aque-
llos fenómenos que pueden ser descritos cualitativamente, es decir me-
diante palabras; son ejemplos de atributos: la clasificación de los alum-
nos de una universidad por departamento de origen, clasificación de un
grupo de personas por ocupación, por sexo, por cargo, etc.

    Los caracteres cuantitativos, denominados variables, son todos aque-
llos fenómenos susceptibles de ser expresados cuantitativamente, es decir
mediante números. Por ejemplo: peso, estatura, edad, número de hijos,
salarios, etc.

   Las variables se dividen en: discretas y continuas, teniendo en cuenta
que ésta clasificación tiene más valor teórico que práctico.

    Las variables discretas son aquellas que admiten solamente valores
enteros, es decir no tienen valores intermedios; por ejemplo el número de
hijos por familia, ya que no se puede decir que una familia tiene dos hijos
y medio.

    Las variables continuas, son aquellas que admiten valores fraccionar-
los, pudiéndose establecer intervalos. Por ejemplo, la estatura de una per-
sona que mide un metro con setenta centímetros, que pesa sesenta kilos,
una libra y cuatro onzas, etc.

2.1.3 Elaboración de una tabla de frecuencias

   Tomemos como ejemplo una muestra de 20 alumnos, determinando
su peso en kilos; para facilitar el trabajo redondeamos las cifras.

      X1 = 74           X5 = 69        X9 = 47    X13 = 65   X17 = 76
      X2 = 67           X6 = 61        X10 = 85   X14 = 88   X18 = 57
      X3 = 94           X7 = 71        X11 = 82   X15 = 52   X19 = 72
      X4 = 70           X8 = 79        X12 = 55   X16 = 58   X20 = 66
32                                                   SERIE: APRENDER A INVESTIGAR


   El primer paso a seguir consiste en determinar el valor máximo y el
mínimo.

     En el ejemplo tenemos:

     Xmáximo = 94; Xmínimo = 47

    La diferencia entre el valor máximo y el mínimo se denomina recorrido
o rango.

     94 - 47 = 47

     El rango, será entonces de 47.

     Introducimos dos nuevos símbolos que son:

     m = número de intervalos (o clase de la distribución)

     c = amplitud de intervalo (o de clase de la distribución)

   El valor de m, o sea, el número de intervalos se puede obtener me-
diante la siguiente fórmula:

     m = 1 + 3.3 log n , donde n es el número de datos

    Es de anotar que la anterior fórmula es poco conocida, por consiguien-
te, es poco usual. Sin embargo, se recomienda que el número de interva-
los, hasta donde sea posible, no sea menor de 5 ni mayor de 16.

   Para el cálculo de amplitud del intervalo se puede aplicar la siguiente
fórmula:

                Xmax. - Xmin.   o sea        rango
         C=                             C=
                    m                         m


     En el caso de nuestro ejemplo, el número de intervalos será:

     m = 1 + 3.3 log2O de donde m = 1 + 3.3,x 1,30

     m = 1 + 4,29

     m = 5.29 ≅ 5 intervalos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        33


    La amplitud del intervalo de clase será:

    Rango R =47

    Número de intervalos m = 5

                R                           47
      C=             de donde          C=      = 9.4
                m                           5

   Redondeando y para mejor manejo de los datos, se puede considerar
que la amplitud del intervalo sea de 9.

    La tabla de frecuencias nos quedará en la siguiente forma,

    Tabla 4 - Distribución de frecuencias del peso de 20 alumnos

           Peso             Frecuencias (f)        Frecuencia Relativa Fr

           46 - 55                      3              3/20 = 0.15 = 15%
           56 - 65                      4              4/20 = 0.20 = 20%
           66 - 75                      7              7/20 = 0.35 = 35%
           76 - 85                      4              4/20 = 0.20 = 20%
           86 - 95                      2              2/20 = 0.10 = 10%
            Total                      20              20/20 = 1 = 100%


    Frecuencia relativa (Fr)

  Es su frecuencia dividida por el total de datos y se expresa general-
mente como un porcentaje:

            f
           __
    Fr =
            n

2.1.4 Presentación gráfica

    Aunque las tablas sean ya el resultado de una concentración de datos,
pueden ser, sin embargo, demasiado amplias y complejas, de modo que
pierden una buena parte de lo que debería ser su cualidad primordial, la
claridad.

   Entonces, podemos recurrir a la presentación gráfica, para la mejor
comprensión y análisis de los datos. En las variables discretas se hace la
representación mediante diagramas de frecuencias; para ello, en el eje hori-
34                                                      SERIE: APRENDER A INVESTIGAR


zontal, se colocan los distintos valores de las frecuencias absolutas o rela-
tivas. Si la representación se refiere a las frecuencias absolutas o relativas
acumuladas se denomina: Diagrama de frecuencias acumuladas, colocán-
dose los valores de la variable en el eje horizontal y las frecuencias Fr, en el
vertical.

2.1.4.1 Histogramas y polígonos de frecuencias

   Una distribución de frecuencias, se puede describir por medio de histo-
gramas de frecuencias, que son gráficos que representan la información
contenida en una distribución de frecuencias.

   El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede pre-
sentar en un histograma que representa exactamente lo mismo.


                               Gráfica 1.
               Peso en kilos de 20 alumnos de un colegio




   Otra manera de describir la distribución de la información obtenida, es
por medio del polígono de frecuencias.

   Estos son gráficos en la forma de una serie de líneas rectas conecta-
das entre sí y que unen puntos medios de intervalos a lo largo del eje
horizontal.

   El caso del peso de los alumnos, puede servirnos para ilustrar la técnica
de los polígonos de frecuencia. Para construirlo se siguen los mismos pa-
sos que para construir un histograma, pero en lugar de construir los rectán-
gulos a partir de los límites superior e inferior de los intervalos, se calcula el
punto medio del mismo y se unen, por medio de una línea recta que se
conecta a los puntos medios de los demás intervalos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                 35


   Así por ejemplo en el gráfico 1 podemos trazar el polígono de frecuen-
cias, uniendo los puntos medios del histograma de frecuencias.

2.1.4.2 Gráficas de barras

   La gráfica de barras es fácil de construir y su interpretación es de
gran utilidad. Una gráfica diseñada para mostrar magnitudes absolu-
tas deberá tener su inicio en cero y una escala de cantidades conti-
nuas. Las gráficas de barras pueden construirse en forma vertical u
horizontal.

        Las gráficas de barras pueden dividirse en tres tipos:

a. Gráficas de barras con partes componentes. En esta gráfica cada ba-
   rra ha sido segmentada en dos partes componentes; así, por ejemplo,
   en la siguiente gráfica se tiene que la población de estudiantes de 100
   semestre de la facultad X, de la Universidad Y, se distribuye según el
   sexo y la edad así:


Distribución de los estudiantes de décimo semestre de la Facultad X,
                de la Universidad Y, por sexo y edad



        1 5 -1 9

        2 0 -2 4
 Edad




        2 5 -2 9                                                       h o m b re s

                                                                       m u je re s
        3 0 -3 4


                   0    10                 20                30   40
                             N ú m e ro d e E s tu d ia n te s




   En la gráfica se muestra el número de estudiantes clasificados por
sexo y edades, en cada barra se presentan los dos componentes, los
hombres y las mujeres.

b. Gráficas de barras agrupadas. En esta gráfica, se presentan los mis-
   mos datos de estudiantes, excepto que los componentes por sexo se
   muestran separadamente así:
36                                                                                      SERIE: APRENDER A INVESTIGAR


Distribución de los estudiantes de décimo semestre de la Facultad X,
            de la Universidad Y, según el sexo y la edad


       1 5 -1 9



       2 0 -2 4
Edad




                                                                                                             m u je r e s
                                                                                                             h o m b re s
       2 5 -2 9



       3 0 -3 4


                  0         5                 10             15              20         25         30
                                              N ú m e r o d e E s tu d ia n te s




c. Gráficas de barras bidireccionales. Cuando se desea graficar cantida-
   des positivas y negativas, tales como pérdidas y ganancias en la pro-
   ducción de una empresa, por tipo de producto. Así, en la gráfica de
   producción de la empresa X, se tiene que las pérdidas y ganancias por
   tipo de producto son:


                  Utilidad o pérdida en la producción de la Empresa X


                                   Estufas

                      Calentadores de agua

                                Secadores
                                                                                                        utilidad o
                                Enfriadores                                                             pérdida
                                  Planchas


       -40            -20                     0                20                  40         60

                                                  Producción




2.1.4.3 Gráficas lineales

    Cuando debe presentarse una serie que cubre un gran número de pe-
ríodos de tiempo, los datos graficados por medio de barras se ven dema-
siado acumulados; entonces, éstas pueden ser reemplazadas por una
línea, ya que las líneas son más efectivas que las barras, cuando existen
marcadas fluctuaciones en las series, o cuando deben presentarse varias
series sobre la misma gráfica. Por ejemplo, el número de estudiantes de
la facultad X, matriculados por sexo, en el período 1990-1998.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                              37


                  Número de estudiantes de la Facultad X, matriculados por sexo,
                                    en el período 1990-1998
 Número de Estudiante




                        600
                        500                                                               Hom bres
                        400
                        300                                                               M ujeres
                        200
                        100                                                               Total
                          0
                              90   91   92    93    94     95    96        97   98
                                                        Años




2.1.4.4 Gráficas circulares

    Las gráficas circulares, llamadas también de tipo pastel, se usan para
mostrar los tamaños relativos de los componentes de un total. Son utiliza-
dos, para indicar cosas tales como participación de cada facultad en el
total de estudiantes matriculados de determinada universidad, en perío-
dos diferentes.

                        El proceso para realizar el diagrama consiste en una regla de tres.

   Para conocer el ángulo de cada sector se debe relacionar los 3600
que tiene una circunferencia con el tamaño de la muestra y con cada una
de sus frecuencias absolutas, así:

                                                          360°         n
                                                          X            F1

   Por ejemplo, si la siguiente tabla representa el número de docentes de
una universidad, clasificados por modalidad educativa.

                                        Modalidad

                                        Técnica                        5
                                        Tecnología                    25
                                        Universitaria                 80
                                        Post-grado                    15
                                                                 N = 125


                        El diagrama circular se construirá así:

                          360°          125             Donde 125 es el tamaño de la muestra y
                          X             5               5 la frecuencia en la primera modalidad.
38                                                   SERIE: APRENDER A INVESTIGAR




     Luego         X = 360° x 5
                        125

   En el siguiente ejemplo, se muestra la distribución porcentual del nú-
mero de estudiantes matriculados en 5 facultades de una universidad X,
en los años de 1990 y 1998.



              c                                       e        a
                            d
             13%                                     23%      15%
                           27%

          b                                                          b
         14%                                                        18%

                                                                  c
                            e                         d          8%
                           15%                       36%
                a
               31%




      DESCRIPCIÓN DE DATOS, TÉCNICA DE REPRESENTACIÓN
                GRÁFICA - AUTOEVALUACIÓN N° 1


     Lea cuidadosamente cada uno de los siguientes enunciados y seña-
     le la respuesta correcta.

     1. El
         propósito principal de la estadística descriptiva es:
        a)Representar los datos por medio de histogramas.
        b)Obtener la información necesaria para la investigación.
        c)Medir en escalas nominales, ordinales e intervalos.
        d)Conocer las características generales de una distribución de
          frecuencias.
       e) Todas las anteriores.

     2. Una distribución de frecuencias sólo se puede construir a partir de
        variables medidas en escalas intervalos.

       Sí _______ No _______
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       39




   ¿Por qué? _______________________________________________
   _________________________________________________________


   3. Si clasificamos 220 municipios en grandes, medianos y peque-
      ños, de acuerdo con el número de habitantes, de forma tal que
      tenemos 49 grandes, 63 medianos y 108 pequeños, ¿cómo los
      representaría en un histograma de frecuencias como en un diagra-
      ma circular?

   4. Para construir un histograma de frecuencias, primero es necesa-
      rio construir un polígono de frecuencias.

      Sí _______ No _______

   5. En un examen general de matemáticas los 30 alumnos de un cur-
      so obtuvieron las siguientes calificaciones:

                 Calificación                 N° de alumnos

                       78                            1
                       77                            1
                       76                            0
                       75                            2
                       74                            1
                       73                            0
                       72                            2
                       71                            2
                       70                            4
                       69                            5
                       68                            3
                       67                            0
                       66                            3
                       65                            2
                       64                            0
                       63                            1
                       62                            2
                       61                            1

   Represente la misma información en una distribución de frecuencias,
   basada en intervalos. Determine el rango, el número de intervalos y
   la amplitud de los intervalos. Represente los resultados por medio de
   un histograma y un polígono de frecuencias.
1. d

   2. No

   3. Gráfico

   4. No

   5. Rango = 17; número de intervalos = 6; amplitud de intervalo = 3

               Calificaciones          F           Frecuencia
                                                   Relativa %

                    61-63              4               13.3
                    64-66              5               16.7
                    67-69              8               26.7
                    70-72              8               26.7
                    73-75              3               10.0
                    76-78             30              100.0

   Graficar

                RESPUESTAS A LA AUTOEVALUACIÓN N° 1


SERIE: APRENDER A INVESTIGAR                                            40
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      41


3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS

   La segunda técnica utilizada en la estadística descriptiva se basa en
dos tipos de cálculos numéricos: Los de tendencia central y los de dis-
persión.

   Las medidas de tendencia central se basan en que, en cualquier distri-
bución de frecuencias, los valores tienden a concentrarse al rededor de
un valor central de la distribución.

    Las de dispersión, por el contrario, se basan precisamente en la mane-
ra en que los valores se distribuyen alrededor de esos valores centrales.

   Para entender la naturaleza de la distribución, tenemos que tratar de
describir el centro de la distribución de las mediciones y la forma como
éstas varían alrededor de ese centro.

   Podemos utilizar estas técnicas descriptivas, tanto para estudiar los
parámetros de la población como las estadísticas de las muestras y en
este último caso, a partir de ellas podemos estimar los correspondientes
parámetros de la población.

3.1 Medidas de tendencia central

  A continuación describimos las técnicas de tendencia central: moda,
mediana y media aritmética.

3.1.1 La moda

    La moda de una distribución se define como el valor que presenta la
mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de
intervalo o de razón.

    Es comúnmente utilizada como una medida de popularidad, que refle-
ja la tendencia de una opinión. En algunas distribuciones sólo hay una
moda, pero en otras puede haber dos o más modas. Si tomamos 1, 4, 4,
4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con
más frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribu-
ción es bimodal.

   Cuando se trabaja con datos agrupados, la moda se refiere como el
valor medio del intervalo que constituye la mayor frecuencia.
42                                                    SERIE: APRENDER A INVESTIGAR


 Tabla 5. Puntajes obtenidos por 50 alumnos de un curso de física

                      Puntajes                   Frecuencias

                       30 - 32                         4
                       33 - 35                         4
                       36 - 38                         5
                       39 - 41                         7
                       42 - 44                        12
                       45 - 47                         7
                       48 - 50                         4
                       51 - 53                         3
                       54 - 56                         2
                       57 - 59                         2

                        Total                         50


   En la tabla 5, presentamos la distribución obtenida al estudiar los puntajes
obtenidos por 50 estudiantes como calificación en un curso de física.

    El intervalo que contiene el mayor número de casos, o mayor frecuen-
cia es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor
medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda.

3.1.2 La mediana

   La mediana se define como la medida de tendencia central que divide
a cualquier distribución en dos partes iguales.
En la siguiente distribución:

                      7, 8, 8, 9, 12, 15, 18, 18, 20, 21, 23.

    La mediana es 15, porque se sitúa en el punto que divide la distribución
en dos partes iguales. Hay el mismo número de casos antes y después
del 15.

   La mediana se usa en variables medidas en escala ordinal, intervalo o
de razón. Su mayor uso es cuando se tienen muchas observaciones y
generalmente se utiliza en distribuciones de ingresos, edades, pesos.

   Cuando hay una distribución con un número par de casos, la mediana
es el promedio de los dos valores medios. Así, en la siguiente distribución
de notas:

                        78,95,86,73,52,90,89,84,76,92
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         43


   El valor de la mediana es 85, porque, primero al ordenar la distribución
de menor a mayor así:

                            52,73,76,78,84,86,89,90,92,95

   Siendo 10 el total de notas, las que aparecen en la posición quinta y
sexta están en la mitad de la distribución, entonces la mediana será:

                                       84 + 86 = 85
                                          2

    Cuando se tiene información agrupada, la mediana se define como el
valor dentro del intervalo que divide la distribución en dos partes iguales.
El símbolo utilizado es Me.

   En la tabla 6, tenemos una distribución cualquiera con 5 intervalos de
tamaño 5 y con 30 observaciones.

Tabla 6. Distribución de frecuencias de los pesos de 30 estudiantes

                                                      Frecuencias
           Intervalos                     F           acumuladas

             30 - 34                      4                  4
             35 - 39                      7                 11
             40 - 44                      8                 19
             45 - 49                      6                 25
             50 - 54                      5                 30

              Total                       30


    Los pasos a seguir para el cálculo de la mediana son:

•   Encuentro las frecuencias absolutas acumuladas.
•   Con base en las frecuencias acumuladas ubico el intervalo donde que-
    de la frecuencias correspondiente a la mitad del tamaño de la mues-
    tra, es decir: n
                   2

•   Encuentro el valor del límite real inferior del intervalo donde está n
                                                                         2

•   Aplico la siguiente fórmula:
44                                                  SERIE: APRENDER A INVESTIGAR


                        n _ Σ Fa
                        2
     Mediana = Li +                    C
                           Fn
                            2


                                                                n
     donde Li      = Límite real inferior donde está ubicada
                                                                2
              Σ Fa = Suma de las frecuencias anteriores a donde está
                                   n
                        ubicado
                              2
              C    = Amplitud del intervalo.

   En el ejemplo         anterior de los pesos de 30 estudiantes la mediana
está dada por:

     n        30
         =       = 15
     2        2

     Li = 39.5     Corresponde al límite inferior donde está 15 como
                   frecuencia acumulada.
                                                                             n
     Fn            Corresponde a la frecuencia del intervalo donde está
        = 8
      2                                                                      2

                                                                            n
     Σ Fa = 11     Corresponde a la suma de las frecuencias antes de
                                                                            2
     C=5           Es la amplitud del intervalo.

     Luego:
                         (15 - 11)
     Mediana = 39.5 +              x 5
                             8

     Mediana = 42


3.1.3 La media aritmética

   Es la medida de tendencia central más conocida, es fácil de calcular, de
gran estabilidad en el muestreo, sus fórmulas permiten tratamiento alge-
braico.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       45


   Además, presenta el inconveniente de ser muy sensible a los valores
extremos, cuando éstos son demasiado bajos o demasiado altos. Se re-
presenta así: X

   La media aritmética se define como la suma de todos los valores ob-
servados dividido por el número de observaciones (n).

    La fórmula para datos no agrupados es: X =               Σ xi
                                                              n
  Donde Σ -Xi corresponde a la sumatoria de todos los valores de la
muestra.

    La media aritmética de la siguiente distribución es:

                                 1.1, 2, 1, 2.4, 3, 2, 4.5

           1.1 + 2 + 1 + 2.4 + 3 + 2 + 4.5   16.1
    X =                                    =      = 2.28
                           7                  7
   Para las distribuciones con datos agregados, existe una fórmula, aun-
que un poco más complicada, es bastante fácil de aplicar.

    media =     Σ fx
                  n

   donde f corresponde a las frecuencias, y X al valor de cada marca de
clase.

        Tabla 7. De valores de los pesos de los 30 estudiantes

                                    x                     f
           Intervalos         Marca de clase         Frecuencias     fx

              30-34                     32                   4      128
              35-39                     37                   7      259
              40-44                     42                   8      336
              45-49                     47                   6      282
              50-54                     52                   5      260

                                       Total                 30     1265


   La marca de clase es el punto medio de cada intervalo. Para tal fin se
suman los dos valores extremos y se divide entre dos. Por ejemplo, la
marea de clase para el primer intervalo es:
46                                                    SERIE: APRENDER A INVESTIGAR



           30 + 34   64
     X =           =    = 32
              2      2

     Por consiguiente al aplicar la fórmula la media aritmética es:


     media = 1.265 = 42.17
               30

   La media aritmética tiene sus ventajas, sobre las otras medidas de
tendencia central, en que:

•    Cada caso se incluye en el cálculo.
•    Es rígidamente calculada, es decir, sólo hay una para conjunto de datos.
•    Es importante para hacer inferencias, es decir sirve también para cal-
     cular parámetros de la población.

   La media aritmética sólo se puede calcular a valores numéricos, es
decir que estén en escala de intervalos o de razón.

3.2 Medidas de dispersión

   Son aquellas que nos determinan cómo se agrupan o se dispersan los
datos alrededor de un promedio.

   En este capítulo se estudiarán las medidas que se utilizan para deter-
minar cuán bien representan los promedios a la distribución considerada.

   En el siguiente ejemplo se presentan las notas obtenidas por dos gru-
pos de estudiantes:

                       Grupo A                Grupo B

                          80                     97
                          80                     95
                          75                     70
                          83                     72
                          82                     73
                          81                     96
                          82                     80
                          75                     72
                          79                     71
                           7                     71

                         795                    797
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      47


    XA = 79.5
    XB = 79.7

    La media aritmética de ambas series es prácticamente igual (79.5 en
el grupo A y 79.7 en el grupo B). Un análisis de las cifras individuales
revelan un gran contraste. En el grupo A hubo muy poca variación entre
las notas, siendo la más alta 83 y la más baja 75. En el grupo B, se nota
mayor variación, en este grupo la mayor nota fue 97 y la menor 71. Como
conclusión se podría decir que en el grupo B hubo notas muy altas y muy
bajas. En el grupo A las notas tuvieron una mayor concentración alrede-
dor del promedio.

   Para establecer esta característica se utilizan las medidas de varia-
ción o dispersión, entre las cuales las más utilizadas son el rango, la
varianza y la desviación estándar.

3.2.1 El rango

    La medida más simple de dispersión es el rango. Este identifica la
distancia entre el valor mayor y el valor menor de la distribución. Más
específicamente, se define como la diferencia entre el mayor valor y el
menor valor. Se simboliza por r.

    Ejemplo, el rango de la siguiente distribución es:

    25, 36, 64, 20, 48, 59.

    r = 64 - 20 = 44

   El rango es sencillo de calcular pero tiene la desventaja de que es
sensible a los valores extremos.

3.2.2 Percentiles

   Los percentiles son usados para calcular una segunda medida de dis-
persión. El P-ésimo percentil de un conjunto de mediciones ordenadas
según su magnitud, es el valor que tiene P% de las mediciones por debajo
de él y (100 P%) por encima.

    Se utilizan muy frecuentemente para describir los resultados de pruebas
de conocimiento, como los del Sistema Nacional de Pruebas y en la clasi-
ficación de personas en forma comparativa. Entre los percentiles de más
interés están el 25, el 50 y el 75, frecuentemente denominados como el
menor cuartil Q1, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.
48                                                        SERIE: APRENDER A INVESTIGAR


3.2.3 Varianza

   De todas las medidas de dispersión, la más importante, más conocida
y usada es la varianza. Se define como la media aritmética de los cuadra-
dos de las desviaciones, respecto a su media. Se simboliza por S 2.

     Su fórmula es:


     S2 =   Σ (x - media)
                i
                          2
                                  para datos no agrupados
                    n


     S2 =   Σ f (X - media)   2

                                  datos agrupados
                    n

     Ejemplo con datos no agrupados

     Xi = 5; X 2 = 3; X3 = 1; X4 = 6; X5 = 10

            5 + 3 + 1 + 6 + 10   25
     X =                       =    = 5
                   5              5
            (5-5)2 + (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2
     S2 =
                                 5
            0 + 4 + 16 + 1 + 25   46
     S2 =                       =    = 9.2
                    5              5

     Lo cual indica que la varianza de los datos es de 9.2

     Ejemplo para datos agrupados

     Supongamos la siguiente tabla de pesos en kilogramos:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                     49


                   Tabla 8 - Pesos de 100 estudiantes de un colegio

                     Marca de
   Pesos              clase X        X-X         (X - X)2   Frecuencias f   f (X - X)2

   60-62                  61         -6.45        41.60           5          208.0
   63-65                  64         -3.45        11.90          18          214.2
   66-68                  67         -0.45         0.20          42           8.4
   69-71                  70         2.55         6.50           27          175.5
   72-74                  73         5.55         30.80           8          246.4

   Total                                                       100 = n       852.51


    X = 67.45


    S2 =     Σ f (x - x)       2
                                   donde     X es la marca de clase
                      n
                                             X la media aritmética
                                             f la frecuencia de cada intervalo

              852.5
    S2 =                   = 8.52
                   100

    Propiedades de la varianza

a. La varianza siempre debe ser un valor positivo S 2> 0

b. La varianza de una constante es 0, es decir: si Xi = C para todo i,
   entonces S 2 = 0

c. La varianza de una constante más una variable, es igual a la varianza
   de la variable.

    S2   (k + X)   : = S 2k + S 2x = 0 + S 2x = S 2x

    También es válida para la diferencia

    S2   (k + X)   : = S2k + S 2x = 0 - S 2x = S 2x

d. La varianza de una constante por una variable, es igual al producto de
   la constante al cuadrado por la varianza de la variable:

    S 2 (kX): = k2 S 2X
50                                                     SERIE: APRENDER A INVESTIGAR


3.2.4 Desviación estándar

   La desviación típica estándar es la raíz cuadrada de la varianza, con-
siderada siempre con signo positivo.

     S=     S2

   Para el caso del peso de los 100 estudiantes del colegio la desviación
estándar es:

     S=     8.52 = 2.92

    La varianza se expresa siempre en unidades diferentes a las originales,
es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará
dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza
la desviación estándar, pues se expresa en las mismas unidades de la va-
riable.

3.2.5 Coeficiente de variación

   Esta medida relaciona la desviación estándar y la media, para expre-
sar la variación de la desviación con respecto a la media aritmética. Se
acostumbra expresarlo en porcentaje.

     La fórmula que se utiliza es:

             S
     Cv =        • 100
             X

    El coeficiente de variación sirve para determinar el grado de homogenei-
dad de la información. Si el valor del coeficiente de variación es pequeño
indica que la información tiene un alto grado de homogeneidad y si el coefi-
ciente de variación es grande es porque la información es heterogénea.

     Ejemplo: al hallar el coeficiente de variación de 6, 3, 4, 7, 8
            28
     X =       = 5.6
            5
     S = 1.85                    1.85
                          Cv =        = 0.3304 = 33.04%
                                 5.6
   Lo cual indica que la información es homogénea, pues el coeficiente
de variación es de 33.04%.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      51


3.3 Asimetría

    Una distribución es simétrica si se tiene que: la media es igual diana e
igual al modo (X = Md = Mo); pero si la distribución se vuelve asimétrica
las tres medidas se separan y entonces el valor promedio ar será mayor
que la mediana, que a su vez será mayor que el modo, deduciéndose que
la distribución es asimétrica positiva. Si la media aritmética es menor que
la mediana y ésta menor que el modo, se dice que la distribución es
asimétrica negativa. En la distribución asimétrica positiva, la curva pre-
senta un alargamiento a la derecha; en la negativa el alargamiento pre-
senta hacia la izquierda. Véase gráficas 4.




                                   Gráfica 4. Asimetría


    Las fórmulas para calcular la asimetría y su grado son:

            Media aritmética - Modo           X - Mo
    As =                                  =
              Desviación estándar              s

            3(Media aritmética - Mediana)           3(X - Md)
    As =                                        =
                 Desviación estándar                    s



3.4 Kurtosis

    Una característica importante de la variación de algunas distribucio-
nes es su grado de agudeza en la cima de la curva que las representa
agudeza que se observa en la región del modo, comparada con las con-
diciones halladas para el mismo sitio en la curva normal, es lo que
Kurtosis.
52                                                              SERIE: APRENDER A INVESTIGAR


    Si la curva es más plana que la normal, la distribución se llama achatada
o platicúrtica; si es más aguda, lleva el nombre de apuntada o leptocúrtica,
y si la curva es normal, se denomina mesocúrtica.

   La Kurtosis es una medida de altura de la curva, por lo tanto está re-
presentada por el cuarto momento de la media. En la misma forma que
para la asimetría, su cálculo se efectúa en función de la desviación estándar
y de los momentos unidimensionales de orden cuatro con respecto a la
media aritmética.

                                   m4         m4
     Su fórmula es:         a4 =         =
                                    s4        m 22

   Otra formula para medir la Kurtosis es la que se basa en los cuartiles
y percentiles.

               Q
     K =
           P90 - P10


   En donde Q = 1/2 (Q3-Q1). Si el valor encontrado de la Kurtosis es
igual a 0.263 se dice que la curva es mesocúrtica o normal; si es mayor, la
curva es leptocúrtica y si es menor, la curva es platicúrtica.

   Por ejemplo, calcular el coeficiente de Kurtosis, si el valor del primer
cuartil es Q1 = 68.25; Q3 = 90.75; P10 D1 =58.12 y P90 = D9 = 101.00

     Aplicando la fórmula se tiene:

               Q                              1
     K =                   en donde Q =            (Q3-Q1) reemplazando
           P90 - P10                          2

                       1                             1
     Se tiene Q =           (90.75 - 68.25) =            (22.5) = 11.25
                       2                             2

               11.25               11.25
     K =                      =              = 0.262
           101.00 - 58.12          42.88


     Se puede decir que la curva es normal o mesocúrtica.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      53


3.5 Tablas de contingencia

   En muchas ocasiones, la información puede organizarse y presentar-
se de acuerdo con la relación entre dos o más variables.

   Es cuando se habla de tablas de doble entrada o múltiples entradas o
comparación de colectivos. Las variables pueden ser categóricas o nu-
méricas.

   Esta forma de representación presenta grandes ventajas, entre otras
resume información y posibilita el análisis de dependencia, asociación,
correlación y homogeneidad.

   Supongamos que a partir de datos disponibles en nuestro estudio se
ha elaborado el siguiente cuadro:


  Tabla 9. Distribución de alumnos por jornadas y clase de colegio


                                              NÚMERO DE ALUMNOS
  CLASIFICACIÓN DE
    LA JORNADA                  COLEGIOS             COLEGIOS     TOTAL
                                OFICIALES            PRIVADOS

  Única                                230              840       1070
  Mañana                               583              614       1197
  Tarde                                418              234       652

           Total                       1231             1688      2919



   Si comparamos los datos en dirección horizontal constatamos que el
mayor número de estudiantes corresponde a la jornada de la mañana,
mientras que si leemos los datos en dirección vertical el mayor número de
estudiantes corresponde los colegios privados.

   En ocasiones el investigador desea especificar y analizar los datos
con más variables. Para el ejemplo anterior podría ser sexo y edad.
54                                                           SERIE: APRENDER A INVESTIGAR


                Tabla 10. Distribución de alumnos por jornadas,
                         clase de colegio, sexo y edad


     Clasificación          COLEGIOS OFICIALES           COLEGIOS PRIVADOS

     de la jornada          Hombres          Mujeres    Hombres            Mujeres

                      10-15     15-20   10-15 15-20 10-15 15-20 10-15 15-20
     Única                52     80          22    76   132      180     423      105
     Mañana            121       47      168      247   241      132      86      155
     Tarde             123       154         49    92   76        51      47       60

         Subtotal      296       281     239      415   449      363     5561     320

        TOTAL                         1231                          1688


   En este ejemplo, el 52 corresponde al número de estudiantes hombres
entre los 10 y 15 años, de jornada única pertenecientes a colegios oficiales.

   Las tablas de contingencia se pueden realizar con frecuencias relati-
vas, es decir, con porcentajes.


ÍNDICE DE DISPERSIÓN CATEGÓRICO

  Para datos ordinales y nominales se utiliza el llamado ÍNDICE DE DIS-
PERSIÓN CATEGÓRICO, cuya fórmula es:

             K(N2 - Σ f2)
      D =
              N2(K - 1)


      Donde K    es el número de categorías de la variable.
            Σ f2 es la suma de las frecuencias al cuadrado
            N = número de casos (tamaño de la muestra)

      Por ejemplo:

   Si tenemos la siguiente clasificación de 15 estudiantes por preferen-
cias deportivas:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       55



          DEPORTES                       ALUMNOS               f2

    FÚTBOL                                      8              64
    VOLEIBOL                                    2              4
    BASKET                                      5              25
             TOTAL                              15


    El índice de dispersión categórico sería:

           3(225 - 93)
    D =
            225(3 - 1)

           396
    D =            = 0.88
           450

    Lo cual indica que los datos presentan una dispersión del 88%.




          DISTRIBUCIÓN DE DATOS, TÉCNICAS NUMÉRICAS
                     AUTOEVALUACIÓN N° 2


   Lea cuidadosamente cada uno de los siguientes enunciados y seña-
   le la respuesta correcta.

   1. Para entender la naturaleza de la distribución de frecuencias, las
      medidas de tendencia central son mejores que las de dispersión

      Sí _______ No _______


   2. Las medidas de tendencia central son-.
      ___________________________________________________


   3. ¿Cuál es la mediana de la siguiente distribución?

        4, 4, 5, 3, 7, 9, 5, 1, 7, 3, 7, 7, 5
56                                                   SERIE: APRENDER A INVESTIGAR




     4. Un profesor pidió los pesos en Kg a 30 estudiantes del curso de
        álgebra y obtuvo los siguientes resultados:


                                         No. de estudiantes
                       Edad                       f

                       30-34                     5
                       35-39                     6
                       40-44                     8
                       45-49                     7
                       50-54                     4

                       Total                    30




        a. ¿Cuál es el peso promedio de sus alumnos? _________

        b. ¿Cuál es la mediana? _________

        c. ¿Cuál es la moda de las edades? _________


     5. ¿Cuáles son las modas de las siguientes series de números?

        a) 122, 103, 148, 113, 103, 118.

        b) 75, 84, 37, 49, 51, 83.

        c) 22, 43, 22, 38, 41, 43, 20.


     6. ¿Cuál es la medida de dispersión más sencilla?
        ___________________________________________________


     7. El rango tiene la desventaja de ser sensible a los valores
        extremos.

       Sí _______ No _______
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                           57




   8. La varianza siempre debe ser un valor positivo.

      Sí _______ No _______


   9. ¿Cómo se define la Desviación Estándar?
      ___________________________________________________


   10. Una de las características de la Kurtosis es el grado de agudeza
       de la curva, la cual se puede clasificar en tres tipos:

        a. Una más plana que la normal 0:           __________________
        b. La segunda más aguda 0:                  __________________
        c. Si la curva es normal 0:                 __________________




                 RESPUESTA A LA AUTOEVALUACIÓN N° 2


                      10. a. Platicúrtica. b. Leptocúrtica. c. Mesocúrtica

                                        9. La raíz cuadrada de la varianza

                                                                      8. Sí

                                                                      7. Sí

                                                                 6. El rango

                                       c) 22 y 43    b) No hay    5. a) 103

                                                           c. moda= 8
                                                           b. Mediana = 42
                                                        4. a. X = 4.18

                                                                       3. 5

                                               2. Media, mediana y moda

                                                                      1. No
58                                                           SERIE: APRENDER A INVESTIGAR


                                Taller de estadística N° 1

    Se realizó un experimento para evaluar el efecto de la edad en la fre-
cuencia cardíaca, cuando se somete una persona a un grado específico
de ejercicios. Se seleccionaron al azar hombres de cuatro grupos de eda-
des, 10-19, 20-39, 40-59, 60-69. Cada individuo recorrió la banda sin fin a
una velocidad específica durante 12 minutos y se registró el aumento de
la frecuencia cardíaca, la diferencia antes y después del ejercicio, (en la-
tidos por minuto)

   ¿Qué puede usted concluir, si los siguientes datos son el resultado del
procesamiento de la información apoyada en el computador.


        VARIABLE                GRUPO 1      GRUPO 2         GRUPO 3        GRUPO 4
     Talla                      15           10              12             12
     Promedio                   30.1333      27.5            29.5           38.3333
     Mediana                    30           27.5            29             37.5
     Moda                       22           24              33             36
     Varianza                   24.8381      23.8333         19.1818        50.6061
     Desviación estándar        4.98378      4.88194         4.37971        7.11379
     Mínimo                     22           21              22             28
     Máximo                     39           34              37             54
     Rango                      17           13              1.5            26
     Quartil inferior           26           24              26.5           34.5
     Quartil superior           34           32              33             42
     Rango interquartil         8            8               6.5            7.5
     Skewness                   -0.0873053   -0.0716212      0.0311649      0.668752
     Kurtosis                   -0.612727    -1.59948        -0.726827      1.02909
     Coeficiente de variación   16.5391      17.7525         14.8465        18.5577
     Suma                       452          275             354            460



Preguntas

1.     ¿Qué tipo de muestreo se realizó?
2.     ¿Qué grupo fue más homogéneo en los resultados? ¿Por qué?
3.     Comparando las medias aritméticas ¿qué grupo obtuvo la menor
       media?
4.     ¿Qué grupo presenta un mayor rango? ¿Qué significa?
5.     Si consideramos el grupo 4
       5.1 ¿Cuál es el mínimo valor?
       5.2 ¿Cuál fue el mayor aumento de frecuencia cardíaca?
       5.3 ¿Qué porcentaje de la información está por debajo de 34.5?
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                   59


     5.4 ¿Qué porcentaje de la información está por encima de 34.5?
     5.5 ¿Qué porcentaje de la información está entre 34.5 y 42?
6.   Si consideramos el grupo 2
     6.1 ¿Qué porcentaje de la información está por encima de 32?
     6.2 ¿Qué valor corresponde al dato que más se repite?
     6.3 ¿Qué dato está ubicado en el primer cuartil?
     6.4 ¿Qué significado tienen las dos respuestas anteriores?

Respuestas

1.   Muestreo aleatorio por estratos según edades.
2.   El grupo No. 3 porque obtuvo el menor coeficiente de variación.
3.   El grupo No. 2 con un valor de 27.5.
4.   El grupo No. 4 significa que obtuvo mayor variabilidad entre el dato
     mayor y el dato menor.
5.   5.1 28
     5.2 54
     5.3 El 25%
     5.4 El 75%
     5.5 El 50%
6.   6.1 El 25%
     6.2 24
     6.3 24
     6.4 Significa que por debajo del dato que más se repite hay un 25%
           de la información.
60                                                   SERIE: APRENDER A INVESTIGAR



4. INTRODUCCIÓN A LAS PROBABILIDADES
4.1 Probabilidades elementales

    Consideramos varios ejemplos: es casi seguro que hoy no llueve, con
ello expresamos algún grado de confianza de que no llueve, a pesar de la
completa seguridad.

   ¿Qué posibilidad existe de obtener una buena nota en el examen de
economía? ¿En el de estadística?

     «En el próximo examen tengo la oportunidad de obtener una nota alta».

   Si un aficionado a la hípica es preguntado sobre una fija en una deter-
minada carrera, puede darnos una insinuación de cuál caballo puede ga-
nar. «El caballo X tiene una buena oportunidad».

    Nos encontramos con un conjunto cuya técnica se refiere a resultados
que no estamos muy seguros. Asociamos cierto grado de confianza, con
relación a que cada una de estas predicciones se realice. El cierto grado
de confianza reposa en la experiencia (pasada y presente).

    Los Bayecianos definen la probabilidad de un acontecimiento, como
una medida del grado de confianza que uno tiene, en que ocurra el acon-
tecimiento.

   Otros autores consideran que la probabilidad pertenece a aquellas no-
ciones imposibles de ser definidas adecuadamente y se les considera
basadas en la experiencia. Por lo tanto, se puede decir que la probabilidad
es una creencia basada en la experiencia.

     Consideramos algunas definiciones, según el método.

   a. Método axiomático. El cual concibe la probabilidad de ocurrencia
de un suceso, como un número comprendido entre cero y uno. Este con-
cepto tiene que ver directamente con la noción de frecuencia relativa,
donde: 0 < p < l.

   Supongamos que se lanza 100 veces una moneda, anotamos el número
de veces que sale cara y las veces que sale sello; los resultados fueron los
siguientes:

     Frecuencias absolutas:       cara 56 veces;           sello 44 veces
     Frecuencias relativas:       56/100;                  44/100
     Posibilidad:                 p = 56% (éxito);         q = 44% (fracaso)
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                                    61


    b. Método empírico o práctico. Considera la probabilidad de un su-
ceso, como aquel número al cual se aproxima cada vez la frecuencia re-
lativa de la ocurrencia de un suceso, cuando las veces que se repite el
experimento que origina ese suceso es bastante grande. Este concepto
tiene algo que ver con el experimento de Quetelet, en donde la probabili-
dad de un suceso tiende a estabilizarse en un punto, cuando el número de
experimentos se va haciendo cada vez más grande.

    c. Método clásico. Considera la probabilidad como el cuociente de
dividir los casos favorables, que pueden ocurrir en un suceso, por el total
de casos posibles.

          Número de casos favorables
    p = __________________________
           Número de casos posibles

    Ejemplos:

    – En el lanzamiento de una moneda hay:

        2 posibilidades                N° Combinaciones              Probabilidades

                 C                              (C)                      1/2 = 0.5
                 S                              (S)                      1/2 = 0.5
                                                2                         1 = 1.0

    – Lanzamiento de dos monedas.

        4 Posibilidades                N° Combinaciones              Probabilidades

               2C                      (C,C)                 1             1/4 = 0.25
             1Cy1S                     (C, S)         (S, C) 2             2/4 = 0.50
               2S                      (S,S)                 1             1/4 = 0.25
                                                            4               1 = 1.00

    – Lanzamiento de tres monedas.

        8 posibilidades                N° Combinaciones               Probabilidades

                1C             (C, C, C)                         1          1/8 = 0.125
              2C y 1S          (C, C, S) (C, S, C) (S, C, C)     3          3/8 = 0.375
              2S y 1C          (S,S,C)(S,C,S)(C,S,S)             3          3/8 = 0.375
                3S             (S, S, S)                         1          1/8 = 0.125
                                                                 8            1 = 1.000
62                                                         SERIE: APRENDER A INVESTIGAR


    En efecto el número de casos posibles en los ejemplos anteriores se
obtiene:

     21 = 1           2n
     22 = 4           2 = casos posibles en una moneda
     23 = 8           n = número de lanzamientos

     En un dado sería: 6n

     61 = 6           6 = casos posibles en un dado
     62 = 36          36 = casos posibles al lanzar dos dados

4.2 Esperanza

   Si p es la posibilidad de éxito en un suceso, en un solo ensayo, el
número de sucesos o esperanzas de ese suceso en n ensayos, estará
dado por el producto de n y la probabilidad de éxito p.

                                         E=np

     Ejemplo:

   En el lanzamiento 900 veces de dos dados, ¿cuál es la esperanza de
que la suma de sus caras sea un valor menor a 6?

   Primero obtenemos la probabilidad de éxito del suceso en un solo
ensayo.

              (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10

     Como se lanzan 900 veces, en dos dados, se tiene:

                      10        900
     E = np = 900           =           = 250
                      36        36

   La esperanza es que en 250 de los 900 lanzamientos, la suma de sus
caras sea menor de 6.

4.3 Leyes de las probabilidades

     Para facilitar el cálculo de las probabilidades se emplean estas leyes.

1. Si dos o más sucesos son tales que solamente uno de ellos puede ocu-
   rrir en un solo ensayo, se dice que son mutuamente excluyentes. Se
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        63


    denomina probabilidad aditiva y será igual a la suma de las probabilidades
    de cada suceso.

    P = P 1 + P2 + P3........... + Pn

    Ejemplo:

    La probabilidad de obtener un as o un rey, sacando una sola carta en
    una baraja española de 40 cartas. Si uno de los casos aparece, queda
    excluido el otro.

             4         1
    P1 =          =      (As)
             40       10
             4         1
    P2 =          =      (Rey)
             40       10
                       1   1                2       1
    P = P1+P2 =          +             =        =
                      10   10              10       5

2. Se dice que dos o más sucesos son independientes, si la probabilidad
   de presentación de alguno de ellos queda influenciada por la presenta-
   ción del otro. En caso contrario, se dice que son dependientes.

    En otras palabras, si el resultado de un suceso no afecta al otro, se
    dice que son independientes, por lo tanto se efectuará la multiplicación
    de las probabilidades para cada suceso.

    P = P1 x P2 x P3..... x Pn

    Ejemplo:

    ¿Qué probabilidad tendremos de obtener dos reyes, sacando una car-
    ta de una baraja y la otra de una segunda baraja?

            4     4            16     1
    P =        x          =        =
            40   40           1600   100

    Se dice que los sucesos son dependientes, o eventos compuestos, si la
    ocurrencia o no ocurrencia de un evento en cualquier prueba afecta la
    probabilidad de otros eventos en otras pruebas, es decir que la probabi-
    lidad del segundo suceso depende del primer suceso, el del tercero, de
    lo que haya sucedido en el primero y segundo y así sucesivamente.
64                                                  SERIE: APRENDER A INVESTIGAR


     Ejemplo:

     La probabilidad de obtener tres ases, sacando sucesivamente tres
     cartas de una baraja española, sin volverlas a incluir (sin reposición)
     en el montón.

             4              3               2
     P1 =           P2 =            P3 =
            40             39              38

             4     3        2        24
     P =        •      •        =
             40   39       38       59280

              1
     P=
            2470

4.4 Análisis combinatorio

   El análisis combinatorio es un sistema que permite agrupar y ordenar,
en diversas formas, los elementos de un conjunto.

     Los tres principales tipos de análisis combinatorio son:

4.4.1 Permutaciones

   Se denominan permutaciones de η elementos, los diferentes grupos
que se pueden hacer, tomándolos todos cada vez.

     Las permutaciones implican orden.

   Cada conjunto ordenado de η elementos se denominará una permuta-
ción de los n elementos diferentes.

   La formula es Pn = n!, donde Pn corresponde al número de permuta-
ciones posibles.

     Por ejemplo:

     Determine el número de permutaciones posibles de las letras A, B, C, D.

     P4 = 4! = 4 x 3 x 2 x 1 = 24

     Representémoslas:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         65


        ABCD                    BACD                  CABD           DABC
        ABDC                    BADC                  CADB           DACB
        ACBD                    BCDA                  CBAD           DBAC
        ADBC                    BDAC                  CDAB           DCBA
        ADCB                    BDCA                  CDBA           DCAB
        ACDB                    BCAD                  CBDA           DBCA

    Otro ejemplo:

    ¿Cuántos números diferentes de 9 cifras se pueden formar con los dígitos
del cero al 9, usándolos una sola vez?

    P10,= 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800

Permutaciones con repetición

    Las permutaciones con repetición r, son un caso particular de las variacio-
nes y no existe una ley sencilla para su formación. Dado lo complicado del
sistema, sólo, se presenta la fórmula que logra el número de esta clase de
permutaciones.

    Sean los elementos aa - bbb - cc - d, para permutar con repetición, ten-
dremos 8 elementos repartidos así: dos del primero, tres del segundo, dos
del tercero y uno del cuarto, entonces las permutaciones se presentarán
así:

    P8(r: 2,3,2,1) y la fórmula respectiva será:

                          8!       8x7x6x5x4x3x2x1
    P8(r:2,3,2,1) =            =
                      2!3!2!        2x1x3x2x1x2x1

    P8(r:2,3,2,1)=1680

    La formula será                           n!
                           Pn(r: r1, r2) =
                                             r1!r2!
    Ejemplo:

   ¿De cuántas maneras distribuiríamos 3 monedas de $100 y 4 monedas
de $500 en una misma línea?

                    7!         7x6x5x4x3x2x1
    P7(r: 3,4) =           =
                   3!4!        3x2x1x4x3x2x1

    P7(r: 3,4) = 35
66                                                               SERIE: APRENDER A INVESTIGAR


     Otro ejemplo:

   Cuántos grupos de 2 letras se pueden formar con las letras de la palabra
amigas.

                     6!
     P6(r: 2) =               = 360
                     2!

4.4.2 Variaciones

  Las variaciones corresponden a aquellas permutaciones donde los ele-
mentos no se toman en su totalidad.

   Dado un conjunto de n elementos diferentes, se denominará permutación
parcial o variaciones, de subconjunto de r elementos (r<n) pertenecientes al
conjunto dado.

                                   n!
     La fórmula es: Vrn =
                                 (n - r)!


     En el ejemplo de las cuatro letras o elementos (n) vamos a permutar de a 2 (r)

      4        4!              4x3x2x1
     V2 =                 =                    = 12
             (4 - 2)!              2x1

                 AB                     BA               CA                DA
                 AC                     BC               CB                DB
                 AD                     BD               CD                DC

     Ejemplo:

    ¿Cuántas cifras diferentes de 4 dígitos se pueden formar con los dígitos
del 0 al 9, usándolos una vez?

               10!             10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1
     V10 =
      4                   =                                             = 5.040
             (10 - 4)!                      6x5x4x3x2x1

4.4.3 Combinaciones

  Son aquellas en las que no interesa el orden de la aparición de ele-
mentos del conjunto. Será lo mismo AB que BA.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        67


    Cuando se toma la totalidad de elementos, solamente se puede hacer una
combinación. Si se tiene las letras A, B, C, D y se combinan de dos en dos, se
obtienen 6 casos:

        AB          BC         CD
        AC          BD
        AD

    La fórmula será:
                     n!
    (n) = Cn =
     r     r
                  r!(n - r)!

    Y se lee combinación de n elementos tomados de r en r.

    Ejemplo:

    Cuál es la combinación de las 4 letras A, B, C, D, tomadas de 4 en 4.

                     4!             4x3x2x1
     4
    (4) = C4 =
           4
                               =                = 1
                 4!(4 - 4)!        4x3x2x1x1

    El factorial de cero es uno (0! = l).

    En la combinación de estas 4 letras tomadas de 2 en 2 será,

                     4!             4x3x2x1
     4
    (2) = C2 =
           4
                               =               = 6
                 2!(4 - 2)!        2x1x2x1

4.5 Probabilidad condicional

    En algunos eventos probabilísticos se tiene alguna información, que
reduce el espacio muestral original a uno de sus subconjuntos; las probabi-
lidades asociadas a esos subconjuntos determinan la probabilidad condi-
cional.

    Su fórmula está dada así:

                    ∩
                 P(B∩A)
    P(B/A) =
                  P(A)


    Ejemplo:
68                                                       SERIE: APRENDER A INVESTIGAR


     El 18 % de las familias de un barrio tienen vehículo propio, el 20% tiene
vivienda de su propiedad y el 12% tiene vivienda y vehículo. ¿Cuál es la posi-
bilidad de tener vivienda si se tiene vehículo?

     A = Propietario de vehículo

     A’ = No propietario de vehículo

     B     Propietario de vivienda

     B’    No propietario de vivienda

                                      B            B’             Total

                     A               0.12         0.06             0.18

                     A’              0.08         0.74             0.82

                    Total            0.20         0.80             1.00

                     0.12
     P(B/A) =               = 0.66
                     0.18




                    INTRODUCCIÓN A LAS PROBABILIDADES
                           AUTOEVALUACIÓN N° 3


     1. La definición clásica de probabilidades es el cociente de dividir el
        número de casos favorables que pueden ocurrir en un suceso, por
        el número de casos posibles: Sí ______        No ______

     2. ¿Cuál es la probabilidad de que una bola, extraída al azar de una
        urna que contiene 3 bolas rojas, 4 blancas y 5 azules, sea blanca?

          a. 3/12

          b. 1/3

          c. 5/16

          d. Ninguna
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        69




   3. Una señora invita a cenar a 8 personas; después de sentarse ella,
      ¿de cuántas maneras se pueden sentar sus invitados?

   4. En un juego de moneda, entre dos personas, con un premio de
      $1.000 por aparición de cara, ¿cuál es la esperanza de ganar con el
      resultado de cara?

   5. ¿De cuántas maneras se pueden sacar dos manzanas de una caja
      que contiene 8 manzanas?




                 RESPUESTAS A LA AUTOEVALUACIÓN N° 3

                                                            5 . C82 = 28

                                                                4 . $500

                                                              3 . 40.320

                                                                 2 . 1/3

                                                                  1. Sí.
70                                                                         SERIE: APRENDER A INVESTIGAR


4.6 Distribución binomial

     En repetidos ensayos, siendo p la probabilidad de éxito en un solo ensayo
la cual debe permanecer fija y q la probabilidad de fracaso, entonces la proba-
bilidad P de que se obtengan r éxitos en n ensayos, es el termino del desarro-
llo binomial (q+p)n.

     La fórmula general será:

     p = Cnr pr qn-r

     Los criterios que deben satisfacer una experiencia binomial son:

a) Existir un número fijo de pruebas repetidas (n).

b) Cada una de las n pruebas debe tener dos resultados: favorable o desfa-
   vorable; en el caso de una moneda será: cara o sello.

c) La probabilidad de éxito de un acontecimiento es fija.

d) Las pruebas son independientes.

e) Nos interesa el número de éxitos en n pruebas.

   En caso de lanzar 4 monedas y se quiera determinar la probabilidad de
obtener exactamente dos caras, será:
                      2       4-2                2       2
                  1       1            4!    1       1           4.3.2.1    1    1
     P = C   4
             2
                                    =                        =
                  2       2           2!2!   2       2           2.1.2.1    4    4

                 1             6
     P = 6                =          = 0.375 = 37.5%
                 16           16

4.7 Distribución normal

   Muchas distribuciones de mediciones, que se hacen tanto en las cien-
cias sociales como en las ciencias naturales, tienden a tener un polígono
de frecuencias con una forma que se asemeja al corte transversal de una
campana.

   Esta distribución se observa más cuando el número de observaciones
es grande y cuando en muchos casos las investigaciones se realizan con
muestras de poblaciones grandes; en la mayoría de los casos las distri-
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          71


buciones tienden a aproximarse a la curva en forma de campana ya men-
cionada.

    Una distribución de frecuencias que se asemeja a una campana se reco-
noce como una Distribución Normal, que por tener características especia-
les, se convierte en un requisito fundamental para entender el proceso rela-
cionado con la inferencia estadística y la prueba de hipótesis.

    Cuando el número n de experimentos es grande, se hace difícil el cálculo
de las probabilidades mediante el teorema del Binomio; para facilitar el cálculo
y agilizar las operaciones, utilizaremos la distribución normal.

    Entre las propiedades de la distribución normal están,

a. El área total debajo de la curva, puede representar el número total de ele-
   mentos en una población y se puede considerar que el área es igual a la
   unidad.

    Esta propiedad permite determinar la proporción de la frecuencia conteni-
    da entre dos puntajes a lo largo del eje horizontal, ya que se puede calcular
    la proporción del área debajo de la curva y contenida entre los dos puntos.

b. La media aritmética, la mediana, y la moda de una distribución normal son
   iguales a cero.

c. La desviación estándar es igual a 1

d. Como veíamos, tiene una distribución simétrica.

e. Es una distribución asintótica, es decir, como no toca el eje de las X, se
   extiende infinitamente.

f. En una distribución normal el 68.26% de los valores bajo la curva, se en-
   cuentra dentro de más o menos una desviación estándar de la media arit-
   mética; el 95.46% de los valores debajo de la curva se encuentra dentro
   de más o menos dos desviaciones estándar de la media y el 99.9% se
   encuentra dentro de más o menos tres desviaciones estándar, tal como
   se ve en la gráfica 5.

    La curva está dada por la función:
72                                                          SERIE: APRENDER A INVESTIGAR


                    z2
            n            2


     Y=            e2G
          G √2π
              π

     donde: n            número de datos
            G            desviación estándar de la distribución binomial = √ npq
            e            base de los logaritmos naturales = 2.71828
            π            3.1416
            µ            media de la distribución nominal = np




                  Gráfica 5. Características de una distribución normal.


Probabilidad mediante una aproximación a la curva normal

     X y Y son cantidades concretas de la misma especie. La variante esta-
                χ−µ
dística z =       , representa una medida de las desviaciones estándar o
              G
de las G llamadas unidades estandarizadas. La expresión anterior también
es conocida como desviación normal. Aplicando la fórmula podemos cal-
cular la probabilidad, por ejemplo de obtener 4, 5 y 6 caras, en 9 lanza-
mientos de una moneda, mediante una aproximación a la binomial.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         73


    n=9      p=½        q=½
    µ = np = 9 (½) = 4.5

    G = √ npq = √ 9 (½) (½) = 1.5

    p = (3.5 < x <6.5)

    x = 4,5 y 6 caras




                                       Gráfica 6.


   Se tiene que x 3.5 corresponde al límite inferior de 4, y x 6.5 es el límite
superior de 6. Se va a buscar el valor del área comprendido entre 3.5 y 6.5,
o sea, P (3.5<x<6.5). Primero localizamos el área a partir de la media
hasta el límite inferior, dado que cada lado vale el 50%, la suma total será
igual a uno.

                        x–µ                         3.5 - 4.5
    De donde z =                  entonces z =                = –0.67
                         G                            1.5

    z = (-0.67) = 0.2486, tomado de la tabla, área bajo la curva normal.
74                                                    SERIE: APRENDER A INVESTIGAR



          6.5 - 4.5
     Z=               = 1.33
            1.5

     Z = 1.33 = 0.4082, tomado de la tabla, área bajo la curva normal.

     Se desea el área comprendida entre z = -0.67 y z = 1.33

     Para ello sumamos: 0.2486 + 0.4082 = 0.6568

   La probabilidad de que aparezca 4, 5 y 6 caras es del 65.68%. Véase
gráfica 6.

     Ejemplos:

   Usando la tabla del área bajo la curva normal, plantearemos algunos
problemas que servirán de modelo. Ver gráficas: 7 - 8 - 9 y 1 0.

a) Para z = 1.5 y z = -1.4

     z = 1.5 la tabla da 0.4332       z =1.4 la tabla de 0.4192

     p (-14<z<1.5) = 0.4332+0.4192

     p 0.8524 = 85.24%




                                     Gráfica 7.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                            75


b) Si se plantea p (z<1.5), corresponde al siguiente gráfico.
   0.5000 + 0.4332 = 0.9332 = 93.32%




                                       Gráfica 8.



c) P (z>1.5)
   0.5000 - 0.4332 = 0.0668 =6.68%




                                       Gráfica 9.
76                                                     SERIE: APRENDER A INVESTIGAR


d) Si queremos conocer el porcentaje de frecuencia comprendida entre

     z = -3 y z = -2, será necesario proceder por diferencia.

     z = -3 = 0.4987
                0.4772
     z = -2 =
                0.0215

     La diferencia es 0.0215 = 2.15%

     P (-3 < z < -2)= 2.15%




                                  Gráfica 10.


4.8 Distribución de Poisson

    Se tiene ahora una distribución binomial, cuando n es grande, por lo gene-
ral mayor de 50, a la vez que p, la probabilidad de éxito de un suceso se
acerque a cero, mientras que q, la probabilidad de fracaso, se aproxime a
uno, de tal manera que el producto np, llamado lamda λ es menor o igual a 5,
debe utilizarse la distribución de Poisson.

     Su fórmula es:

          λ xe-λ
               λ
     P=
           X!

     donde e = 2.71828
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      77


    λ = np

    x = número de casos favorables

    Ejemplo:

a) Si el 1 % de las bombillas fabricadas por una compañía son defectuosas,
   hallar la probabilidad de que en una muestra de 100 bombillas 3 sean
   defectuosas.

    λ = 100 x 0.01 = 1
    X=3
          13 - e-1         1 (0.36788)
   P =                 =                     = 0.06131
             3!                3.2.1

    e-1 (utilizamos la tabla para valores de e-λ)

    e-1 = 0.36788

b) Si, la probabilidad de que una persona adquiera la enfermedad como
   consecuencia de una vacuna contra la misma, es 0.0002, ¿cuál es la
   probabilidad de que la adquieran exactamente 5 personas en una po-
   blación de 10.000 vacunados?

           λ x . e-λ
                   λ

   p=
             X!

    λ = np = 10.000 x 0.0002 = 2
    x=5

                       25 (0.13534)           32(0.13534)       4.33088
    entonces P =                         =                  =
                           5.4.3.2.1              120            120

    P = 0.03609 = 3.61 %

    P (x = 5) = 3.61 %
78                                                     SERIE: APRENDER A INVESTIGAR




                 LA CURVA NORMAL Y SUS APLICACIONES
                        AUTOEVALUACIÓN N° 4


     1. La curva normal se caracteriza por que es asimptótica. Esto quiere
        decir que:

         a. La media es igual a la moda          _________________

         b. Tiene forma de campana               _________________

         c. Es simétrica                         _________________

         d. Nunca toca el eje                    _________________

         e. Ninguna de las anteriores            _________________

     2. La tabla bajo la curva normal sirve para indicar cuál es:

         a. La proporción de los casos que se encuentran entre la media y
            un valor llamado puntaje _____________

         b. El valor de la desviación estándar en relación con el valor de la
            media _____________

     3. En una distribución normal, la media, la mediana y la moda son
        iguales:

       Sí _____            No _____

     4. ¿Cuál es el área bajo la curva normal que corresponde a un z =
        2.5?
        _____________________________________________________

     5. El promedio de las notas de un curso está en 1.350 puntos y tiene
        una distribución normal con una desviación estándar de 18 puntos.

         a. ¿Qué porcentaje de alumnos tiene notas entre 1.350 y 1.377
            puntos?                    _________________

         b. Entre 1.365 y 1.377            _________________

         c. Entre 1.31 y 1.351.            _________________
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          79




   6. Con una distribución de 20 elementos se obtiene una media de 20.3
      y una desviación estándar de 2.81. Si uno de los elementos tiene un
      valor de 28, ¿cuál es el valor de z?

        a. 17.18                            _____________

        b. 7.70                             _____________

        c. 2.74                             _____________

        d. 5.48                             _____________

        e. Ninguno de los anteriores        _____________

   7. En una distribución normal, el 68.26% de los valores bajo la curva
      se encuentra dentro de más o menos una desviación estándar de la
      media aritmética.

      Sí _____        No _____

   8. En una distribución binomial, cuando n es pequeña, se utiliza la dis-
      tribución de Poisson.

      Sí _____        No _____




                 RESPUESTAS A LA AUTOEVALUACIÓN N° 3

            8=No              7=Sí;    6=c)2.74;   c)21.14%;      b)13.65;

   5=a)43.32%;         4=49.38%;           3=Sí;       2=a-,         1 =d;
80                                                   SERIE: APRENDER A INVESTIGAR



5. ESTADÍSTICA INFERENCIAL

   Ayuda a determinar la confiabilidad de la inferencia de que los fenóme-
nos observados en la muestra ocurrirán también en la población de donde
se seleccionó la muestra. Es decir, sirve para estimar la eficacia del razo-
namiento inductivo con el cual se infiere que lo que se observa en una
parte se observará en el grupo entero.

   El objeto de la estadística es el de hacer inferencias (predecir, decidir)
sobre algunas características de la población con base en la información
contenida en una muestra.

   Por lo tanto, se puede afirmar que el empleo de la estadística inferencial
presume el dominio de la estadística descriptiva. Sin embargo se debe
tener presente que al predecir un resultado o tomar una decisión se está
sujeto a una incertidumbre o margen de error, bien sea por la técnica de
muestreo o por la selección del estadístico de prueba.

    Es importante resaltar que se debe diferenciar entre las técnicas que
son válidas para el análisis de los datos cualitativos y de los datos cuanti-
tativos.

   En el caso de la estadística inferencial el investigador se encuentra
con dos tipos de técnicas. Por un lado las técnicas paramétricas que
suponen una serie de supuestos acerca de la naturaleza de la población
de la que se extrajo la muestra de estudio. Por otro lado, las técnicas no
paramétricas, que no requieren supuestos sobre las características de la
población y que se facilitan más para el análisis de datos nominales y
ordinales.

   Las ventajas de las técnicas paramétricas es que son más potentes
que las no paramétricas y por consiguiente las inferencias que se realizan
son más fiables. El inconveniente es que el investigador no siempre pue-
de cumplir con los requisitos y supuestos que exige el enfoque paramétrico,
sobre todo en investigaciones educativas y sociales.

   La ventaja de las técnicas no paramétricas es que son fáciles de utili-
zar y algunas son tan potentes como las paramétricas.

    El análisis de datos cualitativos ha generado técnicas propias, que ac-
tualmente constituyen toda una metodología específica que viene marcada
por la propia idiosincrasia cualitativa y que toma determinadas opciones en
relación a las unidades de registro de los datos y la forma de tratarlos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       81


   Actualmente existe interés por sistematizar estos procedimientos, sin
embargo esta tarea es difícil debido al carácter abierto y flexible de la me-
todología, los diversos enfoques, y la variedad de objetivos científicos que
puede cubrir.

   Una de las maneras de realizar estimaciones es con las pruebas de
hipótesis referentes a sus valores.

    En muchos aspectos el procedimiento formal para la prueba de hipó-
tesis es similar al método científico.

5.1 La prueba de hipótesis

    Ya el investigador, desde el momento en que identifica y delimita el pro-
blema que va a investigar, ha aclarado los elementos conceptuales y las
hipótesis o modelos que tiene que probar. En las etapas complicadas con
la generación de los instrumentos, con la recolección de la información y
con la codificación de la misma, estas hipótesis se aclaran mucho más y
en algunos casos, toman características cuantitativas, permitiendo la apli-
cación de técnicas estadísticas, para probar su relevancia en cuanto a su
capacidad para generalizar el fenómeno, o la relación entre fenómenos, a
poblaciones mayores, o para tomar decisiones en relación con tales fenó-
menos.

   En esta parte distinguiremos la lógica del proceso para probar una hi-
pótesis y aplicaremos en casos determinados la prueba Z, la prueba T y la
prueba de significación entre muestras, para ilustrar el proceso de prueba
de hipótesis.

La lógica de la prueba de hipótesis

    En el proceso de la estadística inferencial, hay dos tipos de hipótesis
claves: una es la hipótesis de investigación (H 1), que simplemente señala
la existencia de un hecho o de un evento, o la relación entre dos o más
fenómenos.

   La otra es la hipótesis nula (H0) que se construye artificialmente para
que el investigador evalúe su hipótesis de investigación.

   Si la hipótesis de investigación afirma que existe una relación entre dos
o más fenómenos, la hipótesis nula (H0) plantea que no existe relación
entre los dos fenómenos.
82                                                      SERIE: APRENDER A INVESTIGAR


   Es decir, se utiliza esta última como un modelo para probar la hipótesis de
investigación, o sea, probar su veracidad o su falsedad.

     Para probar una hipótesis, se necesita:

1° La existencia o planteamiento de la misma.

2° Que se anticipen los eventos que pueden resultar a partir de la observa-
   ción o experimentación.

3° Que se especifiquen las condiciones bajo las cuales la hipótesis se puede
   rechazar o aceptar.

4° Que se haga el experimento y la observación y que se analice el evento o
   resultado.

5° Que se tome la decisión de rechazar o aceptar la hipótesis.

    Esto implica que, aunque se tiene que observar o experimentar, todas las
suposiciones se hacen antes de las mismas observaciones o experimentos.
Es decir, el investigador predice y luego bajo las reglas del juego de su predic-
ción evalúa en relación con los resultados. Si éstos no son consistentes con
lo que se predijo, se rechaza la hipótesis.

   Con un ejemplo podemos ilustrar la naturaleza de la prueba de hipótesis.
Supongamos que se está probando una nueva semilla para resolver proble-
mas de productividad en una región determinada. La hipótesis de la investiga-
ción sería que la media aritmética por fanegada es mayor de 519 arrobas, que
es el tradicionalmente observado en esa región.

     Para verificar la hipótesis tenemos que completar los cinco pasos siguientes:

1° Aclarar la hipótesis de investigación H1 y crear la hipótesis nula H0.

2° Obtener la distribución del muestreo.

3° Seleccionar un nivel de significancia y una región de rechazo.

4° Hacer la prueba estadística.

5° Comparar y concluir.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         83


Punto 1

   El paso uno se define en el enunciado del problema. Para que sea verifica-
da HI, el proceso a seguir es contradecir a H0, es decir, hay que contradecir
que la media aritmética es igual o menor a 519.

    Entonces las dos hipótesis se representan así:

             H1: X > 519
             H0: X < 519

   Con lo anterior, lo que se está diciendo es que, si encontramos que el
promedio de producción por fanegada es de 519 arrobas o menos, tendre-
mos que concluir que nuestra hipótesis inicial H1, tendrá que ser modificada y
por lo tanto, la nueva semilla, por lo menos en cuanto a su productividad, no
es competitiva con las tradicionalmente utilizadas.

Punto 2

    Una vez aclaradas las suposiciones del punto 1, acerca de H1 y H0, por
medio de un razonamiento matemático podemos obtener la distribución de
muestreo, o sea, la distribución de todos los posibles valores que una estadís-
tica puede tener, con base en un muestreo probabilístico de un universo.

   Esta distribución nos dice, entonces, qué probabilidad hay de obtener cada
uno de los resultados.

    Dependiendo del tamaño de las muestras, las distribuciones de muestreo
tienden a tomar una distribución normal y por ello no es necesario calcularlas.

    Un teorema importante, que es una aplicación de la distribución normal,
conocido como el teorema del Límite Central, dice que si en una población
de tamaño N, con una media de µ y una varianza de S2 se obtienen mues-
tras al azar, la distribución de las medias de las muestras seleccionadas
será normal -y más lo será en la medida en que se incremento el número de
muestras seleccionadas- y tendrá una media de Y y varianza S2/N.

   El teorema garantiza que la media de una muestra puede estar muy cer-
cana al de la población, en la medida en que tenga un tamaño n grande, ya
que la varianza de la distribución de las medias muestrales S2/N, se hace
más pequeña en la medida en que aumenta el tamaño n.

   La desviación estándar de la distribución de las medias de la muestra se
denomina como el error estándar: S/ /N
84                                                    SERIE: APRENDER A INVESTIGAR


Punto 3

    A partir de la información obtenida, el investigador puede escoger resulta-
dos que permitan aceptar o rechazar sus supuestos. Posteriormente, los re-
sultados identificados para rechazar la suposición se llaman de región crítica,
dividiendo así los resultados en los que sirven para rechazar y los que sirven
para aceptar la hipótesis nula, sabiendo que estos sectores están relaciona-
dos con errores de tipo α y β.

    Una vez aclaradas la H1 y H0, obtenemos aleatoriamente una muestra de
la producción por fanegada de la semilla probada en la región.

  Calculamos la media aritmética y la desviación estándar de los datos de la
muestra, información ésta que nos permite hacer la prueba estadística.

   Si calculamos x, sabemos que la distribución de muestreo de x, supo-
niendo que H0 es cierto, es bastante aproximada a una distribución normal
con un µ = 519.

    Valores de x, que contradicen H0 y por lo tanto validan a H1, serán aque-
llos que se encuentran en la región de la cola derecha de la distribución,
como lo señala la figura 11. Estos valores contradictorios generan la re-
gión de rechazo, es decir, si el valor observado de x cae en la región de
rechazo, descartamos H0 y aprobamos H1. Observemos que se verifica H1
contradiciendo H0. Por lo tanto si x cae en la región de aceptación de la
figura 11, aceptamos H0 y no podemos verificar H1. Esta es la etapa de
comparación con la región de rechazo.

          Gráfica 11. Suponiendo que H0 es verdadera, los valores
                contradictorios de X están en la cola superior.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          85


    Hay posibilidad de cometer dos tipos de errores al probar la hipótesis.
Podemos, como en cualquier proceso de decisión entre dos escogencias,
cometer el error de rechazar a H0 cuando en realidad es verdadera; error
tipo l ó α; o podemos aceptar H0 cuando en realidad es falsa; error tipo ll ó β.
Y aunque es conveniente determinar la región de aceptación y de rechazo,
minimizando tanto el error tipo α como el error tipo β, esto no es imposible
porque están inversamente relacionadas, es decir, para una muestra de
tamaño η, cuando se cambia la región de rechazo para incrementar el error
α, el error β disminuye y viceversa.

     Para resolver este problema, la comunidad de científicos ha decidido
que se debe trabajar con la probabilidad de cometer error tipo l ó α y la espe-
cificación del valor para el error tipo α determina la región de rechazo.

   ¿Cómo se hace? Volviendo a nuestro ejemplo, sabemos que rechazamos
H0 si obtenemos grandes valores de x.

    Si tenemos una muestra de 36 terrenos de una fanegada, como mues-
tra del estudio y si la media aritmética es x = 573 y la desviación estándar
es S = 124 la pregunta clave sobre la cual tenemos que tomar una deci-
sión es si el x para toda la región es mayor que 519.

    Para concluir, decidimos el valor del error αcon el cual queremos traba-
jar; siempre sabemos que hay la posibilidad de cometer un error. Si en este
caso queremos correr el riesgo de equivocarnos 1 de cada 40 decisiones,
es decir de rechazar incorrectamente H0 entonces α = 1/40 = 0.025

    Como suponemos que H 0 es verdadera, x está distribuida normalmen-
te y tiene µ = 51 9 y una desviación estándar de:

     S 124 20.67
       =    =
    √ N √36


Punto 4

   Supongamos que en la figura 11 la región rayada sea la equivalente a la
de un α = 0,025. Para calcular el punto de rechazo, se tiene que calcular el
valor de Z, que tiene un área de 0.025 a su derecha. En la tabla de áreas
bajo la curva normal vemos que el valor correspondiente es de 1.96, por lo
que lo designaremos como el límite para la región de rechazo y si el valor
observado de x es mayor que 1.96, desviaciones estándar arriba de µ= 159,
se rechaza la hipótesis nula.
86                                                    SERIE: APRENDER A INVESTIGAR


   Cuando el valor de x es igual a 573 y el de S es igual a 124, el valor de
Z normalizado es:

           x-µ       573 - 519        54
     Z =         =               =           = 2.61
            S         124            20.67
           √N         √ 36


Punto 5

   El último paso es comparar el valor obtenido con el dispuesto como
rechazo, ya que x encontrado está a más de 1.96 unidades de desviación
estándar arriba del µ = 519, rechazamos H0 en favor de H1 y concluimos
que la productividad de la nueva variedad de semilla es significativamente
mayor que 519.

5.2 Pruebas de significancia de muestras únicas o simples

    Cuando se quiere probar hipótesis a partir de una muestra única, se
pueden utilizar varias pruebas de significancia de hipótesis. En estudios
en ciencias naturales y ciencias sociales es muy frecuente este tipo de
situaciones y las técnicas utilizadas más frecuentemente son la prueba Z,
y la prueba t frecuentemente llamada t de Student.

5.2.1 Prueba Z

   Normalmente se utiliza cuando se conoce el parámetro de la pobla-
ción. Ilustremos su uso con el siguiente ejemplo hipotético:

    En una institución de enseñanza media se presenta una deserción que
los directores consideran muy alta y pensaron que con un programa de
consejería, podrían controlarla, con la hipótesis de que cuanta más guía
personal, mayor sería la probabilidad de continuar exitosamente en la
institución. Se generó una consejería y al cabo de un año se recopiló infor-
mación sobre el número de veces que cada estudiante tuvo contacto for-
mal con un consejero.

   La media aritmética para el total de estudiantes fue de 12.1 visitas al
año, con una desviación estándar de 3.21.

    Meses después se hizo una muestra aleatoria simple de 40 estudian-
tes desertores y a partir de los datos obtenidos con la recopilación de in-
formación, se les calculó una media aritmética de 9.11. Al ver que era más
baja que el resto de la población, los directores se hicieron la siguiente pre-
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                            87


gunta. ¿Es el número de visitas de los desertores significativamente más
bajo que el de la población estudiantil?

   Supongamos la hipótesis de la investigación H 1: x < µ y la hipótesis
nula H0: x > µ, decidimos utilizar un nivel del 0.01 de significancia, la muestra,
como vimos, es probabilística.

   Para probar la hipótesis calculamos el puntaje Z, normalizado como
habíamos visto así:

           x-µ          9.11 - 12.1        -2.99
     Z =            =                  =           = -5.86
             S              3.21            3.21
            √N             √ 40             6.32


   El signo es indiferente al resultado, porque estamos trabajando con
áreas, por lo tanto Z = 5.86.

   En la tabla de áreas bajo la curva normal, vemos que para que el x sea
significativamente distinto de µ = 12.1, se necesita una Z = 2.33 o mayor;
como el Z obtenido es mayor, se rechaza H 0 y se acepta H1, ya que:

     0.5000 - 0.0100 = 0.4900

     Entonces Z = 2.33

   Concluimos que los estudiantes desertores tienen un número de con-
tactos significativamente inferior al resto de la población estudiantil.

5.2.2 Distribución t de Student

   En los casos en que no se conoce el parámetro poblacional, depen-
demos únicamente de las estadísticas de las muestras y utilizamos la
Prueba t.

    Cuando n > 30 (muestra grande) la desviación estándar simbolizada por
s, se le considera como un buen estimador de la desviación estándar
poblacional, debido a que existe una mayor probabilidad de que los valores
extremos que toma la variable, queden incluidos en el cálculo de la va-
rianza para la muestra, tal como ocurre en el cálculo de la varianza pobla-
cional.

     Siendo,   s = S, la fórmula para obtener s será:
88                                                  SERIE: APRENDER A INVESTIGAR




     s=
     ^    Σ (x - x)   2

             n

    Para n < 30 (muestra pequeña) la desviación estándar se simboliza
por s, cuando no se ha efectuado ninguna corrección. Se considera que,
s, por lo general, es mejor que S, debido a la menor probabilidad de que
se incluyan los valores extremos de la variable. Por tanto, se hace nece-
sario efectuar algunas correcciones en el cálculo:

a. Cuando se da la desviación estándar sin corregir:


     s=
     ^    Σ (x - x)   2
                                n
             n                 n-1


b. Cuando se desea corregirla directamente

     s=
     ^    Σ (x - x)   2

            n-1


    En la distribución de t Student, se considera que las curvas son simé-
tricas, pero algo más achatadas y más abiertas en los extremos, los cua-
les corresponden a regiones críticas. A medida en que el tamaño de la
muestra se hace más grande, más se acerca a la normal.

     La función dada para este tipo de distribución es:
                              v+1
                          –
                               2
                  2
                 t
     Y = C 1+
                 v


    donde v corresponde a los grados de libertad, número que depende de
n; C es una constante que depende de v y es calculada en tal forma que el
área bajo la curva sea igual a 1.

Grados de libertad

    Corresponden al número máximo de variables que puedan asignarse
libremente, antes de que el resto de las variables queden completamente
determinadas.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                            89


    Las variantes estadísticas para el cálculo de t son:

a) En las distribuciones muestrales donde n < 30, la fórmula es:

         x-µ
   t=
          s
          ^
         n-1


    también puede escribirse en la siguiente forma

         x-µ
   t=
          s
          n


    donde     s se obtiene corrigiéndola así:


   s= s
      ^      n
                ó             s=   Σ (x - x)   2

            n-1                      n-1


b) En las distribuciones de medias muestrales se tiene:

         (X - Y)2 – (µx - µy)
   t=
                       sx-y

    siendo


   s2=    Σ (X - X)     2
                          + Σ (Y - Y)2
                       n1+n2-2



   sx-y = s            s2
            2
                   +
          n    1
                       n2


     En la determinación de los puntos críticos, t i (inferior) y ts (superior), se
utiliza la tabla t de Student. En primer lugar se fija el nivel de significación,
por ejemplo, α = 0.05, luego se calculan los grados de libertad, siendo en
distribuciones muestrales v = n - 1, en diferencias de medidas muestrales:
v= ni + n2 - 2. Si la prueba es bilateral, se tomará el 5% para cada una de
90                                                    SERIE: APRENDER A INVESTIGAR


las regiones críticas y si es unilateral se tomará el doble del nivel de
significancia asignado; en este caso, será 0. 1 0.

     Ejemplos:

1. Una muestra de 25 observaciones tiene una media de 42.0 y una des-
   viación estándar de 8. Trabajando con un nivel de significancia del 1%.
   Existe razón para rechazar la hipótesis de que la media de la pobla-
   ción es de 46.0.

     a. H 1: µx K46

          H 0: µ = 46

     b. α = 0.01




                                     Gráfica 12.


     c.   s=8
          ^

                     25
          s= 8            = 8(1.021) = 8.17
                   25 - 1

                 42 - 46              -4
          t =                  t =          = -2.45
                  8.17               1.63
                  √25


          V = 25-1; α = 0.01; corresponde a una t = 2.7969
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                            91


    Como el valor de t = -2.45 queda en la región de aceptación, se acepta
la hipótesis de que µ = 46, es decir no existe razón para rechazar que la
media de la población es 46.

2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferen-
   tes, para determinar el contenido de nicotina y obtiene los siguientes
   resultados, en miligramos.

    Marca A: 24                  26       25   22         23
    Marca B: 27                  28       25   29         26

   ¿Los resultados anteriores, señalan que existe una diferencia en el
contenido medio de nicotina en ambas marcas?

    Solución:

    a) HI: µx K µy
       H O: µ x = µ y

    b) = 0.05

    c)   sx-y   =1

    Siendo:


    s=       Σ (X - X)   2
                           + Σ (Y - Y)2
                        n1+n2-2


    sx-y = s            s2
             2
                    +
           n    1
                        n2


             Tabla 11. Resultado de las dos marcas de cigarrillos
                  para determinar el contenido de nicotina

         X                   y         x-x     (x - x)2        y-y   (y - y)2
      24                 27             0           0           0       0
      26                 28             2           4           1       1
      25                 25             1           1          -2       4
      22                 29            -2           4           2       4
      23                 26            -1           1          -1       1

    120                 135             0           10          0      10
92                                                   SERIE: APRENDER A INVESTIGAR


              120                     135
     X =          = 24         Y =        = 27
               5                       5
              10 + 10       20
     s=               =        =      2.5
              5+5-2         8

     s = 1.6             s2 = 2.5
                2.5   2.5
     sx-y =         +     =         1 =1
                 5    5

d) t = (24 - 27) - 0 = –3 = –3
            1           1
e) v = n1 + n2-2

     v=5+5-2

     v=8




                                       Gráfica 13.

f) Los resultados anteriores señalan que existe una diferencia significati-
   va en el contenido medio de nicotina en ambas marcas. Véase gráfica
   13.

5.2.3 Distribución Chi Cuadrado: χ2

   La distribución normal se utiliza en todos aquellos casos que ofrecen
dos resultados posibles; cuando se presentan más de dos resultados posi-
bles, debe aplicarse la prueba chi cuadrado que se simboliza así: χ2. Un
ejemplo típico de distribución lo constituye el lanzamiento de una moneda
con posibilidades de que aparezca cara o sello. Uno de χ2 consiste en el
lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        93


    El Chi cuadrado es la suma de las fracciones que tienen por numerador
el cuadrado de las diferencias entre las frecuencias reales u observadas y
las frecuencias esperadas o teóricas y por denominador la frecuencia es-
perada.
               (ni - n*)2
    χ2 =
           Σ      n*
                      i

                   i


    en donde ni frecuencia observada o real

                   n*i frecuencia teórica o esperada

    Se puede observar en la fórmula, que mientras mayor sea la coinciden-
cia entre las frecuencias observadas y las esperadas, menor será el valor
de χ2. Si χ2 = 0 significa concordancia entre las frecuencias observadas y
las esperadas.

    Ejemplo:

   Supongamos que se lanza un dado 60 veces. Se sabe que las fre-
cuencias teóricas, para este caso son de 10 veces cada cara y las fre-
cuencias reales son los resultados del lanzamiento. ¿La base de un nivel
de significancia del 5%, permite suponer que el dado no es perfecto?

    Solución:

    El problema da las frecuencias reales nt, para cada cara, como se ve en
la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabi-
lidad de cada suceso por n (número de lanzamientos). Véase gráfica 14.

     Tabla 12. Frecuencia en el lanzamiento de un dado 60 veces

   Caras          ni        ni*    n i - n i*   (ni - n i*)2   (ni - n*)2
                                                                      i

                                                                  n*i

      1           7         10         -3          9              0.9
      2          14         10          4         16              1.6
      3           8         10         -2          4              0.4
      4           5         10         -5         25              2.5
      5          16         10          6         36              3.6
      6          10         10          0          0                0

     Σ           60         60         0            -             9.0
94                                                        SERIE: APRENDER A INVESTIGAR




n*i= np1= 60   ( )
                 1
                 6
                   =
                     60
                      6
                        =10          y así se obtienen las demás frecuencias teó-

ricas.

     Se realiza la prueba teniendo en cuenta los siguientes pasos:

     1) HI: ni K n*i

         H I: ni K n*i

     2) α = 0.05

                   (ni - n*i)2
     3) χ =    Σ
         2
                                 = 9.0
                         n*i

     4) V = n - 1 = 6 - 1 = 5... χ20.05 = 11.07




                                         Gráfica 14.


    En la tabla de distribución de χ2, encontramos que 11.07 es el valor
crítico.

5) χ2 < χ20.05 , es decir 9 < 11.07, por lo tanto se acepta la hipótesis de que
   la diferencia no es significativa. En otras palabras podemos afirmar que
   a un nivel del 5%, las diferencias que presentan las frecuencias reales,
   con relación a las frecuencias teóricas no nos da base para afirmar que
   el dado está cargado.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          95




          PRUEBAS DE HIPÓTESIS - AUTOEVALUACIÓN N° 5


   1. ¿La hipótesis de investigación es exactamente lo mismo que la
      hipótesis nula?

        Sí _____           No _____

   2. Si una hipótesis de investigación es que dos poblaciones tienen
      iguales medias aritméticas, ¿cuál es la hipótesis nula?

        a. Que en efecto tienen iguales medias aritméticas             ____

        b. Que las dos poblaciones tienen distintas medias aritméticas ____

        c. Que las medias aritméticas pueden ser iguales o distintas   ____

        d. Para poder definirla hay que conocer la desviación estándar ____

   3. ¿Una distribución de muestreo es lo mismo que una distribución
      de una muestra?

        Sí _____           No _____

        ¿Por qué?
        ___________________________________________________
        ___________________________________________________

   4. El nivel de significancia es:

        a. Lo mismo que el nivel de precisión                  _____

        b. La región crítica de una curva normal               _____

        c. Una probabilidad                                    _____

        d. El error alfa α                                     _____

        e. La exactitud con que se predicen los parámetros _____

   5. El valor crítico de un puntaje Z para una prueba de una cola, al
      nivel de significancia 0.05 es: ________
96                                                    SERIE: APRENDER A INVESTIGAR




     6. ¿A partir de una muestra de obreros en una fábrica, se puede
        inferir a cerca de las características de esa fábrica?

         a. No                                        _____

         b. Sólo si uso una prueba Z                  _____

         c. Sólo si uso una prueba t                  _____

         d. Si se usa una prueba Z o prueba t         _____

     7. ¿La prueba t se prefiere a la prueba Z cuando no se conocen los
        parámetros del universo?

         Sí _____        No _____

     8. Los salarios diarios de una industria están distribuidos normal-
        mente con una media de $132 y una desviación estándar de $25.
        Si una empresa de dicha industria, que cuenta con 40 obreros
        paga en promedio $122, puede acusarse a esta compañía de
        pagar salarios inferiores al nivel de significancia del 1%?

         Sí _____        No _____

         Desarrollo: _________________________________________
         ___________________________________________________
         ___________________________________________________

     9. Una hipótesis dice que el estudiante promedio de la universidad
        colombiana tiene un coeficiente de inteligencia mayor que el resto
        de la población. Escriba una hipótesis de investigación y una
        hipótesis nula, con un coeficiente de inteligencia que al estan-
        darizarse tiene una X = 100

         Hipótesis de investigación: ______________________________

         Hipótesis nula: ________________________________________

     10. Un fabricante de ciertas piezas de proyectiles sostiene que en
         condiciones normales de reparación, tienen una duración media
         µ=320 horas. Probar esta afirmación frente a la alternativa
         µ K320, si 16 piezas duran un promedio de 308 horas, con una
         desviación de 29 horas. Utilizar un nivel de significancia del 5%.
1. No, es lo contrario.
     2. b
     3. No. La distribución de una muestra son las características que
        tienen los datos a partir de una muestra.
        La distribución de un muestreo es la distribución de una mues-
        tra de medias a partir de muestras.
     4. c
     5. 1.96
     6. d
     7. Sí
             122 – 132
     8. Z =             = –2.53 cae en la región de rechazo. Se puede
               25
                  √40
        acusar a la compañía de pagar salarios inferiores al nivel del 1%

     9. Hipótesis de investigación: H 1= x >100 Hipótesis nula: H0=x≤100

               308 – 320
     10. t =               = –1.60 cae en la zona de aceptación, o sea, que
                29
                  √15
         la duración promedio es de 320, a un nivel significativo del 5%.

     11. Sí, porque χ2 = 4.518 y cae en la zona de aceptación y se puede
         considerar el dado perfecto.

                 RESPUESTAS A LA AUTOEVALUACIÓN N° 5




                                                                  Explique.

                                               No _____           Sí _____

     ficancia?
     ¿Puede considerarse el dado perfecto al nivel del 1% de signi-

                16         13     22      20      17         12     ni
                6          5      4       3       2          1      Cara A

         tados:
     11. Un dado se lanza 100 veces y se obtienen los siguientes resul-


97                                               MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN
98                                                        SERIE: APRENDER A INVESTIGAR



6. REGRESIÓN Y CORRELACIÓN
6.1 Introducción a la bidimensional

   En esta parte examinaremos la relación entre variables, medidas en es-
calas de intervalo o de razón. Pero ya no sólo queremos comparar, ahora
queremos entender qué tipo de conexión hay entre las variables, por inter-
medio de la relación que existe entre ellas, e ir más allá entendiendo la
naturaleza de la relación entre las variables.

    En las distribuciones bidimensionales se consideran dos variables en
forma simultánea, determinándose si tienen alguna relación funcional entre
sí; aún más, cuantificando dicha relación. Estas variables pueden ser am-
bas discretas, ambas continuas, o una discreta y otra continua.

   Llamaremos Xi a la primera variable, donde i toma todos los valores
desde 1 hasta n. Así tendremos X1, X2, X3, ... Xn; Yi se considerará como la
segunda variable, donde i toma los valores desde 1 hasta n. Se tendrán
tantos valores de X como valores de Y, es decir, se tomarán siempre pares
de observaciones.

                               Tabla. Valores de X y Y

     Xi           Yi            Xi       Yi        Xi2           Yi2         XY

     X1           Y1             6        3          36             9           18
     X2           Y2            10        4         100            16           40
     X3           Y3            14        8         196            64          112
     X4           Y4            20       12         400           144          240
                                27       18         729           324          486
                                33       25       1.089           625          825

     Xn           Yn           110       70       2.550         1.182        1.721


    Para cada variable se podrá calcular la media aritmética, la varianza y
la desviación estándar, usando los datos no agrupados.


     X =
           Σ Xi   =
                       110
                             = 18.33
           N            6


     Y =
           Σ Yi   =
                       70
                             = 11.67
           n           6
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        99



    S2 =
            Σ X2
               i
                     – X2 =
                               2.550
                                       – (18.33)2 = 89.01
     x
             n                  5


    S2 =
            Σ Y2
               i
                     – Y2 =
                               1.182
                                       – (11.66)2 = 61.04
     y
             n                   6


    Sy=   √Sy
            2
                 =   √89.01    = 9.44


    Sy=   √Sy
            2
                 =   √61.04    = 7.81


   La covarianza es una medida de dispersión que representa el grado de
variabilidad conjunta entre Xi y Yi. Su símbolo es mxy ó myx. Se define como
la media del producto de las desviaciones respecto a las medias aritméti-
cas. Entonces se puede calcular la covarianza por la siguiente fórmula:


    mxy =   Σ XY      – X• Y
                n


    Tomando los datos de la tabla anterior podemos calcular la covarianza
así:

            1.721
    mxy =             = – (18.33)(11.67)
                6

    mxy = 286.83 – 213.91


    mxy = 72.92



    Los datos de la distribución bidimensional anteriormente dada puede
representarse gráficamente en un par de ejes de coordenadas, tomando
el eje de la abscisas para la primera variable (Xi) y el eje vertical para los
valores de la segunda variable (Yi).
100                                                  SERIE: APRENDER A INVESTIGAR


    En un plano cartesiano se presentan tantos datos como puntos pares
de observaciones se tengan, correspondiendo cada punto a un par de ob-
servaciones. A esta representación gráfica se le denomina indistintamen-
te diagrama de desparramiento, de esparcimiento o nube de puntos.


                        Gráfica 15. Nube de puntos




   El problema consiste ahora en unir varios puntos de ese conjunto o
nube de puntos, mediante un ajuste, ya sea rectilíneo, parabólico, expo-
nencial o de cualquier otro tipo de línea que represente al conjunto. En
algunos casos esos puntos estarán condensados al rededor de la línea,
en otros presentarán diferencias; en este último caso, se pueden producir
grandes errores, como consecuencia de que el ajuste realizado no es el
más indicado.

   El tipo de línea que se relaciona, dependerá de la forma que asuma el
conjunto de puntos, al hacer la respectiva gráfica. También valiéndose de la
experiencia del estadístico se puede determinar el mejor ajuste. En la
exponencial, es muy sencilla la identificación, basta que la variable muestre
un crecimiento geométrico, como por ejemplo, la población, el producto bruto,
etc.

   En general, se dice que la curva que hace mínima la suma de los cua-
drados de las desviaciones entre puntos dados, dicha línea es la mejor.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                     101


6.2 Ajuste de una recta de regresión rectilíneo simple

   Supóngase que se desea ajustar una recta, para ello sabemos que la
ecuación general de la recta es:

    Y = a + bx,            X = a + by

   donde X, en la primera ecuación y Y en la segunda es la variable que
se supone conocida, llamada variable independiente. Ahora, Y y X en una
segunda ecuación corresponde a la variable que se va a estimar, conoci-
da con el nombre de variable dependiente.

    a. es el coeficiente de posición, denominado también origen, o sea, es
la altura de la perpendicular levantada en el punto de origen. Véase gráfica
16.

    El coeficiente de posición puede ser mayor, menor o igual a cero.

    a) a>0                        b) a=0             c) a<0




                                       Gráfica 16.


   En el primer caso será un punto por encima del origen, en el segundo
pasará por el origen y en el tercero estará por debajo del origen.

    b. Es el coeficiente angular, el cual nos determina los crecimientos o
la cantidad que aumenta en Y, por cada unidad que aumenta X y se deno-
mina como pendiente.

    El coeficiente angular puede ser:
102                                                  SERIE: APRENDER A INVESTIGAR


 a) b>0                    b) b<0                  c) b<0




                      Gráfica 17. Coeficiente angular b.




                        Gráfica 18. Posición de a y b.


    Si b es un valor mayor que cero, es decir positivo, nos indicará que la
recta es ascendente; si b es menor que cero, la recta será descendente y
si es igual a cero, la recta es paralela al eje horizontal o vertical.

   Cuando se tiene la ecuación Y = a + bx, se dice en este caso que se
está estimando a Y en función de X. Para la ecuación X = a + by, decimos
que estimamos a X en función de Y

      El problema, ahora, consiste en calcular los parámetros a y b.

   Partiendo de las ecuaciones normales de los mínimos cuadrados, se
pueden calcular estos parámetros.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                    103


    Las ecuaciones normales para los mínimos cuadrados son:

    1) Σ Y = Na + bΣ X
    2) Σ XY = aΣ X + bΣ X2

   Tomaremos los datos de la distribución bidimensional de la tabla y reem-
plazando en estas ecuaciones se tiene:

    1) 70 = 6a + 110b
    2) 1.721 = 110a + 2.550b

   Por sustitución, eliminamos a y calculamos el valor de b así, multipli-
camos los valores de la ecuación (1) por -110 y los de la ecuación (2) por
6 y se resta de la primera.

    1) -7.700 = -660a - 12.100b

    2) 10.326 = 660a + 15.300b

        2.626 = 3.200b

           2.626
    b =             = 0.82
           3.200


    Reemplazamos el valor calculado de b en la ecuación (1) así:

    1) 70 = 6a+110(0.82)

        70 = 6a + 90.2

                70 – 90.2
          a =
                   6
        a = -3.37

    Reemplazando en la ecuación general de la recta, Y = a + bx, se tiene:

    Y = 3.37 + 0.82x

   cuando se quiere estimar X en función de Y, se procede de la siguiente
forma:

    X = a + by
104                                                   SERIE: APRENDER A INVESTIGAR


      Las ecuaciones normales para el cálculo de los parámetros a y b son:

      1) Σ X = Na + bΣ Y

      2) Σ XY.= aΣ Y + bΣ Y2

      1) 110 = 6a + 70b

      2) 1.721 = 70a + 1.128b

      Multiplicando (1) por -70 y (2) por 6 y luego restamos de la primera:

      1) -7.700 = -420a - 4.900b

      2) 10.326 = 420a + 7.092b

            2.626 = 2.192b

             2.626
      b =              = 1.20
             2.192

      Reemplazando este valor en la ecuación (1) se tiene el valor de a

      1) 110 = 6a+70(1.20)

            110 = 6a+84

            100 – 84
      a =
                6
             100 – 84
      a =
                6
      Reemplazando en la ecuación general de la recta X = a + by, se tiene:

      X = 4.33 + 1.20y

6.3 Correlación

   En la práctica algunas de las variables que medimos en los procesos de
investigación, tienen un nivel de medición intervalo o de razón y para re-
solver problemas con estos niveles existen unas técnicas diferentes a las
que hasta ahora hemos visto.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        105


    Cuando tenemos mediciones realizadas con escalas intervalos o de
razón, la mejor medida paramétrica de asociación es la relación de Pearson
(r), también conocida como la relación Producto-Momento. Para hacer
una correcta interpretación del coeficiente, se tienen que hacer dos supo-
siciones.

    1. Se supone que la relación es lineal.

    2. Que la distribución de las variables asociadas tiende a ser normal.

   Es importante entender que una correlación entre dos variables produce
un número que resume la naturaleza de la asociación entre las variables.

    En el caso de la correlación de Pearson, ese número (r) toma valores
desde -1 hasta +1, pasando por cero, cuando hay relación entre las varia-
bles. Si la relación tiende a ser inversa, se aproximará a -1, en la medida
en que sea perfecta y por el otro lado, si la correlación tiende a ser directa,
se acercará a +1. No sólo sirve para indicar si hay o no relación, sino para
indicar la fuerza de la misma y también para compararla con las otras
variables.

    Una forma adecuada para ilustrar la naturaleza de r, se muestra en la
figura 19. Aquí se presentan 6 tipos de relaciones entre las dos variables X
y Y. Cada punto en los cuadrantes representa los valores de X, y Y toma
un elemento de la muestra o población analizada.

    En la gráfica A, se ve claramente una nube de puntos dispersos, casi
que aleatoriamente distribuidos. Cuando esto sucede no existe ninguna
relación directa entre las dos variables, es decir r es igual o tiende a cero
(r ≅ 0).

    En la gráfica B, vemos que existe una tendencia. A mayores valores de
X parecen estar asociados mayores valores de Y, por lo tanto, existe una
relación directa entre las dos variables. Es decir r>0.

   En la gráfica C, vemos que también hay una tendencia, pero en este
caso indicando que a valores pequeños de X corresponden valores gran-
des de Y y a valores grandes de X corresponden valores pequeños de Y. O
sea, hay una relación inversa entre las dos variables r<0.

    En la gráfica D, vemos que hay una correlación no lineal entre las dos
variables. En el rango de valores bajos y altos de X corresponden valores
bajos de Y y en el rango de valores intermedios de X corresponden valores
altos de Y. Aunque r ≅ 0, no podemos decir que no hay relación entre las
106                                                 SERIE: APRENDER A INVESTIGAR


dos variables, sólo que la relación es curvilínea y por lo tanto requiere de
un tratamiento particular.




        Gráfica 19. Ejemplos para entender la interpretación de r.


   Los dos últimos gráficos E y F sirven para ilustrar una situación que
suele presentarse durante una investigación.

   En el caso E, vemos que la mayoría de los elementos analizados, pa-
recen indicar la no existencia de relación entre las dos variables, pero hay
unos pocos casos donde altos valores de X tienen a los valores de Y.

   En el caso F, se presenta lo contrario, la mayoría de las observaciones
analizadas indican una relación positiva entre X y Y, pero unos pocos ca-
sos la distorsionan, ya que rompen la tendencia.

    Estos ejemplos, muestran la utilidad de hacer uso de histogramas y de
las distribuciones de las frecuencias obtenidas, para no cometer errores.
Por ejemplo, concluir que no hay relación en el caso del gráfico D, cuando
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          107


en realidad hay una no lineal; o decir que hay relación positiva en el gráfico
E, o que no existe relación en el gráfico D, cuando en realidad es lo con-
trario.

    En estos dos últimos casos, lo recomendable es retirar los elementos
distorsionadores, o completar una mayor información, por si en realidad lo
sugerido por los casos extremos es la tendencia real, o por último, revisar
los procesos de recolección, codificación o sistematización de la informa-
ción, donde se pudo haber cometido algún error.

6.4 Coeficiente de correlación

    Nos permite cuantificar el grado de correlación existente entre las va-
riables X y Y.

    Hay dos maneras de calcular el coeficiente de correlación, una aritmé-
tica y otra por medio de álgebra de matrices.

    Hagamos un ejercicio aritmético:

   Supongamos que queremos medir la asociación que existe entre inno-
vación tecnológica y producción, en 11 empresas que elaboraron un mis-
mo producto. En la tabla 12 se presenta la información obtenida en visitas
realizadas a 11 industrias.


                         Tabla 12. Ejemplo para calcular r

 Empresa          Nivel        Producción       X2           Y2         XY
             tecnológico X         y

     1              44                 20     1.936        400          880
     2              62                 19     3.844        361        1.178
     3              30                 15       900        225          450
     4              50                 21     2.500        441        1.050
     5              28                 13       784        169          364
     6              34                 15     1.156        225          510
     7              49                 17     2.401        289          833
     8              54                 17     2.916        289          918
     9              72                 22     5.184        484        1.584
    10              66                 21     4.356        441        1.386
    11              27                 14       729        196          378

   N=11          X=516            Y=194     X2= 26.706   Y2=3.520   XY = 9.531
108                                                SERIE: APRENDER A INVESTIGAR


      Una fórmula para calcular r es:


                  NΣ XY – (Σ X)(Σ Y)
      r =
            NΣ X – (Σ X)2 NΣ Y2 – (Σ Y)2
                  2




      Sustituyendo tenemos:

                  (11)(9.531) – (516)(194)
      r =
            11(26.706)–(516)2 11(3.520)–(194)2

              4.737
      r =
            29.820.840

      r = 0,867


   Como correlaciones cercanas a 1 son altas e indican una asociación
positiva, concluimos que hay una alta asociación entre la tecnología utili-
zada y la producción en el tipo de industria estudiadas.

   El grado de correlación lo podemos clasificar evitando un tanto la rigi-
dez de sus límites:

a. Correlación perfecta, cuando r=1 (o menos de 1).

b. Correlación excelente, cuando r es mayor que 0.90 y menor que 1, ó
   (-1<Y<-0.90).

c. Correlación aceptable, cuando r se encuentra entre 0.80 y 0.90
   ó (-090<r<-080).

d. Correlación regular, cuando r se encuentra entre
   0.60 y 0.80 (-080<r<-0.60).

e. Correlación mínima, cuando r se encuentra entre 0.30 y 0.60
   (-0.60<r<-0.30).

f.    No hay correlación para r menor de 0.30 ó (-0.30<r<0)
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       109




       REGRESIÓN Y CORRELACIÓN - AUTOEVALUACIÓN N° 6

   1. La fórmula Y = a + bx, ¿corresponde a la ecuación general de la
      recta?

        Sí _____           No _____

      ¿Qué nombre recibe la variable X? __________________________

   2. ¿Qué nombre recibe a?
      ____________________________________

   3. ¿Qué nombre recibe b?
      ____________________________________

   4. Con base en los datos de la siguiente tabla de valores para X y Y,
      halle la recta de regresión por los mínimos cuadrados. Para
      Y=a+bx
      ____________________________________________________
           Xi      Yi
      ____________________________________________________
          13     5
          14     7
           8     9
          10     8
          15    11
      ____________________________________________________
          60    40
      ____________________________________________________

   5. Calcule el coeficiente de correlación, a partir de los datos de la
      siguiente tabla:
      ____________________________________________________
           Xi       Yi
      ____________________________________________________
           9    23
          17    35
          20    29
          19    33
          20    43
          23    32
      ____________________________________________________
         108   195
      ____________________________________________________
1. Sí. Variable independiente.

   2. Coeficiente de posición.

   3. Coeficiente angular.

   4. Y = -180.4 + 15.7x

   5. r = 0.60

               RESPUESTAS A LA AUTOEVALUACIÓN N° 6


SERIE: APRENDER A INVESTIGAR                         110
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                      111


7. ANÁLISIS DE LA VARIANZA

   Del análisis de varianza, podemos decir que esta técnica estadística,
normalmente es utilizada para analizar resultados en la investigación con
diseños experimentales y cuasi experimentales. Muchas veces necesita-
mos comparar dos o más distribuciones, que corresponden a variaciones
de una misma variable dependiente, afectada por una o más variables
independientes.

    Las variables independientes pueden ser medidas en cualquier tipo de
escala, pero la variable dependiente debe ser medida, al menos, al nivel
intervalo. Si las variables independientes son medidas al nivel intervalo o
de razón, tendríamos un típico caso de análisis de regresión múltiple.

   Si queremos medir la importancia relativa de tres procesos en la cali-
dad de un producto final utilizamos el análisis de varianza (ANOVA).

    En la tabla 13 tomamos unos datos hipotéticos para ilustrar su caso. Te-
nemos tres grupos de 5 productos, seleccionados independientemente,
al azar, con sus respectivos puntajes, en cuanto a su calidad; ésta, que
es la variable dependiente, se midió por medio de una escala intervalo.

               Tabla 13. Datos para ilustrar el uso de Anova


         Método 1             Método2         Método 3
                                                             Total
        X         X2         X         X2    X      X2

          6        36         9         81    4     16
         10       100         7         49    6     36
          9        81         8         64    9     81
         11       121         8         64    4     16
         12       144         5         25    3      9

      Σ 48        482        37        283   26    158        111

      x 9.6                 7.4              5.2              7.4

       N 5                    5               5               1.5


    Supongamos que cada grupo sometido a un método de producción
distinto, tiene varianzas iguales. Es decir, la hipótesis nula H 0, es que no
112                                                            SERIE: APRENDER A INVESTIGAR


hay diferencias en las medias aritméticas de los tres grupos. Suponga-
mos que queremos analizar las observaciones a un nivel de significancia
del 0.05 y ver si hay diferencias en la calidad por el método empleado. El
cálculo de F, contra cuya distribución de muestreo se comparan los resul-
tados, es el procedimiento a seguir.

1° Suma total de los cuadrados de los puntajes de los tres grupos así:

                              (Σ X)2
      Σ (X – X) = Σ X
              2      2
                         –
                                  N

                                  (111)2
      = (482 + 283 + 158) –
                                   15

      = 923 – 821.4 = 101.6

2° Suma de cuadrados entre columnas. Igual fórmula pero referida a cada
   uno de los tres grupos o métodos utilizados así:


                         (48)2
      Método 1 = 482 –                = 482 – 460.8 = 21.2
                              5

                             (37)2
      Método 2 = 283 –                = 283 – 273.8 = 9.2
                              5


                         (26)2                          22.8
      Método 3 = 158 –                = 158 – 135.2 =
                              5            Total        53.2

3° Suma de cuadrados entre columnas (grupos).

      Suma total del cuadrado = suma “dentro” + suma “entre”

      Suma “entre” = suma total - suma “dentro”.

      Suma “entre” = 101.6 - 53.2

      Suma “entre” = 48.4
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                               113


4° Grados de libertad. Son los siguientes:

    Suma total                  = n-1

                                = 15-1=14

    Suma “dentro”               = K(N 1-1); donde K=número de grupos y N 1
                                tamaño de los grupos (5)

                                = 3(5-1)

                                = 12

    Suma “entre”                = K-1

                                = 3-1

                                =2

5° Cálculo para análisis de la varianza con el valor de F

                                Suma de  Grados de            Estimación       F
                               Cuadrados  libertad           de la varianza

   Total                         101.6            14

   Entre columnas                 48.4            2              24.20

   Dentro de las                  53.2            12                4.43      5.46
   columnas


    La estimación de la varianza es la razón de la suma de cuadrados y
los grados de libertad y F es igual a la razón de la estimación “entre” y la
estimación “dentro”.


                                48.4
    Varianza “entre”       =             = 24.2
                                 2
                                                             24.2
                                                       F =           = 5.46
                                                             4.43
                                53.2
    Varianza “dentro” =                  = 4.43
                                 12
114                                                     SERIE: APRENDER A INVESTIGAR


6° Decisión

    En la tabla de distribución F vemos que con un nivel de significancia
del 0.05 y con 2 y 12 grados de libertad, necesitamos un valor igual o ma-
yor a 3.88 para poder rechazar H0. Como en efecto obtuvimos uno de 5.46,
rechazamos H0 y concluimos que los métodos utilizados sí producen una
diferencia significativa en la calidad del producto.




             ANÁLISIS DE VARIANZA - AUTOEVALUACIÓN N° 7


      1. En una universidad se quiere probar el efecto que distintos méto-
         dos de enseñanza tienen, en los resultados de un curso dado.
         Tres métodos se proponen y se aplican a tres grupos, compues-
         tos de 14 estudiantes, cada grupo seleccionado aleatoriamente
         entre los alumnos del curso. Los resultados del examen final del
         semestre se presentan a continuación. Se puede concluir que los
         métodos producen un efecto diferencia.

                          52          27          16
                          49          36          14
                          34          34          23
                          52          32          21
                          14          41          29
                          41          33          20
                          34          25          28
                          42          19          27
                          33          28          17
                          39          22          12
                          51          25          40
                          43          14          28
                          39          22          18
                          43          27          21

      2. La distribución que se utiliza para probar el nivel de significancia
         de un análisis de varianza es el χ2

        Verdadero _____         Falso _____
1. Suma total = 5.112.4

      2. Suma de cuadrados entre columnas:

        Método 1 =        1.309.4

        Método 2 =          675.5

        Método 3 =          715.4

        Total             2.700.3

      3. Suma de cuadrados entre columnas.

        Suma de cuadrados entre las columnas:

                5.112.4

                2.700.3

                2.412.1

      4. Grados de libertad.

           Suma total          = 42-1 =41

           Suma dentro         = 3(14 - 1)39

           Suma entre          = 3-1 =2

      5. Cálculo F

                           Sumade           Grados de         Varianza          F
                          cuadrados          libertad

        Total             5.112.40             41

        Entre             2.412.10              2             1.206.10

        Dentro            2.700.30             39               69.24        17.42

                  RESPUESTA A LA AUTOEVALUACIÓN N° 7


115                                                 MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN
Si se prueba con significancia del 0.01, esto implica que necesi-
      tamos un F al menos de 5.3, para rechazar H0 y aceptar que los
      métodos sí tienen efecto en el rendimiento académico de los es-
      tudiantes y como se obtiene un F=17.42, concluimos que sí tiene
      efectos.

   2. Falso, es la distribución F.


   Comente los resultados de los 2 problemas.


SERIE: APRENDER A INVESTIGAR                                              116
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                     117


8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE
   ESTADÍSTICO

   La necesidad de contar con una herramienta adecuada para la ense-
ñanza e investigación estadística, conlleva a realizar un estudio detallado
de los programas con mayor aplicación en estos campos, además se
debe considerar para la implementación de éstos, los recursos físicos
para un desempeño eficaz.

   El paquete estadístico SAS y SPSS cumplen con los requerimientos
académicos debido a su manejo personalizado, cursos de actualización y
asesoría continua, lo cual contribuye como soporte a la docencia y en
gran parte al proceso educativo.


8.1 SAS

   Es un sistema que provee herramientas para la captura, administra-
ción y análisis de datos.

•   Este software permite un total control sobre la información.

•   Permite accesar, administrar, analizar y presentar la información.

•   El SAS está conformado por los siguientes módulos:

STAT

  Provee herramientas para el análisis estadístico avanzado. Sirve para
administrar la información como:

– Almacenamiento y recuperación de información.

– Programación y modificación de datos.

– Reportes.

– Análisis estadístico.
118                                                                      SERIE: APRENDER A INVESTIGAR



                                     SAS/STAR PROCEDURES



  Regression    Analysis     Multivariante   Survial    Clustering   Scoring    Categorical   Discriminant
               Of Variance
      NLIN                    CANCORR        Analysis   ACLACUS                 CADMOD         CANDISC
                ANOVA-                                               SCORE
 ORTHOREG                      FACTOR        LIFEREG    CLUSTER-                  FREQ         DISCRIM
                 PLAN-
 REG-RSREG       TTEST        PRINCOMP                  FASTCLUS                               STEPDISC
                  GLM
                                                         TREE-
                NESTED-
                                                        VARCLUS
               VARCOMP




FSP**

    Sirve para construir y manipular conjuntos de datos. Este módulo facilita
la captura de datos, validación, verificación en tablas, edición y consulta.

AF**
   Sirve para crear menús y para encadenar los diversos módulos.

ETS*

    Provee herramientas para realizar proyecciones en modelos economé-
tricos. Puede realizar reportes como tablas de amortización y tablas de
depreciación.

OR

      Provee una herramienta para investigación de operaciones.

QC*

      Es una aplicación para estadísticas en control de calidad.

GRAPH

Es el módulo que posee el SAS




Convenciones:
* No es necesario.
** Para realizar aplicaciones bajo ambientes SAS.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                   119


SHARE

  Permite el acceso concurrente de varios usuarios a archivos comunes
SAS. Este módulo garantiza la integridad y la seguridad de la información.

ACCES

   Este módulo sirve para realizar las interfaces en los manejadores de
bases de datos.


8.2 SPSS

BASE

    Contiene estadísticas básicas, gráficos de alta resolución y un paque-
te completo de listado. Con el SPSS BASE 6.0 bajo Windows se produci-
rá un análisis y resultados de alta calidad.

– Estadísticas profesionales

   Medidas de similariedad y diferencias en sus datos, provee técnicas
de clasificación. En este procedimiento incluye Análisis Cluster, Análisis
Discriminante, Análisis Factor, Análisis Multidimensional, Análisis Proxi-
midades, Mínimos Cuadrados con Ponderación y Mínimos Cuadrados con
dos fases.

– Estadísticas avanzadas

   Incluye sofisticadas técnicas como: Regresión Decox, Estimación
Kalpian Meier, Regresión Logística, Análisis Lineal Logarítmico, Análisis
de Varianza Multivariado, Regresión No-Lineal de Vida (Tabla vida).

– Tablas

   Crea una variedad de cuadros tabulares, incluyendo tablas complejas
(múltiple respuesta).

– Tendencias

   Ejecuta pronósticos y análisis de series de tiempo, modelos de suaviza-
ción y métodos para estimación autorregresión.
120                                                 SERIE: APRENDER A INVESTIGAR


– Categorías

   Ejecuta análisis conjunto y procedimientos de optimización, incluyen-
do análisis de correspondencia.

– Chaid

      Desarrolla modelos predictivos, produce variables predictorias.

– Lissrel

   Relaciona un análisis estructural lineal y modelos de ecuaciones simul-
táneas.


8.3 Requerimientos mínimos para la instalación del Software SAS

1. Procesador 486 o superior.

2. Memoria RAM 32 Mb o superior.

3. 20 Mb de espacio en el disco duro.

4. Cualquiera de las siguientes opciones

      •   Windows versión 3.1 o posteriores.
      •   Windows para trabajo en grupo versión 3.1 o posteriores.


8.4 Requerimientos mínimos para la instalación del Software SPSS

1. Procesador 386 o superior.

2. Memoria RAM 32 Mb o superior.

3. 20 Mb como mínimo para almacenar el SPSS.

4. Monitor VGA.

5. Cualquiera de las siguientes opciones.

6. Windows versión 3.1 o posteriores.

      •   Windows para trabajo en grupo versión 3.1 o posteriores.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                       121


8.5 Manejador de Base de Datos

    En la actualidad existen en el mercado una gran variedad de maneja-
dores de bases de datos con características únicas, es decir, no son com-
patibles con los sistemas tradicionales de manejadores de bases de datos
de segunda y tercera generación como Dbase, DataEase, Foxpro. Los
manejadores de Bases de Datos de cuarta generación que se recomien-
dan por compatibilidad son Acces, Paradox, Foxpro.

    Para cumplir con los objetivos educativos se recomienda por su flexi-
bilidad y compatibilidad el Foxplus bajo ambiente Windows.


Visual Foxpro 6.0

    La herramienta para el desarrollador profesional de aplicaciones xBase.
(En esta nueva versión obtendrá: Mejor rendimiento e IDE, mayor conec-
tividad y soporte de ActiveX).

Características

    Sigue la evolución de Foxpro desde un sistema de desarrollo de bases
de datos de escritorio y de tipo procedural a un entorno de desarrollo
orientado a objetos, con las herramientas necesarias para construir apli-
caciones y componentes en sistemas clientelservidor e lnternet.

    Visual Foxpro 6.0 es un miembro de la familia que integra el sistema de
desarrollo Visual Studio. Permite la utilización de los últimos avances en los
sistemas operativos Windows y Windows NT y ha sido diseñado para per-
mitir a los 500.000 desarrolladores que usan Visual Foxpro una forma más
potente y eficiente de crear aplicaciones multicapa cliente/servidor, basa-
das en Web y centradas en el tratamiento de datos. La compatibilidad con
el año 2000 está totalmente asegurada.

    Visual Foxpro mantiene un completo set de comandos Xbase para per-
mitir una curva suave de aprendizaje a los programadores de bases de
datos en entornos MsDos.

    Dispone de las características más avanzadas en el diseño de clases
orientadas a objeto incluyendo herencia, subclases, encapsulación y poli-
morfismo. Las librerías de clases visuales y no visuales (por código) redu-
cen enormente el tiempo de desarrollo.
122                                                  SERIE: APRENDER A INVESTIGAR


    Existen herramientas de diseño para todas las fases de desarrollo de
la aplicación. Un motor de bases de datos altamente eficiente, un lenguaje
centrado en los datos y la capacidad de creación de componentes hacen
de Visual Fospro una herramienta idónea para la generación de lógica de
negocio en los entornos multicapa con tratamientos intensivos de datos.

    Visual Foxpro puede intercambiar datos con bases de datos SQL a
través de ODBC (Open Database Connectivity). De esta forma, no es
necesario un gran esfuerzo en la adaptación de aplicaciones basadas en
servidor de ficheros a aplicaciones clientelservidor. También podemos uti-
lizar los componentes ADO (ActiveX Data Objects) para intercambiar in-
formación con datos relacionases y no-relacionales mediante OLE DB.

    Visual Foxpro puede ser utilizado en las tres capas de una arquitectura
clientelservidor. Puede suministrar el interface de usuario a través del uso
de formularios con toda la potencia de la orientación a objeto. Los controles
ActiveX pueden usarse en los formularios y se subciasean para extender
sus funcionalidades. La lógica de negocio puede encapsularse en compo-
nentes muy eficientes gracias a la potencia de Fospro en la recuperación y
manipulación de datos. Los componentes COM pueden ser llamados des-
de el front-end del usuario o desde el servidor lnternet. Los componentes
comunican con las bases de datos de Fospro y SQL a través de ODBC y
OLE DB. En almacenamiento de datos puede estar soportado por el motor
de Visual Foxpro. En arquitecturas CIS la mejor combinación es SQL para
el proceso de las transacciones y Visual Foxpro para el manejo de consul-
tas locales y procesos batch.

Novedades en Visual Foxpro 6.0

    La aparición de Visual Foxpro 6.0 ha supuesto principalmente una evo-
lución de las herramientas de desarrollo para adaptarlas a la arquitectura
COM y al desarrollo de aplicaciones multicapa en lnternet e lntranet. Ade-
más dispone de herramientas de desarrollo mejoradas y ampliadas. Por
último se han revisado los comandos de programación, destacando la
mejora en el soporte del año 2000.

      Las principales novedades son:

OLE Drag and Drop

   El OLE Drag and Drop permite intercambiar datos entre los controles de
una aplicación o entre varias aplicaciones que soporten esta funcionalidad.
Ahora podemos arrastrar ficheros desde el explorador de Windows a la
ventana del proyecto o transportar textos con el ratón desde Word o Excel.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                    123


   Visual foxpro disponía desde versiones anteriores de un drag and drop
propietario. Sigue existiendo, pero se recomienda no utilizar los dos tipos
de drag and drop simultáneamente en una aplicación.

Documentos activos

   Visual Foxpro permite crear documentos activos, los cuales permiten
visualizar documentos no-Htmi en un explorador de lnternet. De momento
sólo es posible con el Microsoft lnternet Explorer. Un documento activo es
un tipo de documento OLE embebido. Se visualiza totalmente en un área
de la aplicación contenedora o host, mezclando su menú con el del host.
La tecnología de documento activo permite visualizar múltiples tipos de
documentos dentro de un único contenedor.

    A diferencia de Visual Basic, los formularios de Visual Foxpro no re-
quieren modificaciones para crear documentos activos. Es suficiente con
iniciar la aplicación desde una clase basada en la clase base ActiveDoc.
La clase base ActiveDoc aporta las propiedades, eventos y métodos para
un documento activo y de esta forma interactuar con el host.

Mejoras en el servidor de automatización

    Un servidor de automatización es un componente que expone su
funcionalidad, la cual puede ser usada por otras aplicaciones a través de
la automatización. Visual Foxpro puede crear servidores de automatización
dentro o fuera del proceso.

   Las mejoras en este tema se refieren al soport del Apartement Model
Threading. De esta forma Visual Foxpro tiene soporte para Microsoft Tran-
saction Server. Los componentes construidos con Visual Foxpro pueden
ser manejados por el explorador de Microsoft Transacción Server y parti-
cipar en las transacciones con otros componentes.

   Otras mejoras de adaptación de los servidores de automatización a la
arquitectura COM son: gestión optimizada del Runtime, soporte mejorado
de las librerías de tipos, manejo de excepciones, paso de arrays, nuevas
propiedades y métodos para la automatización...

Galería de componentes

   La galería de componentes es una nueva herramienta que ayuda a agru-
par y organizar objetos como las clases, librerías, formularios, botones.
Los distintos objetos pueden organizarse en otros objetos como proyectos,
124                                               SERIE: APRENDER A INVESTIGAR


aplicaciones u otras agrupaciones diferentes. Estas agrupaciones visua-
les se pueden adaptar dinámicamente a las necesidades del desarrollador.

   La galería de componentes incluye también las Visual Foxpro Foun-
dation Classes. Son un conjunto de clases para mejorar las aplicaciones,
reutilizando código probado y optimizado.

   Estas clases pueden incluirse en nuestros proyectos directamente o
crear subciases para adaptarlas a las distintas aplicaciones.

Aplicación de cobertura y control de rendimiento de código

    La aplicación de cobertura genera información de las líneas que fueron
ejecutadas en un determinado fichero. Por otro lado se puede configurar
el control que se realiza sobre las líneas de código ejecutadas, cuántas
veces se ejecutan, duración y muchos otros aspectos.

Acceso por programa al proyecto

   En versiones anteriores de Visual Foxpro, el único acceso a los pro-
yectos se realizaba de forma directa, abriendo la tabla pix a través del
gestor de proyectos. Ahora se ha implementado un objeto proyecto para
poder manipularlo por programa. El objeto proyecto actúa de intermedio
entre un proyecto abierto y el desarrollador que puede interactuar direc-
tamente con el proyecto.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                     125


9. STATGRAPHICS

    Software para el análisis de datos cuantitativos y cualitativos cuya es-
tructura está sobre la base de menús. Existen versiones para trabajar bajo
DOS y bajo Windows.

   El menú principal de Statgraphics permite entrar a cualquiera de las 22
secciones divididas en seis grupos.


9.1 Grupo I: Data handling and system utilities

A. DATA MANAGEMENT. Menú para entrada de datos, definición de varia-
   bles, importación y exportación de datos.

B. SYSTEM ENVIROMANT. Acceso a requerimientos y configuración del
   sistema.

C. REPORT WRITER AND GRAPHICS REPLAY. Configuración de im-
   presoras.

D. PLOTTER INTERFACE. Interfase para plotter.


9.2 Grupo II: Plotting and descriptiva statistics

E. PLOTTING FUNCTIONS. Elaboración de gráficas estadísticas en dos
   y tres dimensiones.

F. DESCRIPTIVE METHODS. Resume datos, realiza distribuciones de
   frecuencia, obtiene estadísticas básicas.

G. ESTIMATION AND TEST. Elabora intervalos de confianza y pruebas de
   hipótesis para una o dos muestras. Permite hacer pruebas de bondad
   de ajuste.

H. DISTRIBUTION FUNCTIONS. Genera números aleatorios. Permite ha-
   cer cálculos con las principales funciones de probabilidad continuas y
   discretas.

I.   EXPLORATOR Y DATA ANALYSIS. Realiza el análisis exploratorio de
     datos, diagrama de tallos y hojas, diagrama de caja, etc.
126                                              SERIE: APRENDER A INVESTIGAR


9.3 Grupo III: Anova and regression analysis

J. ANALYSIS OF VARIANCE. Realiza análisis de varianza de una o dos vías.

K. REGRESION ANALYSIS. Ajusta modelos lineales y no lineales en una
   y varias variables.


9.4 Grupo IV: Time series procedures

L. FORECASTING. Pronosticación con modelos de series temporales.

M. SMOOTHING. Procedimientos de promedios móviles

N. QUALITY CONTROL. Procedimientos de control de calidad estadísticos.

O. TIME SERIES ANALYSIS. Procedimientos para ajustar modelos ARIMA
   a series temporales.


9.5 Grupo V: Advanced procedures

P. CATEGORICAL DATA ANALYSIS. Tablas de contingencia, correspon-
   dencias simples, etc.

Q. MULTIVARIATE METHODS. Componentes principales, análisis de con-
   glomerados, tests multivariados, etc.

R. NONPARAMETRIC METHODS. Pruebas no paramétricas con una y
   varias muestras.

S. SAMPLING. Determina tamaño de la muestra.

T. EXPERIMENTAL DESIGN. Métodos de diseño de experimentos, anova,
   manova, diseños 22, 23, etc.


9.6 Grupo VI: Mathematical procedures

U. NUMERICAL ANALYSIS. Métodos de análisis numéricos, raíces de fun-
   ciones, método simple, álgebra, etc.

V. MATHEMATICAL FUNCTIONS. Glosario de funciones matemáticas,
   aplicaciones.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                127


9.7 Requerimientos físicos para la instalación de Statgraphics

1. Sistema operativo DOS (Windows 3.1 o superior si se va a instalar la
   versión bajo Windows).

2. Procesador 386 o superior

3. El monitor se configura en la instalación.

4. 5 Mb para almacenar el STATGRAPHICS.
128                                                  SERIE: APRENDER A INVESTIGAR



                                 Tablas
                       Áreas bajo la curva normal

Fracción del área total (10.000) bajo la curva normal, correspondiente a dis-
tancias entre la media y las ordenadas situadas a z unidades de desviación
estándar de la media.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                 129


                                Números aleatorios
130                       SERIE: APRENDER A INVESTIGAR


      Distribución de t
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                  131


                                 Distribución de X2
132                                  SERIE: APRENDER A INVESTIGAR


      Valores de F con significancia de 0.05
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                         133


                    Valores de F con significancia de 0.01
Aprender a investigar_modulo4
Serie
             APRENDER A INVESTIGAR




                      ANEXO




                                      Módulo 4
     Instructivo para el uso del video
                                  ESTELA URIBE VÉLEZ




1. Uso didáctico del video
2. Videos:
   • La medición y las ciencias
   • La curva normal
   • La muestra
136   SERIE: APRENDER A INVESTIGAR
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          137


1. USO DIDÁCTICO DEL VIDEO

   En este documento queremos mostrar la importancia que tiene la utiliza-
ción de video en las aulas de clase, sus ventajas y desventajas en las activi-
dades académicas. Así mismo, que es responsabilidad del profesor el buen
uso que de éste se haga para facilitarle el proceso enseñanza-aprendizaje.

     El video es un sistema de almacenamiento de imágenes y sonidos que
utiliza los mismos fundamentos técnicos que la televisión y que nació para cu-
brir las necesidades que las programadoras de T.V. tenían para almacenar sus
programas y librarse de la esclavitud de la emisión en directo. Su aparición
revolucionó la tecnología televisiva, que hasta el momento se reducía a la trans-
misión de sucesos en directo, de forma irrepetible. El video configuró una nueva
televisión donde el programa elaborado por montaje, el diferido, las repeticio-
nes y los intercambios de programas, enriquecen la producción televisiva.

    La mayor ventaja que tiene el video con respecto al resto de los audio-
visuales, desde el punto de vista didáctico, es la posibilidad de una presenta-
ción flexible y un fed-back inmediato.

    Una de las funciones que debe cumplir el video en el aula es la de ser un
facilitador para el proceso enseñanza-aprendizaje.

    El docente debe reflexionar sobre la realidad educativa concreta y, como
consecuencia de ello, descubrir cuáles son sus necesidades reales con rela-
ción al video como medio concreto, fruto del desarrollo de las nuevas tecno-
logías de la comunicación y su aplicación en la enseñanza.

El video como medio didáctico

    La forma más frecuente de esta utilización consiste en el trabajo con el
grupo/aula –la situación de enseñanza masiva–, en la que el monitor sustituye
el discurso del profesor. Generalmente se recurre a este medio para motivar/
introducir un tema, aunque para algunos temas y/o disciplinas –generalmente
aquellas centradas en la explicación de procesos, etc.– el video introduce
algunos momentos didácticos.

   El video puede cumplir diferentes funciones dentro de los procesos de
enseñanza-aprendizaje; entre ellas tenemos:

Función motivadora

   El video, como todos los medios basados en lenguajes visuales, es parti-
cularmente apto para transmitir emociones, sensaciones, afectos, que a me-
nudo las palabras no logran expresar con la misma precisión, ya que la ima-
gen, por su misma naturaleza, comunica de manera inmediata, más rápida y
138                                                     SERIE: APRENDER A INVESTIGAR


emotiva que la palabra. En este sentido, además de implicar al alumno en la
información videográfica, pueden desarrollarse y afirmarse actitudes, estimu-
lar la imaginación, la fantasía...

    Básicamente se trata de utilizar el video para captar la atención y, a su
vez, dar una primera idea, muy general sobre el tema. El tipo de programas
que podemos emplear puede proceder de emisiones de televisión comercial,
de películas, de actividades realizadas en el propio centro, entre otras. Su
grado de elaboración desde el punto de vista educativo puede ser muy ele-
mental, ya que lo fundamental de esto reside en lo que tiene de actualidad o de
interés para el alumno. El profesor es quien puede decidir qué tipo de conteni-
dos son los adecuados, en cada caso concreto, para el desarrollo de esta
función. El material puede tener los orígenes más diversos.

Función presentadora/introductoria

     La presentación del contenido del tema, bien en su totalidad, bien en una
parte del mismo, puede ser otra de las funciones del video en el aula. Esta
utilización es sensiblemente diferente a la anterior y no se puede entender ni
tiene sentido de forma aislada.

   El desarrollar un tema en el aula por medio del video debe tener dos accio-
nes previas:

1. Adecuar el programa a la situación concreta de clase.

2. Desarrollar los materiales que van a permitir la comprensión y el desarro-
   llo del mismo, el video por sí solo tiene problemas para, de una forma
   adecuada, dar una información a un grupo de alumnos. La velocidad de la
   narración puede ser, entre otros, uno de los problemas que se pueden
   presentar. Para suplir algunos de estos problemas se hace indispensable
   que el profesor prepare por lo menos dos tipos de materiales complemen-
   tarios a esta presentación como son:

      – Materiales de ampliación del contenido del video. Estos deben permitir
        que el alumno vea la importancia del tema que el video ha mostrado y
        cómo desarrollar aquellos aspectos tratados en el video que puedan
        tener un interés relevante. Deben ser fundamentalmente documentos,
        referencias bibliográficas, etc., que el profesor debe preparar para cada
        video.

      – Materiales de observación o evaluación del video. Deben ser como guías
        de observación del problema, en el que se destacan aquellos aspectos
        del mismo que tienen un mayor interés y que deben ser observados con
        más atención. Tienen una doble función: destacar los puntos fundamen-
        tales y evaluar los contenidos por el alumno. Estas guías contienen una
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                           139


      serie de cuestiones que se han de responder con la información que
      facilita el programa visionado. No se trata exclusivamente de preguntas
      y respuestas en el sentido más tradicional. Pueden ser esquemas para
      completar, mapas a complementar, gráficas, etc.

   Un uso complementario de todo lo anterior va a permitir al estudiante no
sólo la utilización de cualquier guía, sino también la manipulación de los pro-
gramas de video utilizados en clase, de tal forma que pueda crear con ellos su
propio programa, bien con intención de completar el aprendizaje o bien con
una intención evaluadora.

Función informativa

    Está directamente relacionada con la adquisición de conocimientos y con
la relación que se establece entre las nuevas informaciones que se reciben y
las ideas que ya se poseen, desarrollando nuevos conceptos y conocimien-
tos. El video actúa de mediatizador desde el momento que se trata de una
observación indirecta. Esta observación no puede limitar el estudio a lo que el
entorno le ofrece visualmente, sino que se ocupará de cosas que no pueden
ser observadas directamente, bien por problemas especiales –no se puede
acceder–, bien por problemas temporales –acontecimientos que pueden apre-
ciarse con la concentración o dilatación del tiempo–, lugares inaccesibles para
la visión humana, o por tratarse de una conexión con otras tecnologías –tele-
scopios, microscopios–, o de acceso difícil, costoso o peligroso.

Función instructiva

    El video, además de motivar y transmitir información, ha de servir para
proporcionar instrumentos tendientes a la organización del conocimiento y al
desarrollo de destrezas. Las destrezas, las actitudes de base conseguidas,
pueden transferirse a otros ámbitos del conocimiento, de la cultura o de las
situaciones vitales a través de principios.

     La aplicación de estos principios a la utilización didáctica se centra, fun-
damentalmente, en la intervención del profesor en la transmisión del mensaje
–especialmente, en el modo de presentación–, de tal forma que lo haga más
dinámico y activo. Esta intervención requiere un conocimiento de las im-
plicaciones que el modo de presentación de un material tiene en el alumno, la
posibilidad de flexibilizar la utilización de los materiales a fin de adecuarlos al
mayor abanico de necesidades y condiciones y, por último, requiere también
la integración del medio en el contexto.

Estos principios son:

a. El modo de presentación: La eficacia del mensaje depende tanto del con-
   tenido como de su presentación.
140                                                      SERIE: APRENDER A INVESTIGAR


b. Flexibilidad de utilización: La flexibilidad supone para el profesor el trata-
   miento de dicho mensaje desde enfoques diversos:

      a. La audiencia: Debe conocer muy bien a su audiencia y tener claras sus
         necesidades.

      b. Contemplar la necesidad de utilización en situaciones didácticas que
         no sean solamente grupales.

      c. Utilización integrada en el contexto educativo: El profesor debe presen-
         tar contenidos que se integren en el medio afectivo, social y cultural del
         alumno destinatario.

Función de recapitulador

    Este es otro posible uso del video en la situación interactiva de clase, el
empleo de las secuencias más significativas del tema expuesto, dándole un
tratamiento diferente, más ágil, más breve, puede permitir que todo el tema se
resuma en unos pocos minutos, de manera que quede claro cuáles son las
ideas y los conceptos fundamentales del mismo.

    Las funciones anteriores van interrelacionadas y le corresponde al profe-
sor desarrollarlas de tal forma que se adecuen a sus propósitos; por lo tanto el
profesor debe, con anterioridad a la utilización del video en el aula, visionar
repetidamente el mismo, analizarlo y decidir cuáles son los puntos esenciales
del tema, desarrollando seguidamente los materiales complementarios para
los estudiantes.

El video como medio de expresión y de comunicación

    Si concebimos el video como un medio que une la comunicación didácti-
ca, es obvio que, además de transmitir información externa –más o menos
modificada o manipulada por el profesor–, debe servir de medio de expresión
de las propias ideas y experiencias para los protagonistas del proceso ense-
ñanza-aprendizaje –profesor y alumnos–.

El video, por su propia naturaleza, resulta un medio apropiado en una comuni-
cación bidireccional –multidireccional– en el aula. Su desarrollo como tal, exi-
ge, no obstante, un cambio radical en algunas concepciones ancladas en el
sistema educativo y, especialmente, aquellas relacionadas con la facultad y la
libertad para comunicar.

   Es necesaria la participación libre y consciente por parte del alumno en el
proceso comunicativo.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         141


    La simplicidad técnica de manejo y los bajos costos de este medio, hacen
posible lo que con el cine era más complicado. La enseñanza de la imagen es
hoy factible en su doble vertiente, para contemplarla y para usarla como me-
dio de expresión. Conocer los criterios y principios que están detrás de un
mensaje verboicónico nos permite dos tipos de acciones:

– Primero. Facilitar la decodificación completa de los programas que nos
  llegan por los medios de comunicación de masas, fundamentalmente la
  televisión.

– Segundo. Permite utilizar un nuevo medio de expresión de forma correcta,
  de manera que podamos decir lo que deseamos y que nuestro mensaje
  sea decodificado de acuerdo con nuestra intención.

   En relación con esto último debemos recordar que el video es un medio de
comunicación, y por lo tanto reúne las condiciones necesarias para poder
establecer por medio de él un proceso de comunicación fundamentalmente
grupal y en menor medida personal.

El video como medio de investigación

    El video reúne unas condiciones que le hacen ser un buen auxiliar para la
investigación, tanto para los estudiosos de la educación, profesores, investi-
gadores, etc., como para los propios alumnos. Por lo que respecta a los pri-
meros, el video permite la grabación de distintos tipos de situaciones que
tengan que ver con la enseñanza y que, posteriormente, se pueda estudiar al
ritmo que se desee. Reuniones de grupos de trabajo, situaciones de clase,
entrevistas, etc., son algunas de las ocasiones en las que el video puede
aportar la posibilidad de observar aspectos que, de otra manera, pueden pa-
sar inadvertidos.

    En el caso de los alumnos que también es extensible a cualquier tipo de
investigaciones, el video puede proporcionar el soporte ideal para la observa-
ción del desarrollo de procesos de tipo físico, etc., archivo documental, reali-
zación de informes y un buen número más de posibilidades que prácticamen-
te está limitado solamente por la imaginación y creatividad de los usuarios.

Otros usos del video

   Evidentemente, existen otros usos del video en el aula, entre los cuales
podemos destacar su utilización como medio de entretenimiento, o como re-
cursos para la formación permanente del profesorado, para la comunicación
universidad-padres, como medio de investigación, entre otros.

   Desde este punto de vista, los usos que resultan básicos para los profe-
sores pueden ser:
142                                                   SERIE: APRENDER A INVESTIGAR


a. En la formación del profesorado, actuando como instrumento de análisis
   en diversas técnicas, como microenseñanza, y también en la familiariza-
   ción de los profesores respecto a dicho medio.

b. En la investigación didáctica, como instrumento de análisis de las interac-
   ciones profesor-alumno, de las conductas de los alumnos, de la actuación
   de los profesores... También constituye un campo de investigación en este
   terreno la investigación sobre diseño y elaboración de materiales didácticos
   en video.

   Todos los posibles usos descritos casi nunca podremos aislarlos total-
mente en la práctica educativa; así por ejemplo, la formación del profesorado
no puede desligarse del componente de medio de investigación que el video
desarrolla.

Ventajas del video como ayuda didáctica

– Permite mostrar situaciones históricas, presentes y futuras.
– Se pueden repetir acciones.
– Se pueden integrar imagen, color y sonido.
– Permite adecuar parte de un tema en imágenes que se puedan proyectar.
– Mantiene la atención del estudiante, si el tema es motivador.
– Posibilita la reflexión en grupo sobre el tema proyectado.
– Se pueden realizar análisis parciales sobre el tema, suspendiendo la pro-
  yección cada vez que el profesor o el estudiante lo consideren necesario.
– Permite la interactividad en clase.
– Puede ser visto en grupos o individualmente.
– No requiere oscuridad para su presentación.

Desventajas del video como ayuda didáctica

– Sólo se debe presentar una idea del tema que se va a tratar.
– El desarrollo del tema puede ser muy rápido y no se capta fácilmente.
– Si el tema es largo y monótono permite que los estudiantes se distraigan.
– Propicia los comentarios durante la proyección, lo que puede distraer a los
  asistentes.
– Si el tema no está bien tratado permite el adormilamiento entre los asis-
  tentes.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          143


Errores más comunes cuando se presenta un video

– No conocer el tema del video con anterioridad a la presentación.
– Desconocer su estado físico (imagen rayada, mal sonido, baches...).
– Pretender que un video por sí solo sea didáctico.
– No preguntar a su audiencia si lo ha visto.
– No hacerle una introducción antes de su presentación.
– No analizar al final de la presentación una evaluación o conclusiones so-
  bre el tema.
– Presentar videos muy largos sin hacer pausas para reflexionar sobre el
  tema o hacer declaraciones sobre el mismo.
– No adecuar el aula para su presentación.
– Apagar la luz cuando se utiliza un monitor de T.V.
– Utilizar un monitor de T.V. pequeño para una audiencia muy grande.
– Desconocer el funcionamiento de los equipos: T.V., VHS o Betamax.


 Algunas recomendaciones para utilizar el video con fines didácticos

           QUÉ NO HACER                              QUÉ HACER

1. Seleccionar todo el video sólo por   1. Ver el contenido del video y analizarlo
   el título.                              para ver si es apropiado al tema
                                           que queremos complementar.

2. Presentar un video sin conocer su    2. Revisar muy bien el material se-
   contenido y su estado físico, so-       leccionado antes de presentarlo.
   nido, imagen.

3. Proyectar un video sin hacer an-     3. Hacer una presentación del tema
   tes una presentación del tema.          y explicar qué se pretende con el
                                           video.

4. Presentar un video sin preguntar     4. Debemos interrogar a los partici-
   a los participantes si ya conocen       pantes si ya conocen el video,
   su contenido.                           para no repetirlo o hacer otro en-
                                           foque sobre el mismo.

5. Presentar videos muy largos sin      5. Hacer una pausa para evitar la fa-
   hacer una pausa.                        tiga, hacer preguntas o aclaracio-
                                           nes sobre el tema si es del caso.
144                                                    SERIE: APRENDER A INVESTIGAR


6. Presentar videos en idiomas ex-        6. Debemos preguntar si el idioma
   tranjeros,                                del video es comprensible para
                                             todos.

7. Seleccionar el video como único        7. Debemos combinar medios en
   medio de apoyo a un curso.                nuestros cursos.

8. Utilizar un monitor de T.V. peque-     8. Seleccionar el tamaño del moni-
   ño para audiencias numerosas.             tor de T.V. de acuerdo con el nú-
                                             mero de la audiencia.

9. Oscurecer el aula cuando se            9. Se debe dejar la luz prendida,
   está utilizando un monitor de T.V.        esto permite observar la reacción
                                             de la audiencia ante el video.

10. Terminar la presentación sin ha-      10. Al terminar de ver un video se de-
    cer conclusiones o preguntas so-          ben hacer preguntas, aclaracio-
    bre el video.                             nes, verificar si se cumplió el ob-
                                              jetivo propuesto.




Bibliografía

MARTÍNEZ SÁNCHEZ, Francisco. La educación ante las nuevas tecnologías de la
  Educación: Configuración de los videos didácticos. Anales de la Pedagogía Nº 8,
  1990, págs. 159-180.

COLOM CAÑELLAS, Antonio J., SUREDA NEGRE, Jaume, SALINAS IBÁÑEZ, Jesús.
  Tecnologías y medios didácticos. De Cincel S.A., Madrid, 1988.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         145


2. VIDEOS


2.1 VIDEO: «LA MEDICIÓN Y LAS CIENCIAS»

Introducción

   El propósito de este video es mostrar qué es la medición, sus diferen-
tes procesos para recolectar la información.

   El material audiovisual cumple la función de complemento o refuerzo al
material escrito, está concebido como un material autoinstructivo elaborado
como imágenes sencillas y de una forma coloquial.

   La información consignada en cada uno de los videos es autosuficiente,
es decir, que en forma independiente comunica una información completa
sobre un determinado tema. Sin embargo, no debe perder de vista que cada
uno de ellos es parte integrante de una unidad global que es todo el curso.

   Para complementar el Módulo 4, Análisis de la información, se ha ela-
borado el video «La medición y las ciencias», el cual le dará una visión pano-
rámica y al mismo tiempo será un complemento al tema que usted ha estu-
diado.

Recomendaciones

   Antes de ver este video le recomendamos haber estudiado el Módulo 4,
Análisis de la información, y estar familiarizado con las técnicas básicas para
recolectar la información,

    Recuerde que el ideo es una ayuda complementaria, que pretende refor-
zar el contenido que usted ya estudio, además debe tener en cuenta:

•   Para ver el video utilice un monitor de televisión adecuado, mínimo de 14’’.

•   No oscurezca la sala en donde vea el video, así no se fatigará.

•   Recuerde llevar papel y lápiz para que tome nota.

•   Es conveniente que sepa manipular el control remoto del VHS o Betamax
    para que pueda adelantar o retroceder en las ideas que no le sean claras.

•   Después de ver el video debe realizar la Autoevaluación que aparece a
    continuación del guión de contenido. Si ve el video con otros compañeros
    podrá realizar después una mesa redonda para discutir las respuestas, lo
    que lo hará más interesante y así los aportes que hagan los participantes
    serán valiosos.
146                                                    SERIE: APRENDER A INVESTIGAR


                      Guión de contenido del video
                     «LA MEDICIÓN Y LAS CIENCIAS»

    Los investigadores disponen hoy de instrumentos muy precisos para me-
dir magnitudes de espacio, de tiempo, de intensidad, no sólo en nuestro mun-
do cercano sino en el espacio sideral.

    Estos adelantos técnicos son el resultado de un proceso tan largo como la
presencia humana sobre la Tierra, tan antiguo como su necesidad de enume-
rar, de contar, de medir las cosas, los animales, los seres diversos que com-
partían con él su pequeño mundo circundante. Para numerar cosas o para
medir longitudes, lo más obvio era recurrir al propio cuerpo, utilizar los dedos,
los brazos, los pies, como unidades de medida; pero al tratarse de longitudes,
los pies de Pedro eran más largos que los pies de Pablo, y unos y otros más
largos que los de sus mujeres. Fue preciso entonces escoger arbitrariamente
el pie derecho de Pedro como medida universal para toda la tribu, y como
Pedro no podía concurrir a todos los sitios donde se necesita, se hicieron
réplicas de los pies de Pedro para que todos pudieran utilizarlas.

    La fábula anterior puede ser o no ser una reseña exacta de la manera como
se inició la historia de las medidas en el mundo, pero fue ésta la manera como
se impuso, como consecuencia de la revolución francesa, el sistema métrico
decimal para las mediciones en casi todos los rincones del planeta. Aunque el
metro de cien centímetros tiene relación matemática como una medida de la
tierra misma, la medida metro es un objeto de platino e iridio que se encuentra
en el museo de «Sévres» cerca de París, esa medida tiene la ventaja de que
se le puede tomar réplicas bastante adecuadas, como ésta que es el patrón
de longitud para Colombia y reposa en la Universidad Nacional.

    Son medidas arbitrarias en su origen, pero aceptadas por el mundo y por
consiguiente convertibles para la mayoría de la gente que sabe lo que significa
un metro, un kilogramo, una hora, un año luz. La investigación científica mo-
derna se hace en una u otra forma, con base en procesos de medición que
pretenden señalar las características de los objetos que se investigan; aun-
que es preciso decir que lo cuantitativo no constituye la parte más importante
de la investigación y que incluso en investigaciones relativas a ciencias socia-
les la medición tiene sus limitaciones que deben ser comprendidas por el
investigador, para que no aspire a llegar con sus conclusiones más allá de lo
que le permiten los datos. Los procesos de medición se han desarrollado
más allá en las ciencias naturales y en las llamadas exactas que en las cien-
cias sociales; pero de todos modos siempre y cuando el investigador tome
las medidas reservas también el comportamiento de los seres humanos y
sus actitudes pueden ser medidas, tanto en las ciencias sociales como en las
naturales o en las exactas. Las mediciones que logramos hacer dejan siem-
pre margen al error, porque siempre nos valemos de nuestros sentidos que
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         147


están sujetos permanentemente a insuficiencias habituales o temporales, y
nuestros instrumentos de medida más perfectos siempre dejan la posibilidad
abierta para la incertidumbre. Sin embargo, cuando se toman todas las pre-
cauciones y se realizan todas las pruebas y contra pruebas necesarias, el
científico puede confiar en sus mediciones y quienes recibimos el beneficio
de sus investigaciones también podemos aceptar como sólidas las bases
sobre las que están edificadas. Podemos por ejemplo crear hipótesis sobre
comportamiento del mercado de algún producto y establecer si dicho com-
portamiento puede ser observado en sus consecuencias, si luego nuestros
sentidos y nuestros instrumentos nos dicen que estamos experimentando lo
que preveíamos, podemos tener confianza en que nuestra hipótesis era cier-
ta. Lo que sí tiene que considerar indispensable el investigador para que el
proceso de medición tenga su efecto es la clarificación y clasificación de los
conceptos que utiliza, de tal manera que haya definiciones que permitan lo-
grar acuerdos acerca de lo que se trata de expresar, o sea, que los otros
entiendan lo que quiere decir aunque no lo compartan.

    Hay diversos niveles de medición ya sea en física o en astronomía, en
sociología o economía, según las propiedades o características que están
siendo medidas; ante todo el nivel nominal que sólo sirve para clasificar sin
establecer ninguna otra diferencia entre las unidades o individuos de que se
trata, y los números vienen a desempeñar medianamente el papel de nom-
bres para distinguir a uno del otro. El nivel ordinal le asigna valores numéricos
a los sujetos en tal forma que los valores más altos corresponden a los indivi-
duos que tiene más de la característica que se está midiendo, con lo que se
diferencia uno del otro, como en el nivel anterior, pero además introduce la
posibilidad de un orden determinado. Sin embargo, hay por lo menos dos gran-
des limitaciones: la diferencia entre el individuo que tiene el número uno y el
que tiene el número dos no es igual a la que existe entre éste y el que tiene el
número tres; además, no existe el cero absoluto y si le ponemos el número
cero a alguno de los muñecos, sería para significar que tiene menor altura que
el número uno, pero no significaría ausencia de altura. De esas dos fallas, el
nivel intervalo de medición soluciona la primera, permite establecer el orden
con intervalos iguales de tal manera que entre 10 y 20 grados hay la misma
diferencia que entre 20 y 30 grados de temperatura; pero tampoco tenemos el
cero absoluto, pues una temperatura de cero grados no significa carencia de
temperatura sino el comienzo de la escala positiva y de la negativa.

    Finalmente existe el nivel de razón o radial en la medición, que incluye las
posibilidades de los otros niveles, pero también incluye la del cero absoluto. El
ingreso de las diversas personas se mide en pesos que son iguales para uno
y para otro; por lo tanto, se pueden diferenciar según reciban más o menos.
Pero, además, tienen la posibilidad de un cero absoluto como en el caso de
quien está desempleado y no recibe un solo centavo de ingreso. El investiga-
dor deberá definir muy bien el nivel de medición que corresponde al problema
148                                                     SERIE: APRENDER A INVESTIGAR


que desea investigar y el nivel que escoja le estará señalando la técnica esta-
dística que debe utilizar para analizar los fenómenos.

    Además de la escogencia adecuada de los niveles de medición que el
investigador necesita, en cada caso debe tener bien claros los factores que
tomará como constantes y los que tendrá como variables. Generalmente se
designan los factores constantes con las primeras letras del alfabeto castella-
no o del griego, y las variables con las últimas letras de nuestro alfabeto, a las
que se puede añadir distintivos numéricos. Por último, las variables pueden
tomar sólo cierto número de valores y entonces son variables discretas, como
cuando damos un valor unitario a cada respuesta acertada de un alumno, o
pueden ser variables que tomen un número infinito de valores y entonces son
variables continuas como en el sistema métrico decimal.

    Volvamos sobre la posibilidad de error que siempre acecha al investigador
y que es más preocupante según sea la necesidad de precisión y el instru-
mento que utiliza. Los errores pueden obedecer a falla personal, como por
ejemplo: un defecto de la vista en el investigador, o a defectos sistemáticos
surgidos de fallas intencionadas o fortuitas de los aparatos de medición. Y
finalmente se dan los errores aleatorios, que corresponden al mismo proceso
de medición, ya que por ejemplo: la más precisa de las balanzas no nos da
siempre la misma medida, aunque es imposible cerrar el paso a toda posibi-
lidad de error. El científico tiene que cuidar que su investigación sea siempre
confiable, válida y representativa.

     La calidad interna radica en la representatividad o capacidad de ser gene-
ralizada que tenga la investigación en los resultados que exhibe. La confiabilidad
de una medición es la consistencia que muestra al ser realizada varias veces,
o sea se refiere a la ausencia de errores que aparece en pruebas diferentes.

    La validez de una medición es el grado con que ésta representa una medi-
da de lo que realmente se quiere medir, o sea de aquello que en etapa anterior
se ha aclarado conceptualmente como objeto de la investigación o de la me-
dición específica; con lo que ya se está diciendo que es más importante ase-
gurarse de la validez de la medición que de su confiabilidad. Aunque no es
posible establecer directamente la validez de una medición, la práctica cientí-
fica ha consagrado varias maneras indirectas, ya sea para mediciones he-
chas en el campo de las ciencias naturales o exactas, o ya sea en el de las
ciencias sociales.

    Por último la representatividad o generalidad de una medición tiene que
ver con el grado en que sus resultados surgidos a partir de una muestra pue-
den ser atribuidos a la población general; porque si la medición no está
bien hecha pierde representatividad así se haya escogido cuidadosamente la
muestra.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         149




                                   Autoevaluación


   Apoyándose en el contenido del Módulo 4 y del video que acaba de ver,
   conteste o complete si es del caso las siguientes preguntas:

   1. ¿Qué debe considerar el investigador para que el proceso de medi-
      ción tenga efecto?

   2. ¿Cómo pueden ser los niveles de medición?

   3. ¿Para qué sirve el nivel nominal?

   4. ¿Para qué sirve el nivel ordinal?

   5. ¿En qué consiste el nivel de razón o radial en la medición?

   6. ¿Qué determina la técnica estadística que el investigador debe uti-
      lizar para analizar los fenómenos?

   7. ¿Qué otros factores debe considerar el investigador además de la
      escogencia de los niveles de medición?

   8. ¿Cómo pueden ser las variables?

   9. ¿Qué diferencia hay entre estas variables?

   10. ¿A qué puede obedecer la posibilidad de error en la medición que
       realiza el investigador?

   11. ¿De qué depende la calidad interna de un proceso de investiga-
       ción?

   12. ¿En qué radica la calidad externa de los procesos de investigación?

   13. ¿En qué consiste la confiabilidad de una medición?

   14. ¿Qué es la validez de una medición?
puestas con el guión de contenido.
   Después de haber realizado la autoevaluación puede comparar sus res-




   1. Clarificación y clasificación de los conceptos que utiliza, para lograr
      acuerdos acerca de lo que se trata de expresar.
   2. Nominal, ordinal y el nivel de razón o radial.
   3. Para clasificar sin establecer ninguna otra diferencia entre las uni-
      dades o individuos de que se trate.
   4. Asigna valores numéricos y puede introducir la posibilidad de un
      orden determinado.
   5. Incluye las posibilidades de los otros niveles y la del cero absoluto.
   6. El nivel de medición.
   7. Los factores que tomará como constantes y los que tendrá como
      variables.
   8. Discretas y continuas.
   9. Las discretas tienen número de valores, las continuas tienen un
      número infinito de valor.
   10. • A falla personal.
        • Defectos sistemáticos surgidos de fallas intencionadas o fortui-
          tas de los aparatos de medición.
        • Errores aleatorios que corresponden al mismo proceso de medi-
          ción.
   11. De la confiabilidad y validez que tenga la observación de los datos.
   12. En la representabilidad o capacidad de ser generalizada que tenga
       la investigación en los resultados que exhibe.
   13. Es la consistencia que muestra al ser realizada varias veces, o sea
       a la ausencia de error que aparece en pruebas diferentes.
   14. Es el grado con que ésta representa una medida de lo que realmen-
       te se quiere medir.

                        Respuestas a la Autoevaluación


SERIE: APRENDER A INVESTIGAR                                                    150
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        151


2.2 VIDEO: «LA CURVA NORMAL»


Introducción

   El propósito de este video es mostrar qué es la curva normal, su com-
prensión y la aplicación en el trabajo investigativo.

   El material audiovisual cumple la función de complemento o refuerzo al
material escrito, está concebido como un material autoinstructivo elaborado
con imágenes sencillas y de una forma coloquial.

   La información consignada en cada uno de los videos es autosuficiente,
es decir, que en forma independiente comunica una información completa
sobre un determinado tema. Sin embargo, no debe perder de vista que cada
uno de ellos es parte integrante de una unidad global que es todo el curso.

   Para complementar el Módulo 4. Análisis de la información, se ha ela-
borado el video «La curva normal», el cual le dará una visión panorámica y al
mismo tiempo será un complemento al tema que usted ha estudiado.


Recomendaciones

   Antes de ver este video que tiene una duración de 15 minutos, le recomen-
damos haber estudiado el Módulo 4, conocer en qué consiste el modelo teóri-
co de la curva normal y cuáles son sus múltiples aplicaciones.

    Recuerde que el video es una ayuda complementaria, que pretende refor-
zar el contenido que usted ya estudió; además tenga en cuenta:

•   Para ver el video utilice un monitor de televisión adecuado, mínimo de 14”.

•   No oscurezca la sala en donde vea el video, así no se fatigará.

•   Recuerde llevar papel y lápiz para que tome nota.

•   Es conveniente que sepa manejar el control remoto del VHS o del Betamax
    para que pueda adelantar o retroceder en las ideas que no le sean claras.

    Después de ver el video debe realizar la Autoevaluación que aparece a
continuación del guión de contenido. Si ve el video con otros compañeros
podrá realizar después una mesa redonda para discutir las respuestas, lo que
lo hará más interesante y así los aportes que hagan los participantes serán
valiosos.
152                                                    SERIE: APRENDER A INVESTIGAR


                       Guión de contenido del video
                          «LA CURVA NORMAL»

    ¿Qué nuevas vías son necesarias para la ciudad? ¿Qué cantidad de pro-
visiones debe almacenar este negocio para atender a sus clientes? ¿En qué
nivel está la calidad de esta deportista? Para responder preguntas como és-
tas es necesario observar y registrar la frecuencia y la forma como ocurren
ciertos hechos a lo largo de un período. En el caso de las vías, por ejemplo:
podríamos llegar a conocer datos como el promedio de vehículos que transi-
tan durante varios días de la semana; o la clase de vehículos que con más
frecuencia pasan por allí; son buses, camiones o carros particulares, y con
mayor observación podríamos llegar a conocer muchos detalles de la forma
como se comporta el tránsito en esa calle en distintas horas y en diversas
épocas del año. De la misma manera y con procesos similares de observa-
ción el propietario de este negocio podría calcular las provisiones que debe
almacenar de acuerdo con la forma como se comporta la demanda de sus
clientes según días, horas y clase de producto.

    En el caso del deportista, también sería posible registrar las marcas que
logra en su deporte, con el fin de medir sus progresos a lo largo de un entrena-
miento o para compararlo con las marcas que logran otros competidores. La
estadística nos proporciona entonces un conjunto de técnicas para registrar y
observar el comportamiento de fenómenos variables. Cuando se efectúan
mediciones estadísticas se observan diferentes formas en la frecuencia con
que ocurre el fenómeno. Por ejemplo: si examinas el comportamiento del cliente
en esta panadería a lo largo del día, es probable encontrar que las ventas
máximas se localizan en dos períodos, en las primeras horas de la mañana y
las últimas de la tarde. Esta clase de distribuciones se conocen como bimo-
dales. En otro tipo de distribuciones las mayores frecuencias se acumulan a
uno u otro lado de los valores de la variable. Por ejemplo: es probable que las
calificaciones que un profesor oneroso concede a sus alumnos estén repre-
sentadas por un tipo de curva concreta en la cual se registra que la mayor
parte de estudiantes consiguen buenas notas; en el caso del profesor muy
estricto la distribución de las frecuencias será opuesta al caso anterior.

    En el caso dos, la curva refleja que sólo unos pocos estudiantes consi-
guen buenas notas, mientras que la mayoría sólo alcanzan calificaciones malas
o mediocres. Otra clase de distribución, conocida como distribución normal,
es aquella en la cual las frecuencias tienden a concentrarse uniformemente
alrededor de un valor central. A esa distribución se aproxima por ejemplo: los
puntajes que los estudiantes consiguen en exámenes como las pruebas del
ICFES, o los de ingreso a la universidad; en ese caso la mayor parte de estu-
diantes se concentra en los puntajes intermedios de la escala, mientras que
un grupo menor consigue los puntajes máximos y otros resultantes se ubican
en los mínimos.
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          153


    A partir del concepto de distribución normal, la ciencia de la estadística ha
desarrollado un modelo teórico de importantes y múltiples aplicaciones. Este
modelo se conoce como curva normal y no es otra cosa que una representa-
ción gráfica y matemática de aquellos fenómenos que bajo ciertas condicio-
nes pueden considerarse como normalmente distribuidos. En su origen la
curva normal surge como representación de la frecuencia de eventos que
ocurren al azar, y por lo tanto como parte de la teoría de la probabilidad. En
efecto, al tomar estas ocho monedas podemos preguntarnos con qué fre-
cuencia relativa saldrán caras si las lanzáramos un gran número de veces. Lo
primero que responde la teoría de probabilidad es que en la mayor parte de los
casos saldrán cuatro caras, del mismo modo podremos suponer que en el
menor número de veces saldrán solamente caras y que en un número de
veces igualmente menor no saldrán caras. El histograma completo de fre-
cuencias relativas para el caso propuesto tendrá finalmente esta distribución,
y si en vez de ocho lanzáramos dieciséis monedas aumentaría el número de
las barras dentro del histograma y cada vez se identificaría mejor el perfil de la
curva y de la distribución normal. De esta manera la curva normal representa
en su origen la frecuencia con que ocurren fenómenos regidos por el azar,
sobre los cuales operan multitud de factores independientes. De la misma
forma que podemos encontrar círculos de diferente diámetro sin que por ello
pierdan su carácter de círculos, es posible también encontrar curvas cerca-
nas a la normal, pero con diferentes configuraciones. Por ejemplo: estas dos
curvas registran el mismo valor como promedio pero su amplitud varía porque
es distinta a su desviación estándar.

   Estas dos curvas registran promedios diferentes pero sus desviaciones
estándar son iguales.

   En estas dos curvas los promedios y las desviaciones estándar son dife-
rentes.

    Sin embargo la familia de las curvas normales cumplen las siguientes
características: en primer lugar toda curva normal es simétrica, es decir que
la mitad de su lado izquierdo es igual a la mitad del lado derecho, igualmente
la distribución que representa la curva normal es unimodal a tal punto que
promedio, mediana, y moda tienen todos el mismo valor.

   De otra parte, y a diferencia de un polígono de frecuencia, la curva normal
es continua, y por lo tanto sólo registra en rigor valores de variables que sean
continuas.

    Otra característica común es que la curva normal es asintótica, es decir,
que no toca el eje de las «x» y que por lo tanto ocupará un número infinito de
observaciones; si bien es cierto que en las ciencias sociales las mediciones
no son continuas ni el número de observaciones es infinito, la utilidad práctica
de la curva normal es su valor como modelo estadístico y matemático.
154                                                   SERIE: APRENDER A INVESTIGAR


    La curva normal es un instrumento que ayuda a organizar, describir y pre-
decir el comportamiento de fenómenos que en su distribución se aproximan a
la distribución normal. Así por ejemplo, y tomando la curva normal como mo-
delo, podrían estimarse el porcentaje de colombianos adultos cuya estatura
varía entre 1.60 metros y 1.80 metros y el porcentaje de aquellos que miden
menos de 1.60 metros o más de 1.80 metros.

    Otra forma en que la Curva Normal actúa como modelo de suma impor-
tancia es en la llamada Distribución de Muestreo. En efecto, si obtenemos
una gran cantidad de muestras aleatorias de un universo dado, el valor de los
promedios y de otras estadística de esas muestras tienden a conformar una
distribución normal. A modo de ejemplo veamos este caso: los valores 1, 2 y
3 conforman nuestro universo. De ese universo vamos a obtener todas las
posibles muestras de dos elementos. He aquí la primera muestra, el prome-
dio de esa muestra es uno y lo anotamos en una tabla de frecuencia. Ahora
vamos a repetir el procedimiento con las otras posibles muestras, es decir,
tomamos los valores de la muestra y consignamos en la tabla el valor de su
promedio, he aquí el resultado final, los promedios de las diferentes muestras
tienen una distribución muy cerca a la normal. Si el universo fuera mayor y las
muestras más grandes el perfil de la curva normal sería más notable. Hay otro
hecho en extremo interesante y es que el valor promedio de la distribución de
estos promedios coinciden con el valor promedio del universo original. Este
carácter normal de la distribución de muestreo es de gran importancia para
realizar inferencias ya que permite al investigador calcular la probabilidad de
que el valor de una estadística obtenida en una muestra, coincida con el valor
del parámetro de la población o universo. Como modelo teórico, la curva nor-
mal tiene en síntesis las siguientes características: como sabemos es una
distribución simétrica y asintótica que no toca el eje horizontal y se extiende
indefinidamente; el área total debajo de la curva puede representar el número
total de elementos de la población o universo, es decir, constituye el 100% de
los casos; esta propiedad permite que entre dos puntajes a lo largo del eje
horizontal sea posible determinar la proporción de la frecuencia entre dos
puntajes; proporción que será igual al área de la curva entre esos dos puntos.
Cuando se normaliza una distribución, el medio aritmético, la mediana y la
moda son iguales a cero; por lo tanto, los valores al lado izquierdo del eje
horizontal son negativos mientras que los valores del lado derecho son posi-
tivos.

   La desviación estándar en una desviación normalizada es igual a uno, el
68.26% de los valores de la distribución se localizan bajo el área determinada
por una desviación estándar a cada lado del medio aritmético. Del mismo
modo el 95.46% de los valores se localizan entre extremos de dos desviacio-
nes a lado y lado del medio. El 99% de los valores se agrupan bajo el área que
determinan tres desviaciones estándar a lado y lado del mismo medio. La
comprensión y aplicación de la curva normal es una exigencia en el trabajo
investigativo, particularmente cuando se desea hacer inferencias a partir de
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         155


una muestra. La curva es un modelo, es una abstracción; para aplicarla con
acierto se requiere su exacta comprensión como instrumento estadístico; lo
mismo que el conocimiento preciso de la índole y características de la inves-
tigación para la cual se aplique.




                                   Autoevaluación

   Apoyándose en el contenido del Módulo 4, y en el video que acaba de ver
   conteste o complete si es del caso las siguientes preguntas:

   1. ¿Qué es la distribución normal?

   2. ¿Qué es la curva normal?

   3. ¿Por qué surge la curva normal?

   4. ¿Cuales son las características que deben cumplir la familia de las
      curvas normales?

   5. ¿Qué es una curva normal asintótica?

   6. ¿Cuál es la utilidad práctica de la curva normal?

   7. Como modelo estadístico y matemático la curva normal es un ins-
      trumento que ayuda a...

   8. ¿Qué es distribución de muestreo?

   9. ¿Qué características tiene la curva normal como modelo teórico?

   10. Cuando se normaliza una distribución, la media aritmética, la me-
       diana y la moda son igual a....

   11. ¿A qué es igual la sesviación estándar de una distribución normali-
       zada?

   12. ¿Qué se necesita para aplicar la curva normal con acierto?
puestas con el guión de contenido.
   Después de haber contestado las preguntas puedes comparar sus res-



   1. Es aquella en la cual las frecuencias tienden a concentrarse unifor-
      memente alrededor de un valor central.
   2. Es una representación gráfica y matemática de aquellos fenóme-
      nos que bajo ciertas condiciones pueden considerarse como nor-
      malmente distribuidos.
   3. Como representación de la frecuencia de eventos que ocurren al
      azar y por lo tanto como parte de la teoría de la probabilidad.
   4. – Toda curva normal es simétrica.
        – La distribución que representa la curva normal es la unimodal.
        – La curva normal es continua.
        – La curva normal es asintótica.
   5. Es la que no toca el eje de la X y por lo tanto ocupará un número
      infinito de observaciones.
   6. Es su valor como modelo estadístico y matemático.
   7. Organizar, describir y predecir el comportamiento de fenómenos
      que en su distribución se aproximan a la distribución normal.
   8. Cuando la curva normal actúa como modelo se obtiene una gran
      cantidad de muestras aleatorias de un universo dado y el valor de
      los promedios y de otras estadísticas tiende a conformar una distri-
      bución de muestreo.
   9. – Es una distribución simétrica y asintótica que no toca el eje hori-
        zontal y se extiende independientemente.
        – El área total debajo de la curva normal puede representar el nú-
          mero total de elementos de la población urbana.
   10. Cero
   11. A uno
   12. Su exacta comprensión como instrumento estadístico, lo mismo
       que el conocimiento preciso de la índole y características de la in-
       vestigación para la cual se aplica.

                        Respuestas a la Autoevaluación


SERIE: APRENDER A INVESTIGAR                                                  156
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                        157


2.3 VIDEO: «LA MUESTRA»


Introducción

   El propósito de este video es mostrar qué es la muestra, cuándo utili-
zar una muestra, qué obtiene el investigador a través de la muestra.

   El material audiovisual cumple la función de complemento o refuerzo al
material escrito, está concebido como un material autoinstructivo elaborado
con imágenes sencillas y de una forma coloquial.

   La información consignada en cada uno de los videos es autosuficiente,
es decir, que en forma independiente comunica una información completa
sobre un determinado tema. Sin embargo, no debe perder de vista que cada
uno de ellos es parte integrante de una unidad global que es todo el curso.

   Para complementar el Módulo 4. Análisis de la información, se ha ela-
borado el video: «La muestra», el cual le dará una visión panorámica y al
mismo tiempo será un complemento al tema que usted ha estudiado.


Recomendaciones

     Antes de ver este video que tiene una duración de 15 minutos, le recomen-
damos haber estudiado el Módulo 4, conocer qué es la muestra, cómo se
utiliza, para qué sirve, cómo se determina ésta. Recuerde que el video es una
ayuda complementaria, que pretende reforzar el contenido que usted ya estu-
dió. Además tenga en cuenta:

•   Para ver el video utilice un monitor de televisión adecuado, mínimo de 14”.

•   No oscurezca la sala en donde vea el video, así no se fatigará.

•   Recuerde llevar el papel y lápiz para que tome nota.

•   Es conveniente que sepa manejar el control remoto del VHS o del Betamax
    para que pueda adelantar o retroceder en las ideas que no le sean claras.

    Después de ver el video debe realizar la Autoevaluación que aparece a
continuación del guión de contenido. Si ve el video con otros compañeros
podrá realizar después una mesa redonda para discutir las respuestas, lo que
lo hará más interesante y así los aportes que hagan los participantes serán
valiosos.
158                                                    SERIE: APRENDER A INVESTIGAR


                       Guión de contenido del video
                             «LA MUESTRA»


    Muchas afirmaciones sobre características de las personas de una región
o sobre las que tienen una misma profesión u oficio, o sobre características
de las personas según su edad o sexo son ejemplo de generalizaciones, he-
chas a partir de la observación de apenas unos casos. Eso quiere decir que
en la vida cotidiana deducimos que una población tiene cierta característica
por el hecho de haberla observado en una muestra de esa población.

    Todos generalizamos pero todos sabemos que esas generalizaciones no
son científicamente ciertas; sin embargo, la ciencia también hace generaliza-
ciones a partir de la observación de un número limitado de casos. La diferen-
cia está en que la ciencia sigue rigurosos métodos para garantizar la validez
de sus generalizaciones. En efecto, el trabajo del investigador científico es
encontrar leyes, relaciones, comportamientos y otras características que per-
mitan conocer mejor, bien sea el mundo de los fenómenos naturales o bien el
mundo de los fenómenos humanos y sociales. En este proceso son muchas
y diversas las preguntas que motivan un trabajo de investigación. Por ejem-
plo: ¿cuántos desempleados tiene el país? o ¿cómo puede controlarse la roya
de los cafetos?, o ¿de qué manera influye el nivel educacional de los padres
en el desarrollo físico y mental de sus hijos? En casos como estos los
desempleados o los cafetos o los padres de familia constituyen la población o
universo objeto de cada investigación. Pero ante la imposibilidad de que el
investigador examine a cada individuo de su universo o población sean desem-
pleados, o cafetos, o padres de familia o cualquier otro conglomerado, se
hace indispensable que tan solo observe una muestra tomada de la población
o universo objeto de su estudio y que a partir de esa muestra pueda generali-
zar válidamente para todos los casos. Así pues, podemos decir que cuando el
investigador desea conocer una característica de una población o universo su
trabajo se orienta en primer lugar a observar esa característica en una mues-
tra tomada de esa población o universo, los valores que el investigador mide
en la muestra se conocen como estadística y los valores que corresponden a
la población o universo se conocen como parámetros. Así por ejemplo puede
ocurrir que en una muestra encontremos un 10% de desempleo. Ese valor
sería la estadística, pero es posible que el valor real del desempleo en la ciu-
dad en la cual se tomó la muestra al contabilizar absolutamente todos los
casos sea un 12%, esta cifra entonces sería el parámetro. Podemos decir
entonces que el investigador obtiene estadísticas de la muestra para inferir
parámetros de la población o universo. En este proceso de inferencia científi-
ca, el investigador debe cumplir varias y rigurosas exigencias; debe en primer
lugar garantizar que su muestra sea representativa del universo, es decir, que
la muestra reproduce las distribuciones y valores del universo o poblaciones
con márgenes de error calculables. La representatividad de la muestra de-
pende de varios factores; uno de ellos es la identificación del universo de don-
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                         159


de va a sacar la muestra, esta identificación del universo o marco de muestreo
no siempre es sencilla; hay algunas dificultades inherentes, la primera es la
posibilidad de delimitar un universo, por el hecho de que todo universo es un
organismo vivo que se expande, que crece y es dinámico; tomemos el caso
de la población de una ciudad o el número de carros que hay en la ciudad, o el
número de maestros que hay en una nación, esos universos están perma-
nentemente creciendo y por lo tanto es muy difícil dar una delimitación precisa
en un momento preciso; en segundo lugar existe una segunda clase de limita-
ciones que tiene que ver con el tipo de objeto social sobre el cual se va a hacer
la muestra.

    Hay objetos sociales que de por sí son distintamente definidos como por
ejemplo: el número de alcohólicos que hay en una ciudad o el número de
vagabundos, etc., en esos casos evidentemente no hay manera de precisar
el universo; hay una tercera clase de delimitaciones que tienen que ver con
las posibilidades tecnológicas al servicio de una investigación, para poder
delimitar ese universo en objetos que están ya centralizados, que tienen re-
gistros públicos, por ejemplo el problema no es tanto el dato ni la clase de
dato, sino el control y la sofisticación que existe en cuanto a la información
para ese tipo de datos. Otro factor influyente en la representatividad de la
muestra es el diseño muestral. Diseñar una muestra es buscar que cada
componente de un universo tenga la posibilidad de estar incluido en la mues-
tra y que se pueda calcular la posibilidad que cada elemento tenga de estar en
la muestra.

     Las muestras aleatorias o probabilísticas son de varias clases y exigen
diferentes procedimientos de selección; sin embargo no son las únicas que
se utilizan en la investigación porque también existen muestras no proba-
bilísticas. Las muestras no probabilísticas o intencionales se justifican parti-
cularmente en etapas exploratorias de la investigación o para finar instrumen-
tos de redacción de datos o para estudios en profundidad.

    Este es un caso: la muestra no probabilística se elabora siempre sin tener
en cuenta los procedimientos estadísticos de muestreo, es aquella donde no
se conoce el universo y es muy difícil, por lo tanto, determinar una muestra, y
donde los elementos de la muestra tienen no todas las mismas posibilidades
de ser escogidas para el estudio. Vamos a poner un ejemplo muy claro que es
la forma de explicarlo. En investigación tenemos una forma de conseguir in-
formación llamada bola de nieve. La podemos aplicar a una investigación en
pintura. Por ejemplo: queremos investigar a los pintores en Colombia, única-
mente conocemos un pintor y no conocemos a los demás, por lo tanto no
conocemos ni el universo ni la muestra. Vamos donde este pintor que cono-
cemos y hacemos la entrevista, al final de la entrevista le preguntamos por
dos pintores similares a él en el grupo que nos interesa. Para hacerle la entre-
vista vamos donde esta gente, los entrevistamos y al final les preguntamos
también si conocen otros dos pintores, cada uno de ellos. En esta forma va-
160                                                    SERIE: APRENDER A INVESTIGAR


mos ampliando el grupo de gente que estamos necesitando y la bola de nieve
va creciendo. Ya no tenemos solamente uno, tenemos seis y eso se va am-
pliando. Cada persona nos va dando dos nombres más y en esta forma va-
mos creando un universo de donde podemos sacar una muestra que la va-
mos creando. Inicialmente en este caso sería la muestra primero y el universo
después, pero únicamente debe ser utilizada la muestra no probabilística en
aquellos casos en que no exista conocimiento sobre el universo y por lo tanto
la dificultad para conseguir una muestra sea muy grande.

    En resumen el investigador define con la mayor claridad posible el univer-
so de su estudio, que las amas de casa, que los miembros de partidos políti-
cos, que los de un servicio público, etc., ahora el investigador obtiene mues-
tras unas veces aleatorias y otras intencionales de la población o universo
que desea estudiar, pero ojo, que sean muestras representativas.

    El investigador hace sus observaciones y mediciones sobre la muestra,
de esa manera obtiene estadísticas o sea valores como frecuencias, prome-
dios y otros que le sirven para conocer el comportamiento de la muestra de
las variables que está investigando. Finalmente y mediante procesos estadís-
ticos el investigador puede, con margen de errores calculables, generalizar a
la población o universo las observaciones hechas a la muestra; de modo ge-
neral eso es así; pero hay unos pasos de análisis de datos y comprobación de
hipótesis muy rigurosos. Medir algo en la muestra y generalizar a la población
es lo que se conoce como inferencia, es decir, que una estadística nos permi-
te hallar un parámetro.

    Para definir el tamaño de la muestra hay que considerar algunos aspec-
tos, unos de orden práctico y otros de orden teórico. En el orden práctico y
para definir su muestra busca orientaciones en otros estudios similares e
igualmente examina los recursos económicos con que cuenta, el tiempo de
que dispone. Desde el punto de vista teórico, el investigador determina su
muestra principalmente de acuerdo con los objetivos de su estudio e igual-
mente se sirve de las fórmulas que las estadísticas proporcionan para calcu-
lar tamaño de muestra. ¿Cómo influyen estos factores prácticos y teóricos
para que un investigador determine el tamaño de su muestra?

   Un factor importante es la naturaleza del estudio o sea qué tipo de investi-
gación se está realizando, de qué tipo de investigación se trata. Pongamos
algunos ejemplos:

    En primer lugar es muy importante la naturaleza del estudio, es decir, qué
tipo de investigación se está realizando, en qué tipo de disciplina y cuales son
los objetivos precisos de la investigación para el momento en que el investiga-
dor selecciona o determina la muestra. En segundo lugar hay dos factores
también muy importantes, el factor económico y el factor tiempo que ya el
INSTRUCTIVO PARA EL USO DEL VIDEO
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                          161


investigador debe haber tenido en cuenta desde el momento en que inició su
investigación. La complejidad de una muestra por ejemplo hace que aumente
el precio de una investigación o los costos de una investigación. Por otra par-
te, también se puede racionalizar adecuadamente el tiempo si se han hecho
estudios previos sobre lo que es la muestra. También debe tenerse en cuenta
el tipo de procesamiento de la información que se va a hacer, y por otra parte
la forma como se va a hacer la recolección de información. Una tercera ca-
racterística importante es la tradición que otros investigadores han construido
con relación al tipo de muestra que han utilizado, para investigaciones o estu-
dios similares, finalmente la estadística y la teoría del muestreo han propor-
cionado herramientas muy valiosas a los investigadores de diferentes discipli-
nas para la adecuada toma de decisiones, en el momento de determinación
de la muestra.

    La precisión de los resultados no sólo depende del tamaño de las mues-
tras, si hay errores de recolección, una muestra grande podría ser mala, mien-
tas que una muestra pequeña con cuidadosa recolección y selección podría
ser excelente.

   Una muestra grande no es suficiente para garantizar la precisión de los
resultados.

    Para determinar una muestra no basta con saber fórmulas matemáticas
que nos permitan encontrar su tamaño, depende en primer lugar de la preci-
sión con que esté definido el universo de la investigación, de la claridad que el
investigador tenga sobre los objetivos y de su estudio, la recolección y proce-
samiento cuidados de los datos. De esta forma la claridad conceptual y rigor
metodológico son la garantía necesaria para que finalmente las técnicas esta-
dísticas permitan inferir resultados a partir de una muestra.
162                                                     SERIE: APRENDER A INVESTIGAR




                                 Autoevaluación


      Apoyándose en el contenido del Módulo 4, y en el video que acaba de ver
      conteste o complete si es del caso las siguientes preguntas:

      1. ¿Qué es una muestra?

      2. ¿En qué se diferencian las generalizaciones que hace la ciencia
         con respecto a las generalizaciones que no son científicamente
         ciertas?

      3. ¿Cómo se llaman los valores que el investigador mide en la mues-
         tra?

      4. ¿Con qué nombre se conocen los valores que corresponden a la
         población o universo?

      5. ¿De qué depende la representatividad de la muestra?

      6. ¿Qué es diseñar una muestra?

      7. ¿Qué tipos de muestras se utilizan en la investigación?

      8. ¿Cuándo se utilizan las muestras no probabilísticas o intencionales?

      9   ¿Qué es la muestra no probabilística?

      10. El investigador hace sus observaciones y mediciones sobre...

      11. ¿Qué obtiene el investigador a través de la muestra?

      12. ¿,Qué es inferencia?

      13. ¿Cómo se define el tamaño de la muestra?

      14. Para determinar una muestra ¿qué debe tener en cuenta un inves-
          tigador?

      15. ¿Qué constituye la garantía necesaria para que finalmente las téc-
          nicas estadísticas permitan resultados a partir de una muestra?
1. Son las generalizaciones hechas a partir de la observación de ape-
         nas unos casos.

      2. En que la ciencia sigue rigurosos métodos para garantizar la vali-
         dez de sus generalizaciones.

      3. Estadísticos.

      4. Parámetros.

      5. De la identificación del universo de donde se va a sacar la muestra.

      6. Es buscar que cada componente de un universo tenga la posibili-
         dad de estar incluido en la muestra y que se pueda calcular la posi-
         bilidad que cada elemento tenga de estar en la muestra.

      7. <->Muestras aleatorias o probabilísticas

          <->Muestras no probabilísticas o intencionales

      8. Se justifican particularmente en etapas exploratorias de la investi-
         gación o para afinar instrumentos de redacción de datos o para es-
         tudios en profundidad.

      9. Es aquella donde no se conoce el universo y es muy difícil por lo
         tanto determina una muestra y donde los elementos de la muestra
         no tienen todos la misma posibilidad de ser escogidos para el es-
         tudio.

      10. La muestra

      11. Obtiene estadística, o sea valores como frecuencias, promedios y
          otros que le sirven para conocer el comportamiento de la muestra
          de las variables que está investigando.

      12. Es medir algo en la muestra y generalizar a la población.

      13. Se debe buscar orientación en otros estudios similares, examinar
          los recursos económicos con que se cuenta, el tiempo de que se
          dispone, lo anterior desde el punto de vista práctico; y desde el pun-
          to de vista teórico el investigador determina su muestra principal-
          mente de acuerdo a los objetivos de su estudio e igualmente se
          sirve de las fórmulas que la estadística proporciona para calcular
          tamaños de muestra.

                         Respuestas a la Autoevaluación


163                                                MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN
                                                   INSTRUCTIVO PARA EL USO DEL VIDEO
puestas con el guión de contenido.
   Después de haber contestado las preguntas puedes comparar sus res-




   14. – La precisión con que esté definido el universo de la investigación.

        – La claridad que el investigador tenga sobre los objetivos y varia-
          bles de su estudio.

        – La recolección y procesamiento cuidadoso de los datos.

   15. La claridad conceptual y rigor metodológico.


SERIE: APRENDER A INVESTIGAR                                                   164
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN                                              165




                                                              Bibliografía
BERENSON, Mark. Estadística básica en administración. Conceptos y aplicaciones .
  1992.

BRIONES, G. Métodos y técnicas de investigación para las ciencias sociales. México,
   Trillas, 1982.

CARVAJAL, Lizardo. Metodología de la investigación. Séptima edición. Cali, FAID, 1991.

CEBALLOS ROJAS, Argemiro. Estadística descriptiva y probabilidad básica. 1994.

GODINO, J. y otros. Azar y probabilidad. Fundamentos didácticos y propuestas
  curriculares. Síntesis, 1991.

GONZÁLEZ REYNA, Susana. Manual de redacción e investigación documental. Se-
  gunda edición, México, Trillas, 1994.

HARNETT y MURPHY. Introducción al análisis estadístico. Addison-Wesley Iberoame-
  ricana, 1993.

HOPKINS, Kenneth. Estadística básica para las ciencias sociales y el comportamien-
  to. 1997.

KREYSZIG, Erwin. Estadística matemática. Limusa. 1983.

MASON, Robert; LIND Douglas. Estadística para administración y economía. 8a edi-
  ción. Santa Fe de Bogotá, Alfaomega Grupo Editor S.A. de C.V., 1998.

MENDENHALL, William. Introducción a la probabilidad y a la estadística. Grupo Edito-
  rial Iberoamericana, 1991.

MENDENHALL, William; WACKERLY, Dennis; SCHEAFFER, Richard. Estadística
  matemática con aplicaciones. México, Grupo Editorial Iberoamericana, 1994.

MENDENHALL, SCHEAFFER y WACKERLY. Estadística matemática con aplicacio-
  nes. Grupo Editorial Iberoamericana, 1986.
166                                                     SERIE: APRENDER A INVESTIGAR


MONTGOMERY, Douglas C. Diseño y análisis de instrumentos. Grupos Editorial Ibero-
  americana, 1991.

MONTGOMERY, Douglas C. Control estadístico de la calidad. Grupo Editorial Ibero-
  americana, 1991.

PARZEN, ENMANUEL. Teoría moderna de probabilidades y sus aplicaciones. México,
   Limusa, 1991.

PEÑA SÁNCHEZ DE RIVERA, Daniel. Estadística, modelos y métodos. Tomo I y Tomo
   II. Alianza Editores, 1990.

SCHEAFFER, MENDENHALL, OTT. Elementos de muestreo. Grupo Editorial Ibero-
  americana, 1987.

SCHEAFFER y McCLAVE. Probabilidad y estadística para ingeniería, Grupo Editorial
  Iberoamericana, 1993.

SUÁREZ DE LA CRUZ, Alberto Camilo. Metodología para el estudio y la investigación.
  Cuarta edición, Bogotá, Ediciones Ciencias y Derecha, 1991.

Más contenido relacionado

PDF
5. el-proyecto-de-investigación-aprender-a-investigar-icfes
PDF
Modulo1
PDF
Modulo 3
PDF
Aprender a investigar_5
PDF
Tamayo y tamayo 1
PDF
Serie aprender a investigar 5
PDF
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
PDF
Serie aprender a_investigar,_módulo_2_la_investigación_mario_tamayo
5. el-proyecto-de-investigación-aprender-a-investigar-icfes
Modulo1
Modulo 3
Aprender a investigar_5
Tamayo y tamayo 1
Serie aprender a investigar 5
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
Serie aprender a_investigar,_módulo_2_la_investigación_mario_tamayo

Similar a Aprender a investigar_modulo4 (20)

PDF
Serie aprender a investigar 4
PDF
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
PDF
Aa i modulo 4
PDF
Aprender a investigar icfes módulo 3 recolección de la información
PDF
Modulo 3
PDF
Modulo 3
PDF
Modulo 3
PDF
Aprender a investigar_modulo3
PDF
M 3 Recolección de información
PDF
Aprender a investigar icfes módulo 5 el proyecto
PDF
Aprender a investigar_modulo5
PDF
M 5 El proyecto de investigación
PDF
Aprender a investigar_5
PDF
Modulo 5 tamayo y tamayo investigacion
PDF
Aprender a investigar icfes módulo 2 La Investigación
PDF
Aprender a investigar_modulo2
PDF
M 2 la investigación
PDF
Icfes 1999 la_investigacion
PDF
Estadistica en Fenomenos Naturales y procesos
PDF
Download estadistica
Serie aprender a investigar 4
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Aa i modulo 4
Aprender a investigar icfes módulo 3 recolección de la información
Modulo 3
Modulo 3
Modulo 3
Aprender a investigar_modulo3
M 3 Recolección de información
Aprender a investigar icfes módulo 5 el proyecto
Aprender a investigar_modulo5
M 5 El proyecto de investigación
Aprender a investigar_5
Modulo 5 tamayo y tamayo investigacion
Aprender a investigar icfes módulo 2 La Investigación
Aprender a investigar_modulo2
M 2 la investigación
Icfes 1999 la_investigacion
Estadistica en Fenomenos Naturales y procesos
Download estadistica
Publicidad

Más de Miguel Rebilla (20)

PDF
Clase 10.neurologicas
PDF
Clase 9 cre y des
PDF
Plantilla de respuesta acumulativa 2 signed
PDF
PDF
Cuba salud sociedad medica
PDF
Reajuste de programa fisiopato nutricion
PDF
Grupos de practica clinica, definitivo
PDF
Grupos de practica clinica
PDF
Programa de contenidos practica clinica de fisiopatologia
PDF
Grupos de practica clinica
PDF
Programa fisiopatologia aplicada nutricion
PDF
PDF
Clase 6-signed
PDF
Seminario 1
PDF
Taller.1
PDF
PDF
Clase – 5
PDF
Clase – 4
PDF
PDF
Clase 10.neurologicas
Clase 9 cre y des
Plantilla de respuesta acumulativa 2 signed
Cuba salud sociedad medica
Reajuste de programa fisiopato nutricion
Grupos de practica clinica, definitivo
Grupos de practica clinica
Programa de contenidos practica clinica de fisiopatologia
Grupos de practica clinica
Programa fisiopatologia aplicada nutricion
Clase 6-signed
Seminario 1
Taller.1
Clase – 5
Clase – 4
Publicidad

Último (20)

PPTX
TEMA 1ORGANIZACIÓN FUNCIONAL DEL CUERPO, MEDIO INTERNO Y HOMEOSTASIS (3) [Aut...
PDF
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
PDF
2.0 Introduccion a processing, y como obtenerlo
PDF
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
PDF
5°-UNIDAD 5 - 2025.pdf aprendizaje 5tooo
PDF
Aumente su Autoestima - Lair Ribeiro Ccesa007.pdf
PDF
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
PDF
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
PDF
Cronograma de clases de Práctica Profesional 2 2025 UDE.pdf
PDF
informe tipos de Informatica perfiles profesionales _pdf
PDF
Nadie puede salvarte excepto Tú - Madame Rouge Ccesa007.pdf
PDF
Integrando la Inteligencia Artificial Generativa (IAG) en el Aula
PPTX
Presentación de la Cetoacidosis diabetica.pptx
PDF
Esc. Sab. Lección 7. El pan y el agua de vida.pdf
PDF
IPERC...................................
DOC
Manual de Convivencia 2025 actualizado a las normas vigentes
PPTX
T2 Desarrollo del SNC, envejecimiento y anatomia.pptx
DOCX
PLAN DE AREA DE CIENCIAS SOCIALES TODOS LOS GRUPOS
PDF
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
PDF
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...
TEMA 1ORGANIZACIÓN FUNCIONAL DEL CUERPO, MEDIO INTERNO Y HOMEOSTASIS (3) [Aut...
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
2.0 Introduccion a processing, y como obtenerlo
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
5°-UNIDAD 5 - 2025.pdf aprendizaje 5tooo
Aumente su Autoestima - Lair Ribeiro Ccesa007.pdf
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
Cronograma de clases de Práctica Profesional 2 2025 UDE.pdf
informe tipos de Informatica perfiles profesionales _pdf
Nadie puede salvarte excepto Tú - Madame Rouge Ccesa007.pdf
Integrando la Inteligencia Artificial Generativa (IAG) en el Aula
Presentación de la Cetoacidosis diabetica.pptx
Esc. Sab. Lección 7. El pan y el agua de vida.pdf
IPERC...................................
Manual de Convivencia 2025 actualizado a las normas vigentes
T2 Desarrollo del SNC, envejecimiento y anatomia.pptx
PLAN DE AREA DE CIENCIAS SOCIALES TODOS LOS GRUPOS
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...

Aprender a investigar_modulo4

  • 1. YOLANDA GALLARDO DE PARADA ADONAY MORENO GARZÓN Serie APRENDER A INVESTIGAR Módulo 4 ANÁLISIS DE LA INFORMACIÓN
  • 2. INSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIÓN SUPERIOR, ICFES Subdirección General Técnica y de Fomento PATRICIA MARTÍNEZ BARRIOS Directora General PATRICIA ASMAR AMADOR Subdirectora General Técnica y de Fomento MÓNICA IBARRA ROSERO Jefe División de Fomento (A) MARÍA JESÚS RESTREPO ALZATE Coordinadora del Proyecto Serie: APRENDER A INVESTIGAR ISBN: 958-9279-11-2 Obra completa ISBN: 958-9279-15-5 Módulo 4 1ª Edición: 1987 1ª Reimpresión: 1988 2ª Reimpresión: 1991 2ª Edición: 1995 Reimpresión: 1998 3ª Edición: (corregida y aumentada) 1999 © ICFES Calle 17 Nº 3-40 A.A. 6319 Teléfono: 2819311 - 2834027 - 2834067 - 2435129 Fax: 2845309 - 2834047 - 2845980 Santa Fe de Bogotá Diseño de carátula, diagramación e impresión: ARFO EDITORES LTDA. Carrera 15 Nº 53-86 Tels.: 2355968 - 2175794 Santa Fe de Bogotá, D.C.
  • 3. INSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIÓN SUPERIOR Serie: APRENDER A INVESTIGAR Módulos: 1. CIENCIA, TECNOLOGÍA, SOCIEDAD Y DESARROLLO 2. LA INVESTIGACIÓN 3. RECOLECCIÓN DE LA INFORMACIÓN 4. ANÁLISIS DE LA INFORMACIÓN 5. EL PROYECTO DE INVESTIGACIÓN La serie APRENDER A INVESTIGAR ha sido realizada por el ICFES. Para las ediciones anteriores se contó con el siguiente grupo de autores: CARLOS ESCALANTE A. HUMBERTO RODRÍGUEZ M. Profesor Universidad Nacional de Colombia Profesor Universidad Nacional de Colombia ALBERTO MAYOR M. EDUARDO VÉLEZ B. Profesor Universidad Nacional de Colombia Investigador Instituto SER de Investigaciones ÁNGEL FACUNDO D. Exjefe División de Fomento Investigativo ICFES El proyecto de actualización y revisión de la presente edición de la serie APRENDER A IN- VESTIGAR fue realizado por el ICFES, para lo cual se conformó el siguiente grupo de autores: Módulo 1: LUIS JAVIER JARAMILLO Módulos 3 y 4: ADONAY MORENO Universidad San Buenaventura - Cali YOLANDA GALLARDO DE PARADA Universidad de Pamplona (N.S.) Módulos 2 y 5: MARIO TAMAYO Y TAMAYO Universidad ICESI - Cali Instructivos para videos: LUZ ESTELLA URIBE VÉLEZ EAFIT - Medellín
  • 4. 4 SERIE: APRENDER A INVESTIGAR
  • 5. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 5 Contenido SERIE APRENDER A INVESTIGAR Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Propósito, población y objetivos de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Estructura de aprendizaje de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 La organización de la serie: los módulos, y material audiovisual . . . . . . . . . . . . . . . 17 Descripción sintética de los módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 La asesoría de tutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Módulo 4: ANÁLISIS DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1. NATURALEZA DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2. DIVISIÓN DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1 Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1.1 Descripción de datos, técnicas de representación gráfica . . . . . . . . . . 29 2.1.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.3 Elaboración de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.4 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1.4.1 Histogramas y polígonos de frecuencias . . . . . . . . . . . . . . . . 34 2.1.4.2 Gráficas de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1.4.3 Gráficas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.1.4.4 Gráficas circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS . . . . . . . . . . . . . . . . . . . . . 41 3.1 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1.3 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.1 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.2 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.4 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3 Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5 Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
  • 6. 6 SERIE: APRENDER A INVESTIGAR 4. INTRODUCCIÓN A LAS PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1 Probabilidades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.3 Leyes de las probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4 Análisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.1 Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.2 Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.4.3 Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.6 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.7 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.8 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5. ESTADÍSTICA INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.1 La prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Pruebas de significancia de muestras únicas o simples . . . . . . . . . . . . . . . . . 86 5.2.1 Prueba Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.2 Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.3 Distribución Chi cuadrado: χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6. REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.1 Introducción a la bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.2 Ajuste de una recta de regresión rectilínea simple . . . . . . . . . . . . . . . . . . . . . 101 6.3 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.4 Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7. ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO . . . . . . . . . . . . . . 117 8.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 8.3 Requerimientos mínimos para la instalación del Software SAS . . . . . . . . . . . 120 8.4 Requerimientos mínimos para la instalación del Software SPSS . . . . . . . . . . 120 8.5 Manejador de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9. STATGRAPHICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.1 Grupo I: Data handling and system utilities . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.2 Grupo II: Plotting and descriptive statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.3 Grupo III: Anova and regression analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4 Grupo IV: Time series procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.5 Grupo V: Advanced procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.6 Grupo VI: Mathematical procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.7 Requerimientos físicos para la instalación de Statgraphics . . . . . . . . . . . . . . 127 ANEXO: Instructivo para el uso del video 1. Uso didáctico del video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 2. Videos: • La medición y las ciencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 • La curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 • La muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
  • 7. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 7 SERIE APRENDER A INVESTIGAR Presentación El Instituto Colombiano para el Fomento de la Educación ICFES, ha venido desa- rrollando proyectos que propenden por el mejoramiento de la calidad de la educación superior y la formación del talento humano que sea capaz de asumir el reto que nos impone la educación del siglo XXI. Dentro de este marco de referencia, la formación de directivos, docentes e inves- tigadores en el tema de la investigación ha sido prioritaria para el ICFES, razón por la cual ha continuado impulsando la divulgación de materiales de gran utilidad para incentivar la práctica investigativa en la educación superior. La SERIE APRENDER A INVESTIGAR es un material autoinstructivo que ofrece los conceptos, las herramientas y los métodos necesarios para la formulación, perfec- cionamiento y diseño de proyectos de investigación. A las puertas del nuevo milenio, estamos entregando a la comunidad académica una nueva edición actualizada y complementada de la SERIE APRENDER A IN- VESTIGAR, la cual contribuirá a generar la cultura investigativa, que constituye la base de la educación, la ciencia y la tecnología del país. PATRICIA MARTÍNEZ BARRIOS Directora General
  • 8. 8 SERIE: APRENDER A INVESTIGAR
  • 9. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 9 Introducción a la serie El presente programa autoinstruccional denominado APRENDER A INVESTI- GAR, contiene algunos de los principales elementos, teóricos y prácticos, sobre concep- tos, métodos y técnicas usualmente empleados en el trabajo de investigación científica. Aprender a Investigar es un proceso largo y complejo, que comprende diversas dimensiones y etapas formativas, algunas de las cuales comienzan, o deben comenzar a desarrollarse, desde los primeros años de vida. Para el grupo de autores del progra- ma, Aprender a Investigar no se reduce al estudio y dominio de la metodología gene- ral de la investigación científica. Aprender a Investigar implica, entre otras cosas, el desarrollo de diversas dimensiones, tales como: a) Un espíritu de permanente observación, curiosidad, indagación y crítica de la realidad, el cual nos permite preguntarnos si aquello que se conoce sobre algo es realmente un conocimiento o si acaso ofrece una mejor explicación del fenóme- no o del objeto de estudio. Este espíritu de observación, crítica y creatividad se desarrolla desde los primeros años de vida. b) Una sólida formación general y un creciente dominio de los conocimientos sobre un área específica de la realidad, pues éstos son la base y el punto de partida para poder aportar nuevos conocimientos. Como el cúmulo de información científica es hoy en día tan grande y se encuentra en constante aumento, se hace necesario concentrar la atención en tópicos específicos, pues cada vez es más difícil seguir de cerca y estar al día sobre diversas temáticas y métodos de conoci- miento. La formación general y la concentración del interés y aprendizaje perma- nentes en aspectos particulares de la realidad se ha venido efectuando a través de los diferentes niveles educativos hasta llegar a centrar el interés en un área espe- cífica del conocimiento. Esta segunda dimensión, unida al dominio de la metodolo-
  • 10. 10 SERIE: APRENDER A INVESTIGAR gía general de la investigación científica, es otro de los requisitos decisivos para aprender a investigar. c) La práctica investigativa misma por medio de la cual las teorías, principios, conceptos, métodos y técnicas dejan de ser simples enunciados para conver- tirse en algo concreto y vivencial, constituye la tercera condición indispensable. El adagio popular dice que a nadar se aprende nadando. De forma semejante, para aprender a investigar hay que lanzarse a la práctica investigativa. La teoría sin la práctica es vacía, pero la práctica sin la teoría es ciega. Los conocimientos sobre los contenidos y métodos que se han venido adquiriendo sobre las disciplinas de estudio, y aquellos que se puedan adquirir a través de esta serie sobre metodo- logía general de investigación científica, deben servir como guías iluminadoras de la acción. En la medida de lo posible, para aprender a investigar es necesario integrarse a un equipo de investigación, el cual pueda ser conducido y orientado por la experiencia teórico-práctica de investigadores profesionales que estén en la misma línea de interés investigativo. El estudio de la metodología general de la investigación científica, junto con ese espíritu indagador y creativo y los conocimientos de los contenidos y métodos de áreas específicas del saber que usted ha venido adquiriendo, así como el deseo de lanzarse pronto a la práctica investigativa, justifica el nombre que se ha dado a la serie: APREN- DER A INVESTIGAR. De otra parte, es importante advertir sobre las ventajas y limitaciones de un pro- grama como éste. En primer lugar, al haber sido escrito dentro de la metodología de la autoinstrucción, si bien cuenta con la ventaja de permitir estudiar por cuenta pro- pia, de acuerdo con el tiempo disponible y el ritmo personal de aprendizaje, tiene la limitante de tener que suponer que quien sigue el programa posee los aprendizajes previos requeridos para asimilar los contenidos y el nivel académico adecuado; se cuenta por tanto, básicamente, con la seriedad del estudiante y con el cumplimiento estricto de las diferentes instrucciones del programa. Es segundo término, debe tenerse en cuenta que la función de un programa como éste es proporcionar los principales conceptos, métodos y técnicas de un proceso de investigación, los cuales son tratados de forma sencilla y resumida. Se presentan en forma sucinta las diferentes discusiones que sobre cada aspecto se han dado en la comunidad científica. Si se desea un conocimiento más profundo, debe necesariamen- te recurrirse a aquellos textos que analicen cada tópico en toda su complejidad, al investigador, profesor, instructor o tutor.
  • 11. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 11 Propósito, población y objetivos de la serie El propósito del programa, serie APRENDER A INVESTIGAR, es familiarizar al estudiante con los elementos conceptuales y algunas técnicas básicas que le permitan, en su área de estudio, comenzar a resolver problemas de conocimiento, aplicando la lógica del proceso investigativo utilizando determinados instrumentos básicos. No se trata de proporcionar una información para memorizar sino que ésta debe servir para orientar la práctica investigativa del estudiante, dentro de la disciplina científica en la cual se prepara como profesional e investigador. En este sentido, la serie APRENDER A INVESTIGAR ha sido diseñada para una población de estudiantes de educación superior que se ha iniciado en el conoci- miento de los contenidos y métodos básicos de una disciplina científica determinada y que, por tanto, comienza a plantearse y a enfrentar algunos problemas de investi- gación. En la situación corriente de nuestras instituciones de educación superior, la pobla- ción objetivo de esta serie son estudiantes que están cursando aproximadamente el quinto semestre de carrera, y que van a tener su primera aproximación a la metodolo- gía general de investigación científica. El objetivo terminal de toda la serie o del curso completo consiste en lo siguiente: Al finalizar el proceso instructivo, el estudiante deberá estar en condición de dise- ñar y emprender un proyecto de investigación dentro de su disciplina académica, apli- cando tanto los contenidos adquiridos con las asignaturas propias de su carrera, como los elementos conceptuales y técnicos adquiridos con el estudio de esta serie. Esto lo
  • 12. 12 SERIE: APRENDER A INVESTIGAR capacitará para enfrentar y tratar de resolver problemas de su área de estudio siguien- do la metodología de la investigación científica. Para cumplir estos propósitos y estos objetivos, se supone que los usuarios de este curso (estudiantes que están en la mitad de una carrera de educación superior), han desarrollado los siguientes aprendizajes: – Comprensión clara de textos escritos. – Deducción lógica, abstracción y aplicación de principios. – Conocimientos básicos de historia. – Manejo general de los temas y métodos básicos de su disciplina de estudio. – Manejo de las operaciones matemáticas. – Solución de ecuaciones de primer grado. – Definición de funciones matemáticas. – Entendimiento de los conceptos lógicos de probabilidad. Hacemos explícitas estas conductas mínimas de entrada, con la finalidad de garantizar, por una parte, la adecuada ubicación del curso dentro de los programas académicos, o en el caso eventual de que éste se siga por fuera del ámbito de un programa académico formal, con la finalidad de garantizar la necesaria nivelación previa de los conocimientos básicos.
  • 13. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 13 Estructura de aprendizaje de la serie La serie APRENDER A INVESTIGAR consta de los siguientes elementos: * Cinco módulos escritos y guías de utilización de videocasetes. * Cinco videocasetes que contienen trece programas de video para BETA o VHS. * Guía de utilización de videocasetes. Los módulos son el material fundamental de trabajo. Sin embargo, en aquellos temas en los cuales el medio audiovisual permite una mayor riqueza y facilidad de expresión, se prefirió su uso al del material escrito. En otros aspectos que presentan alguna dificultad de comprensión, el material audiovisual cumple la función de comple- mento o refuerzo del material escrito. En ningún caso el material audiovisual es repe- titivo dcl material escrito. Toda la serie ha sido diseñada como material autoinstructivo. Por tal razón, sin sacrificar la necesaria precisión de los conceptos, se ha utilizado el lenguaje coloquial y sencillo. Según el propósito y el objeto antes expresados, se ha buscado hacer un primer acercamiento del estudiante a los conceptos, métodos y técnicas básicas de investigación, buscando ante todo despertar su interés por ellas. En los casos en los cuales el estudiante desee profundizar, deberá recurrir a la bibliografía básica que se le indica al final de cada unidad, así como una consulta con tutores, profesores o con expertos investigadores en la materia. El conocimiento adquirido a través del curso debe servirle de guía para continuar profundizando en la materia. Los módulos de que consta la serie son:
  • 14. 14 SERIE: APRENDER A INVESTIGAR Serie Aprender a Investigar Organización de los módulos Material escrito Videocasetes Módulo 1 CIENCIA, TECNOLOGÍA Y DESARROLLO *Ciencia y tecnología: *Naturaleza de la actividad científica desarrollo del hombre 15 *Naturaleza de la tecnología *Investigación y desarrollo experimental *El impacto socio-económico de la ciencia y la tecnología *La ciencia y la tecnología en la nueva revolución industrial Módulo 2 LA INVESTIGACIÓN *Tipos de investigación *El conocimiento científico científica 15’ *Tipos de investigación *El experimento 15’ *Modelos y diseños de investigación *La interdisciplinariedad Módulo 3 RECOLECCIÓN DE LA INFORMACIÓN *Información primaria *Conceptos básicos de medición y secundaria 15’ *Información primaria y secundaria *La observación 15’ *Unidades variables y valores *La encuesta 15’ *Técnicas para el registro *La entrevista 15’ de información secundaria *Técnicas para la recolección de información primaria *La encuesta Módulo 4 ANÁLISIS DE LA INFORMACIÓn *La medición *Descripción de datos - Técnicas y las ciencias 15’ de representación gráfica *La curva normal 15’ *Distribución de datos - Técnicas *La muestra 15’ numéricas *Introducción a las probabilidades *La prueba de hipótesis *Regresión y varianza *Análisis y muestra *Universo y muestra *Estudio de factibilidad de software estadístico Módulo 5 EL PROYECTO DE INVESTIGACIÓN *Cómo utilizar las fuentes *Elementos del proceso investigativo de información 15’ *Administración del proyecto *De dónde surgen los *Evaluación del proyecto problemas de investigación 15’ *El informe investigativo *Vamos a elaborar un proyecto Nota: En los módulos escritos se incluye una guía didáctica para utilización de los videocasetes.
  • 15. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 15 Se trata de que cada módulo (tanto en el material escrito como en el material audiovisual) sea autosuficiente, es decir, que en forma independiente comunique una información completa sobre un determinado tema. Sin embargo, no debe perderse de vista que cada uno de ellos es parte integrante del programa total. Entre uno y otro módulo existen relaciones determinadas de orden y niveles, que conforman la ES- TRUCTURA DE APRENDIZAJE con la cual se diseñó la serie. Es importante conocer esta estructura de aprendizaje, pues ella es una gran ayuda, tanto para el estudio como para la evaluación de los objetivos de aprendizaje propuestos.
  • 16. 16 SERIE: APRENDER A INVESTIGAR
  • 17. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 17 La organización de la serie: los módulos y material audiovisual Un módulo consta de unidades de aprendizaje, que son consideradas como eta- pas que hay que recorrer, siguiendo una ruta estratégicamente diseñada, para lograr un objetivo propuesto. Dentro de cada módulo y antes de empezar cada Unidad se explicitan cuáles son los objetivos específicos de aprendizaje que se persiguen. En la técnica de estudio independiente o de autoinstrucción, usted debe ser muy consciente, antes de entrar a trabajar, de qué es lo que va a hacer. Esto le ayudará en el aprendizaje. Una vez usted haya estudiado un contenido de acuerdo con su ritmo propio de trabajo, al final de cada unidad encontrará unas preguntas sobre los conteni- dos que trata el módulo que le permitirán autoevaluarse, conocer si usted domina esos contenidos y, por tanto, decidir en forma personal y responsable si puede continuar avanzando. Recuerde y tenga siempre en cuenta que no todas las partes del proceso investigativo presentadas en el modelo aparecen desarrolladas en el texto escrito, algunas han sido desarrolladas en los videocasetes, por lo cual, cuando así se le indique, usted deberá recurrir al beta o VHS y seguir la guía de utilización de videos. La serie está diseñada de tal forma que es básicamente usted quien juega el rol principal, quien estudia y quien debe decidir si ha alcanzado los objetivos previstos. Se han hecho grandes esfuerzos para organizar los diferentes materiales en función de un aprendizaje a partir de un estudio independiente.
  • 18. 18 SERIE: APRENDER A INVESTIGAR
  • 19. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 19 Descripción sintética de los módulos El módulo 1 Hemos denominado al módulo 1: Ciencia, tecnología, sociedad y desarrollo – El propósito de este módulo es proporcionar al estudiante que se inicia en el estudio de la metodología general de investigación, una rápida visión de cómo la ciencia, la tecnología y la investigación son actividades de carácter histórico, es decir, que han evolucionado con el desarrollo del hombre y de la sociedad. – Mostrar cómo han adquirido en la actualidad una importancia estratégica. – Introducir en los conceptos de ciencia, tecnología e investigación. Este módulo se complementa con el videocasete: “Ciencia y tecnología: desarrollo del hombre”, 15’. El módulo 2 Hemos denominado el módulo 2: La investigación – El propósito de este módulo es presentar el conocimiento y el método científico como punto de partida para enfrentar la realidad y plantear procesos investigativos. – Mostrar los diferentes tipos de investigación y dar elementos de juicio para la utilización de medios y determinación del tipo de diseño a seguir.
  • 20. 20 SERIE: APRENDER A INVESTIGAR – Presentar la interdisciplinariedad como una metodología de investigación cientí- fica. Este módulo se complementa con dos videocasettes: 1. Tipos de investigación científica, 15’ y 2. El experimento, 15’. El módulo 3 Hemos denominado al módulo 3: Recolección de la información – El propósito de este módulo es identificar las técnicas básicas para recolectar la información que se requiere para el trabajo de investigación. – Distinguir las reglas de diseño a que están sometidas. – Plantear elementos básicos para que, en dependencia con el tipo de investigación, el programa que se enfrenta y la estrategia concebida para resolverla, es decir, con la hipótesis conductora del trabajo, se pueda emplear las técnicas que más se ajusten a esos requerimientos. Este módulo se complementa con cuatro videocasettes: 1-. Información primaria y secundaria, 15’. 2-. La observación, 15’. 3-. La encuesta, 15’. 4- La entrevista, 15’. El módulo 4 Hemos denominado al módulo 4: Análisis de la información – El propósito de este módulo es plantear las técnicas más comunes para el análisis de datos, y el saber cuándo, cómo y por qué utilizarlas. Se plantea además el análisis conceptual y la descripción de paquetes estadísticos para uso del computador. Este módulo se complementa con tres videocasettes: 1-. La medición y las cien- cias, l 5’. 2-. La curva normal, I 5’. 3-. La muestra, 15’. El módulo 5 Hemos denominado el módulo 5: El proyecto de investigación
  • 21. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 21 – El propósito de este módulo es lograr que el estudiante retome e integre los con- ceptos y los procesos de la metodología de investigación científica y pueda formu- lar un proyecto de investigación en su respectiva área de estudio. – Presentar elementos básicos para el desarrollo del proyecto de investigación rela- cionados con el proceso de investigación: la administración del proyecto; la evalua- ción del proyecto y el informe investigativo. Este módulo se complementa con tres videocasettes. 1-. Cómo utilizar las fuentes de información, 15’. 2-. De dónde surgen los problemas de investigación, 15’. 3-. Vamos a elaborar un proyecto, 15’. Consideramos que este módulo es de vital importancia y tanto los videos como los otros módulos convergen a éste. Es decir que el módulo 5 es el centro de la serie APRENDER A INVESTIGAR. Como objetivos específicos del módulo, tenemos: – Indicar al estudiante los factores a tener en cuenta en la elección de un tema para investigar. – Proporcionar al estudiante las herramientas básicas que le permitan identificar, analizar y formular problemas de investigación dentro de su área de estudio. – Capacitar al estudiante para que pueda formular hipótesis para la solución de los problemas y señalarle algunos de los pasos que generalmente se siguen para poner a prueba las hipótesis de investigación. – Señalar las diferencias que existen entre las actividades cientifico-técnicas, con la finalidad de que pueda comprender la peculiaridad de una de ellas: la investigación. – Hacer conocer que la forma moderna de investigar es a través de la planeación, ejecución y determinación de aspectos administrativos del proyecto. – Proporcionar al estudiante y a los profesores parámetros de evaluación para pro- yectos de investigación. – Lograr que el estudiante entienda la necesidad e importancia de elaborar informes parciales y finales, que estén en capacidad de elaborarlos aplicando las técnicas básicas correspondientes.
  • 22. 22 SERIE: APRENDER A INVESTIGAR
  • 23. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 23 La asesoría de tutores Aunque los módulos han sido diseñados para que puedan utilizarse en estudio inde- pendiente o en forma auto-instructiva, es conveniente valerse de la asesoría de tuto- res, profesores o expertos investigadores. El trabajo tutorial es conveniente para: – Aclarar, ampliar y profundizar conceptos. – Orientar los ejemplos, ejercicios y prácticas hacia los temas y problemas propios de la disciplina que estudie cada participante. – Resolver inquietudes y dudas. – Coordinar el contacto y trabajo con otros estudiantes. – Estimulación del debate en grupos. – Estimular el aprendizaje en la práctica. – Auto-regular el proceso de aprendizaje. Según lo previsto en el diseño y organización de la serie, la asesoría de tutores, profesores o expertos investigadores no solo es conveniente sino necesaria en las siguientes actividades: – La realización de experimentos y trabajo en laboratorios. – El diseño y la ejecución del proyecto de investigación. Sin embargo, es importante enfatizar que el participante es el directo responsable de su aprendizaje. Tanto los materiales escritos y los audiovisuales que conforman los diferentes módulos del programa, así como los tutores, profesores o investigadores- asesores son solamente medios que le apoyen en su decisión de aprender.
  • 24. 24 SERIE: APRENDER A INVESTIGAR
  • 25. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 25 Módulo 4 Análisis de la información El análisis de la información en el proceso investigativo, depende del enfoque y del tipo de investigación que se haya seleccionado, como tam- bién de los objetivos que se hayan planteado. La estadística se constituye en una herramienta fundamental para el análisis de la información. Sin embargo es necesario precisar y seleccio- nar el tratamiento estadístico dependiendo del enfoque cuantitativo o cua- litativo, de la escala de medición de las variables, de las hipótesis y de los objetivos. La estadística es fundamental para resolver problemas de descripción de datos, análisis de muestras, contrastación de hipótesis, medición de relaciones y predicciones. 1. NATURALEZA DE LA ESTADÍSTICA La estadística es una rama de la ciencia, encargada del diseño y apli- cación de métodos para recolectar, organizar, analizar y hacer deduccio- nes a partir de ellos. Aunque los orígenes de la estadística se remontan a los estudios de los juegos de azar del siglo XVIII, sólo en los últimos 60 años se han desa-
  • 26. 26 SERIE: APRENDER A INVESTIGAR rrollado las aplicaciones de los métodos estadísticos en casi todos los campos de la ciencia (social, comportamental y física). La mayor parte de las primeras aplicaciones de la estadística consistieron principalmente en la presentación de datos en forma de tablas y gráficas. Este campo se desarrolló con rapidez llegando a incluir gran variedad de métodos para ordenar, resumir y expresar en alguna forma las características de un con- junto de números. Hoy estas técnicas cubren lo que es sin duda la más visible aplicación de la estadística: la masa de información cuantitativa que se recopila y se publica todos los días en nuestra sociedad. Las tasas de natalidad, de mortalidad, los índices de precios, los promedios de go- les obtenidos en las fechas semanales de fútbol, son algunas de las mu- chas «estadísticas» que nos resultan familiares. Además de expresar las características de la información cuantifica- ba, estas medidas proporcionan una base importante para el análisis en casi todas las disciplinas académicas, especialmente en las ciencias so- ciales y del comportamiento, donde la conducta humana no puede gene- ralmente ser descrita con la precisión que se consigue en las ciencias exactas. Las medidas estadísticas de satisfacción, inteligencia, aptitud para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro conocimiento de las motivaciones y del rendimiento humano, son ejem- plos de lo dicho. Del mismo modo, los índices de precios, productividad, producto nacional bruto, empleo, reservas disponibles y exportaciones son elementos útiles tanto para el gerente como para el gobernante cuando se trata de trazar una política encaminada a lograr el desarrollo y la estabili- dad económica a largo plazo. La estadística proporciona una metodología para evaluar y juzgar las discrepancias entre la realidad y la teoría. Además de su papel instrumen- tal, el estudio de la estadística es importante para entender las posibilida- des y limitaciones de la investigación experimental, para diferenciar las conclusiones que pueden obtenerse de los datos de aquellas que carecen de base empírica y en definitiva para desarrollar un pensamiento crítico y antidogmático ante la realidad. En la actualidad con la ayuda de la informática y la tecnología el trata- miento estadístico de la información se hace más sencillo. Para el análisis de datos cuantitativos, tenemos en la actualidad progra- mas como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA- PHIS. Para el análisis de datos cualitativos existen programas como el QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.
  • 27. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 27 2. DIVISIÓN DE LA ESTADÍSTICA La estadística se divide en dos grandes ramas, dependiendo del méto- do empleado para manejar la información y hacer que tenga sentido: esta- dística descriptiva y estadística inferencial. Población Muestra Estadística inferencial Estadística K descriptiva K Gráfica 1. 2.1 Estadística descriptiva. Permite describir resumir y analizar la información obtenida de la muestra. Para tal fin se recolecta la información, se tabula, se grafica y en mu- chos casos en vez de trabajar con todas las observaciones, es preferible tener unas medidas que resuman los datos. Básicamente hay tres tipos de medidas de resumen: medidas de ten- dencia central, medidas de dispersión o variabilidad de los datos y medi- das de ubicación. La gráfica 1 se interpreta así: con los datos de la muestra se aplica la estadística descriptiva; con los resultados de la estadística descriptiva se hacen análisis de estadística inferencial referidos a la población.
  • 28. 28 SERIE: APRENDER A INVESTIGAR MAPA CONCEPTUAL DE ESTADÍSTICA DESCRIPTIVA TABLAS DE FRECUENCIAS TABULACIÓN TABLAS DE CONTINGENCIA PUNTOS GRÁFICAS O LÍNEAS DIAGRAMAS BARRAS HISTOGRAMAS CÍRCULO CAJA MEDIA MEDIDAS DE MEDIANA TENDENCIA MODA CENTRAL MEDIA GEOMÉTRICA RANGO MEDIDAS MEDIDAS DE DESVIACIÓN ESTÁNDAR DE DISPERSIÓN VARIANZA RESUMEN ÍNDICE DE DISPERSIÓN CATEGÓRICO CUARTILES MEDIDAS DE QUINTILES UBICACIÓN DECILES PERCENTILES
  • 29. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 29 2.1.1 Descripción de datos, técnicas de representación gráfica El concepto de la descripción está asociada a la distribución de fre- cuencias, que consiste en el ordenamiento o clasificación de los valores observados en una variable, de acuerdo con su magnitud numérica. Per- mite al investigador identificar la forma como ciertos puntos o caracterís- ticas están distribuidos. La distribución de frecuencia se puede construir a partir de variables medidas a cualquier nivel, desde nominal hasta de razón. Podríamos suponer que queremos ver cuántos productores agrícolas en una vereda son grandes, medianos o pequeños productores. Entrevistamos a los productores de la vereda y les preguntamos la extensión de su explotación y la clasificamos de acuerdo con el tamaño (magnitud) en una de las tres categorías. Se construye la distribución de frecuencias que muestre cuántos pro- ductores son grandes, cuántos medianos y cuántos pequeños. El recuen- to será: Tabla 1 - Tipo de productor agrícola Tipo de productor Frecuencia Pequeño 7 Mediano 12 Grande 9 Total 28 En el cuadro sólo se ha agrupado el número de agricultores pertene- cientes a cada categoría. El número de agricultores se denomina obser- vaciones o frecuencia (f). Para el caso de variables medidas a nivel intervalo o de razón, pode- mos hacer exactamente el mismo ejercicio. Si se tiene, por ejemplo, la información acerca del número de cajas de madera que construyen al día unos carpinteros en un taller, podríamos clasificarlos por su productividad.
  • 30. 30 SERIE: APRENDER A INVESTIGAR Tabla 2 - Número de cajas construidas por 15 carpinteros N° de cajas Carpinteros construidas 1 11 2 10 3 8 4 12 5 12 6 10 7 7 8 8 9 10 10 11 11 10 12 9 13 9 14 10 15 11 A partir de esta información podemos aclarar aún más la naturaleza de la producción por carpintero y se podría entrar a comparar esta productivi- dad con la de otro tipo de taller o fábrica. En la tabla 3 introducimos un mayor significado y ordenamiento a la información que se está analizando. Tabla 3 - Número de cajas construidas por 15 carpinteros Nº de carpinteros Nº de cajas que construyen X F construidas Nº de cajas 7 I 1 8 II 2 9 II 2 10 5 11 III 3 12 II 2 Hasta ahora los ordenamientos que se han hecho son bastante simples, pero en la vida real muchas veces la información analizada es más compleja y la distribución de frecuencias debe ser construida a partir de un mayor número de puntajes.
  • 31. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 31 2.1.2 Distribuciones de frecuencias La distribución de frecuencias es un método para organizar y resumir datos. Bajo este método los datos que componen una serie, se clasifican y ordenan, indicándose el número de veces en que se repite cada valor. Los caracteres de los elementos de una población pueden ser: cualita- tivos y cuantitativos. Los datos cualitativos, denominados también atributos, son todos aque- llos fenómenos que pueden ser descritos cualitativamente, es decir me- diante palabras; son ejemplos de atributos: la clasificación de los alum- nos de una universidad por departamento de origen, clasificación de un grupo de personas por ocupación, por sexo, por cargo, etc. Los caracteres cuantitativos, denominados variables, son todos aque- llos fenómenos susceptibles de ser expresados cuantitativamente, es decir mediante números. Por ejemplo: peso, estatura, edad, número de hijos, salarios, etc. Las variables se dividen en: discretas y continuas, teniendo en cuenta que ésta clasificación tiene más valor teórico que práctico. Las variables discretas son aquellas que admiten solamente valores enteros, es decir no tienen valores intermedios; por ejemplo el número de hijos por familia, ya que no se puede decir que una familia tiene dos hijos y medio. Las variables continuas, son aquellas que admiten valores fraccionar- los, pudiéndose establecer intervalos. Por ejemplo, la estatura de una per- sona que mide un metro con setenta centímetros, que pesa sesenta kilos, una libra y cuatro onzas, etc. 2.1.3 Elaboración de una tabla de frecuencias Tomemos como ejemplo una muestra de 20 alumnos, determinando su peso en kilos; para facilitar el trabajo redondeamos las cifras. X1 = 74 X5 = 69 X9 = 47 X13 = 65 X17 = 76 X2 = 67 X6 = 61 X10 = 85 X14 = 88 X18 = 57 X3 = 94 X7 = 71 X11 = 82 X15 = 52 X19 = 72 X4 = 70 X8 = 79 X12 = 55 X16 = 58 X20 = 66
  • 32. 32 SERIE: APRENDER A INVESTIGAR El primer paso a seguir consiste en determinar el valor máximo y el mínimo. En el ejemplo tenemos: Xmáximo = 94; Xmínimo = 47 La diferencia entre el valor máximo y el mínimo se denomina recorrido o rango. 94 - 47 = 47 El rango, será entonces de 47. Introducimos dos nuevos símbolos que son: m = número de intervalos (o clase de la distribución) c = amplitud de intervalo (o de clase de la distribución) El valor de m, o sea, el número de intervalos se puede obtener me- diante la siguiente fórmula: m = 1 + 3.3 log n , donde n es el número de datos Es de anotar que la anterior fórmula es poco conocida, por consiguien- te, es poco usual. Sin embargo, se recomienda que el número de interva- los, hasta donde sea posible, no sea menor de 5 ni mayor de 16. Para el cálculo de amplitud del intervalo se puede aplicar la siguiente fórmula: Xmax. - Xmin. o sea rango C= C= m m En el caso de nuestro ejemplo, el número de intervalos será: m = 1 + 3.3 log2O de donde m = 1 + 3.3,x 1,30 m = 1 + 4,29 m = 5.29 ≅ 5 intervalos.
  • 33. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 33 La amplitud del intervalo de clase será: Rango R =47 Número de intervalos m = 5 R 47 C= de donde C= = 9.4 m 5 Redondeando y para mejor manejo de los datos, se puede considerar que la amplitud del intervalo sea de 9. La tabla de frecuencias nos quedará en la siguiente forma, Tabla 4 - Distribución de frecuencias del peso de 20 alumnos Peso Frecuencias (f) Frecuencia Relativa Fr 46 - 55 3 3/20 = 0.15 = 15% 56 - 65 4 4/20 = 0.20 = 20% 66 - 75 7 7/20 = 0.35 = 35% 76 - 85 4 4/20 = 0.20 = 20% 86 - 95 2 2/20 = 0.10 = 10% Total 20 20/20 = 1 = 100% Frecuencia relativa (Fr) Es su frecuencia dividida por el total de datos y se expresa general- mente como un porcentaje: f __ Fr = n 2.1.4 Presentación gráfica Aunque las tablas sean ya el resultado de una concentración de datos, pueden ser, sin embargo, demasiado amplias y complejas, de modo que pierden una buena parte de lo que debería ser su cualidad primordial, la claridad. Entonces, podemos recurrir a la presentación gráfica, para la mejor comprensión y análisis de los datos. En las variables discretas se hace la representación mediante diagramas de frecuencias; para ello, en el eje hori-
  • 34. 34 SERIE: APRENDER A INVESTIGAR zontal, se colocan los distintos valores de las frecuencias absolutas o rela- tivas. Si la representación se refiere a las frecuencias absolutas o relativas acumuladas se denomina: Diagrama de frecuencias acumuladas, colocán- dose los valores de la variable en el eje horizontal y las frecuencias Fr, en el vertical. 2.1.4.1 Histogramas y polígonos de frecuencias Una distribución de frecuencias, se puede describir por medio de histo- gramas de frecuencias, que son gráficos que representan la información contenida en una distribución de frecuencias. El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede pre- sentar en un histograma que representa exactamente lo mismo. Gráfica 1. Peso en kilos de 20 alumnos de un colegio Otra manera de describir la distribución de la información obtenida, es por medio del polígono de frecuencias. Estos son gráficos en la forma de una serie de líneas rectas conecta- das entre sí y que unen puntos medios de intervalos a lo largo del eje horizontal. El caso del peso de los alumnos, puede servirnos para ilustrar la técnica de los polígonos de frecuencia. Para construirlo se siguen los mismos pa- sos que para construir un histograma, pero en lugar de construir los rectán- gulos a partir de los límites superior e inferior de los intervalos, se calcula el punto medio del mismo y se unen, por medio de una línea recta que se conecta a los puntos medios de los demás intervalos.
  • 35. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 35 Así por ejemplo en el gráfico 1 podemos trazar el polígono de frecuen- cias, uniendo los puntos medios del histograma de frecuencias. 2.1.4.2 Gráficas de barras La gráfica de barras es fácil de construir y su interpretación es de gran utilidad. Una gráfica diseñada para mostrar magnitudes absolu- tas deberá tener su inicio en cero y una escala de cantidades conti- nuas. Las gráficas de barras pueden construirse en forma vertical u horizontal. Las gráficas de barras pueden dividirse en tres tipos: a. Gráficas de barras con partes componentes. En esta gráfica cada ba- rra ha sido segmentada en dos partes componentes; así, por ejemplo, en la siguiente gráfica se tiene que la población de estudiantes de 100 semestre de la facultad X, de la Universidad Y, se distribuye según el sexo y la edad así: Distribución de los estudiantes de décimo semestre de la Facultad X, de la Universidad Y, por sexo y edad 1 5 -1 9 2 0 -2 4 Edad 2 5 -2 9 h o m b re s m u je re s 3 0 -3 4 0 10 20 30 40 N ú m e ro d e E s tu d ia n te s En la gráfica se muestra el número de estudiantes clasificados por sexo y edades, en cada barra se presentan los dos componentes, los hombres y las mujeres. b. Gráficas de barras agrupadas. En esta gráfica, se presentan los mis- mos datos de estudiantes, excepto que los componentes por sexo se muestran separadamente así:
  • 36. 36 SERIE: APRENDER A INVESTIGAR Distribución de los estudiantes de décimo semestre de la Facultad X, de la Universidad Y, según el sexo y la edad 1 5 -1 9 2 0 -2 4 Edad m u je r e s h o m b re s 2 5 -2 9 3 0 -3 4 0 5 10 15 20 25 30 N ú m e r o d e E s tu d ia n te s c. Gráficas de barras bidireccionales. Cuando se desea graficar cantida- des positivas y negativas, tales como pérdidas y ganancias en la pro- ducción de una empresa, por tipo de producto. Así, en la gráfica de producción de la empresa X, se tiene que las pérdidas y ganancias por tipo de producto son: Utilidad o pérdida en la producción de la Empresa X Estufas Calentadores de agua Secadores utilidad o Enfriadores pérdida Planchas -40 -20 0 20 40 60 Producción 2.1.4.3 Gráficas lineales Cuando debe presentarse una serie que cubre un gran número de pe- ríodos de tiempo, los datos graficados por medio de barras se ven dema- siado acumulados; entonces, éstas pueden ser reemplazadas por una línea, ya que las líneas son más efectivas que las barras, cuando existen marcadas fluctuaciones en las series, o cuando deben presentarse varias series sobre la misma gráfica. Por ejemplo, el número de estudiantes de la facultad X, matriculados por sexo, en el período 1990-1998.
  • 37. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 37 Número de estudiantes de la Facultad X, matriculados por sexo, en el período 1990-1998 Número de Estudiante 600 500 Hom bres 400 300 M ujeres 200 100 Total 0 90 91 92 93 94 95 96 97 98 Años 2.1.4.4 Gráficas circulares Las gráficas circulares, llamadas también de tipo pastel, se usan para mostrar los tamaños relativos de los componentes de un total. Son utiliza- dos, para indicar cosas tales como participación de cada facultad en el total de estudiantes matriculados de determinada universidad, en perío- dos diferentes. El proceso para realizar el diagrama consiste en una regla de tres. Para conocer el ángulo de cada sector se debe relacionar los 3600 que tiene una circunferencia con el tamaño de la muestra y con cada una de sus frecuencias absolutas, así: 360° n X F1 Por ejemplo, si la siguiente tabla representa el número de docentes de una universidad, clasificados por modalidad educativa. Modalidad Técnica 5 Tecnología 25 Universitaria 80 Post-grado 15 N = 125 El diagrama circular se construirá así: 360° 125 Donde 125 es el tamaño de la muestra y X 5 5 la frecuencia en la primera modalidad.
  • 38. 38 SERIE: APRENDER A INVESTIGAR Luego X = 360° x 5 125 En el siguiente ejemplo, se muestra la distribución porcentual del nú- mero de estudiantes matriculados en 5 facultades de una universidad X, en los años de 1990 y 1998. c e a d 13% 23% 15% 27% b b 14% 18% c e d 8% 15% 36% a 31% DESCRIPCIÓN DE DATOS, TÉCNICA DE REPRESENTACIÓN GRÁFICA - AUTOEVALUACIÓN N° 1 Lea cuidadosamente cada uno de los siguientes enunciados y seña- le la respuesta correcta. 1. El propósito principal de la estadística descriptiva es: a)Representar los datos por medio de histogramas. b)Obtener la información necesaria para la investigación. c)Medir en escalas nominales, ordinales e intervalos. d)Conocer las características generales de una distribución de frecuencias. e) Todas las anteriores. 2. Una distribución de frecuencias sólo se puede construir a partir de variables medidas en escalas intervalos. Sí _______ No _______
  • 39. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 39 ¿Por qué? _______________________________________________ _________________________________________________________ 3. Si clasificamos 220 municipios en grandes, medianos y peque- ños, de acuerdo con el número de habitantes, de forma tal que tenemos 49 grandes, 63 medianos y 108 pequeños, ¿cómo los representaría en un histograma de frecuencias como en un diagra- ma circular? 4. Para construir un histograma de frecuencias, primero es necesa- rio construir un polígono de frecuencias. Sí _______ No _______ 5. En un examen general de matemáticas los 30 alumnos de un cur- so obtuvieron las siguientes calificaciones: Calificación N° de alumnos 78 1 77 1 76 0 75 2 74 1 73 0 72 2 71 2 70 4 69 5 68 3 67 0 66 3 65 2 64 0 63 1 62 2 61 1 Represente la misma información en una distribución de frecuencias, basada en intervalos. Determine el rango, el número de intervalos y la amplitud de los intervalos. Represente los resultados por medio de un histograma y un polígono de frecuencias.
  • 40. 1. d 2. No 3. Gráfico 4. No 5. Rango = 17; número de intervalos = 6; amplitud de intervalo = 3 Calificaciones F Frecuencia Relativa % 61-63 4 13.3 64-66 5 16.7 67-69 8 26.7 70-72 8 26.7 73-75 3 10.0 76-78 30 100.0 Graficar RESPUESTAS A LA AUTOEVALUACIÓN N° 1 SERIE: APRENDER A INVESTIGAR 40
  • 41. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 41 3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS La segunda técnica utilizada en la estadística descriptiva se basa en dos tipos de cálculos numéricos: Los de tendencia central y los de dis- persión. Las medidas de tendencia central se basan en que, en cualquier distri- bución de frecuencias, los valores tienden a concentrarse al rededor de un valor central de la distribución. Las de dispersión, por el contrario, se basan precisamente en la mane- ra en que los valores se distribuyen alrededor de esos valores centrales. Para entender la naturaleza de la distribución, tenemos que tratar de describir el centro de la distribución de las mediciones y la forma como éstas varían alrededor de ese centro. Podemos utilizar estas técnicas descriptivas, tanto para estudiar los parámetros de la población como las estadísticas de las muestras y en este último caso, a partir de ellas podemos estimar los correspondientes parámetros de la población. 3.1 Medidas de tendencia central A continuación describimos las técnicas de tendencia central: moda, mediana y media aritmética. 3.1.1 La moda La moda de una distribución se define como el valor que presenta la mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de intervalo o de razón. Es comúnmente utilizada como una medida de popularidad, que refle- ja la tendencia de una opinión. En algunas distribuciones sólo hay una moda, pero en otras puede haber dos o más modas. Si tomamos 1, 4, 4, 4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con más frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribu- ción es bimodal. Cuando se trabaja con datos agrupados, la moda se refiere como el valor medio del intervalo que constituye la mayor frecuencia.
  • 42. 42 SERIE: APRENDER A INVESTIGAR Tabla 5. Puntajes obtenidos por 50 alumnos de un curso de física Puntajes Frecuencias 30 - 32 4 33 - 35 4 36 - 38 5 39 - 41 7 42 - 44 12 45 - 47 7 48 - 50 4 51 - 53 3 54 - 56 2 57 - 59 2 Total 50 En la tabla 5, presentamos la distribución obtenida al estudiar los puntajes obtenidos por 50 estudiantes como calificación en un curso de física. El intervalo que contiene el mayor número de casos, o mayor frecuen- cia es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda. 3.1.2 La mediana La mediana se define como la medida de tendencia central que divide a cualquier distribución en dos partes iguales. En la siguiente distribución: 7, 8, 8, 9, 12, 15, 18, 18, 20, 21, 23. La mediana es 15, porque se sitúa en el punto que divide la distribución en dos partes iguales. Hay el mismo número de casos antes y después del 15. La mediana se usa en variables medidas en escala ordinal, intervalo o de razón. Su mayor uso es cuando se tienen muchas observaciones y generalmente se utiliza en distribuciones de ingresos, edades, pesos. Cuando hay una distribución con un número par de casos, la mediana es el promedio de los dos valores medios. Así, en la siguiente distribución de notas: 78,95,86,73,52,90,89,84,76,92
  • 43. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 43 El valor de la mediana es 85, porque, primero al ordenar la distribución de menor a mayor así: 52,73,76,78,84,86,89,90,92,95 Siendo 10 el total de notas, las que aparecen en la posición quinta y sexta están en la mitad de la distribución, entonces la mediana será: 84 + 86 = 85 2 Cuando se tiene información agrupada, la mediana se define como el valor dentro del intervalo que divide la distribución en dos partes iguales. El símbolo utilizado es Me. En la tabla 6, tenemos una distribución cualquiera con 5 intervalos de tamaño 5 y con 30 observaciones. Tabla 6. Distribución de frecuencias de los pesos de 30 estudiantes Frecuencias Intervalos F acumuladas 30 - 34 4 4 35 - 39 7 11 40 - 44 8 19 45 - 49 6 25 50 - 54 5 30 Total 30 Los pasos a seguir para el cálculo de la mediana son: • Encuentro las frecuencias absolutas acumuladas. • Con base en las frecuencias acumuladas ubico el intervalo donde que- de la frecuencias correspondiente a la mitad del tamaño de la mues- tra, es decir: n 2 • Encuentro el valor del límite real inferior del intervalo donde está n 2 • Aplico la siguiente fórmula:
  • 44. 44 SERIE: APRENDER A INVESTIGAR n _ Σ Fa 2 Mediana = Li + C Fn 2 n donde Li = Límite real inferior donde está ubicada 2 Σ Fa = Suma de las frecuencias anteriores a donde está n ubicado 2 C = Amplitud del intervalo. En el ejemplo anterior de los pesos de 30 estudiantes la mediana está dada por: n 30 = = 15 2 2 Li = 39.5 Corresponde al límite inferior donde está 15 como frecuencia acumulada. n Fn Corresponde a la frecuencia del intervalo donde está = 8 2 2 n Σ Fa = 11 Corresponde a la suma de las frecuencias antes de 2 C=5 Es la amplitud del intervalo. Luego: (15 - 11) Mediana = 39.5 + x 5 8 Mediana = 42 3.1.3 La media aritmética Es la medida de tendencia central más conocida, es fácil de calcular, de gran estabilidad en el muestreo, sus fórmulas permiten tratamiento alge- braico.
  • 45. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 45 Además, presenta el inconveniente de ser muy sensible a los valores extremos, cuando éstos son demasiado bajos o demasiado altos. Se re- presenta así: X La media aritmética se define como la suma de todos los valores ob- servados dividido por el número de observaciones (n). La fórmula para datos no agrupados es: X = Σ xi n Donde Σ -Xi corresponde a la sumatoria de todos los valores de la muestra. La media aritmética de la siguiente distribución es: 1.1, 2, 1, 2.4, 3, 2, 4.5 1.1 + 2 + 1 + 2.4 + 3 + 2 + 4.5 16.1 X = = = 2.28 7 7 Para las distribuciones con datos agregados, existe una fórmula, aun- que un poco más complicada, es bastante fácil de aplicar. media = Σ fx n donde f corresponde a las frecuencias, y X al valor de cada marca de clase. Tabla 7. De valores de los pesos de los 30 estudiantes x f Intervalos Marca de clase Frecuencias fx 30-34 32 4 128 35-39 37 7 259 40-44 42 8 336 45-49 47 6 282 50-54 52 5 260 Total 30 1265 La marca de clase es el punto medio de cada intervalo. Para tal fin se suman los dos valores extremos y se divide entre dos. Por ejemplo, la marea de clase para el primer intervalo es:
  • 46. 46 SERIE: APRENDER A INVESTIGAR 30 + 34 64 X = = = 32 2 2 Por consiguiente al aplicar la fórmula la media aritmética es: media = 1.265 = 42.17 30 La media aritmética tiene sus ventajas, sobre las otras medidas de tendencia central, en que: • Cada caso se incluye en el cálculo. • Es rígidamente calculada, es decir, sólo hay una para conjunto de datos. • Es importante para hacer inferencias, es decir sirve también para cal- cular parámetros de la población. La media aritmética sólo se puede calcular a valores numéricos, es decir que estén en escala de intervalos o de razón. 3.2 Medidas de dispersión Son aquellas que nos determinan cómo se agrupan o se dispersan los datos alrededor de un promedio. En este capítulo se estudiarán las medidas que se utilizan para deter- minar cuán bien representan los promedios a la distribución considerada. En el siguiente ejemplo se presentan las notas obtenidas por dos gru- pos de estudiantes: Grupo A Grupo B 80 97 80 95 75 70 83 72 82 73 81 96 82 80 75 72 79 71 7 71 795 797
  • 47. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 47 XA = 79.5 XB = 79.7 La media aritmética de ambas series es prácticamente igual (79.5 en el grupo A y 79.7 en el grupo B). Un análisis de las cifras individuales revelan un gran contraste. En el grupo A hubo muy poca variación entre las notas, siendo la más alta 83 y la más baja 75. En el grupo B, se nota mayor variación, en este grupo la mayor nota fue 97 y la menor 71. Como conclusión se podría decir que en el grupo B hubo notas muy altas y muy bajas. En el grupo A las notas tuvieron una mayor concentración alrede- dor del promedio. Para establecer esta característica se utilizan las medidas de varia- ción o dispersión, entre las cuales las más utilizadas son el rango, la varianza y la desviación estándar. 3.2.1 El rango La medida más simple de dispersión es el rango. Este identifica la distancia entre el valor mayor y el valor menor de la distribución. Más específicamente, se define como la diferencia entre el mayor valor y el menor valor. Se simboliza por r. Ejemplo, el rango de la siguiente distribución es: 25, 36, 64, 20, 48, 59. r = 64 - 20 = 44 El rango es sencillo de calcular pero tiene la desventaja de que es sensible a los valores extremos. 3.2.2 Percentiles Los percentiles son usados para calcular una segunda medida de dis- persión. El P-ésimo percentil de un conjunto de mediciones ordenadas según su magnitud, es el valor que tiene P% de las mediciones por debajo de él y (100 P%) por encima. Se utilizan muy frecuentemente para describir los resultados de pruebas de conocimiento, como los del Sistema Nacional de Pruebas y en la clasi- ficación de personas en forma comparativa. Entre los percentiles de más interés están el 25, el 50 y el 75, frecuentemente denominados como el menor cuartil Q1, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.
  • 48. 48 SERIE: APRENDER A INVESTIGAR 3.2.3 Varianza De todas las medidas de dispersión, la más importante, más conocida y usada es la varianza. Se define como la media aritmética de los cuadra- dos de las desviaciones, respecto a su media. Se simboliza por S 2. Su fórmula es: S2 = Σ (x - media) i 2 para datos no agrupados n S2 = Σ f (X - media) 2 datos agrupados n Ejemplo con datos no agrupados Xi = 5; X 2 = 3; X3 = 1; X4 = 6; X5 = 10 5 + 3 + 1 + 6 + 10 25 X = = = 5 5 5 (5-5)2 + (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2 S2 = 5 0 + 4 + 16 + 1 + 25 46 S2 = = = 9.2 5 5 Lo cual indica que la varianza de los datos es de 9.2 Ejemplo para datos agrupados Supongamos la siguiente tabla de pesos en kilogramos:
  • 49. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 49 Tabla 8 - Pesos de 100 estudiantes de un colegio Marca de Pesos clase X X-X (X - X)2 Frecuencias f f (X - X)2 60-62 61 -6.45 41.60 5 208.0 63-65 64 -3.45 11.90 18 214.2 66-68 67 -0.45 0.20 42 8.4 69-71 70 2.55 6.50 27 175.5 72-74 73 5.55 30.80 8 246.4 Total 100 = n 852.51 X = 67.45 S2 = Σ f (x - x) 2 donde X es la marca de clase n X la media aritmética f la frecuencia de cada intervalo 852.5 S2 = = 8.52 100 Propiedades de la varianza a. La varianza siempre debe ser un valor positivo S 2> 0 b. La varianza de una constante es 0, es decir: si Xi = C para todo i, entonces S 2 = 0 c. La varianza de una constante más una variable, es igual a la varianza de la variable. S2 (k + X) : = S 2k + S 2x = 0 + S 2x = S 2x También es válida para la diferencia S2 (k + X) : = S2k + S 2x = 0 - S 2x = S 2x d. La varianza de una constante por una variable, es igual al producto de la constante al cuadrado por la varianza de la variable: S 2 (kX): = k2 S 2X
  • 50. 50 SERIE: APRENDER A INVESTIGAR 3.2.4 Desviación estándar La desviación típica estándar es la raíz cuadrada de la varianza, con- siderada siempre con signo positivo. S= S2 Para el caso del peso de los 100 estudiantes del colegio la desviación estándar es: S= 8.52 = 2.92 La varianza se expresa siempre en unidades diferentes a las originales, es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza la desviación estándar, pues se expresa en las mismas unidades de la va- riable. 3.2.5 Coeficiente de variación Esta medida relaciona la desviación estándar y la media, para expre- sar la variación de la desviación con respecto a la media aritmética. Se acostumbra expresarlo en porcentaje. La fórmula que se utiliza es: S Cv = • 100 X El coeficiente de variación sirve para determinar el grado de homogenei- dad de la información. Si el valor del coeficiente de variación es pequeño indica que la información tiene un alto grado de homogeneidad y si el coefi- ciente de variación es grande es porque la información es heterogénea. Ejemplo: al hallar el coeficiente de variación de 6, 3, 4, 7, 8 28 X = = 5.6 5 S = 1.85 1.85 Cv = = 0.3304 = 33.04% 5.6 Lo cual indica que la información es homogénea, pues el coeficiente de variación es de 33.04%.
  • 51. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 51 3.3 Asimetría Una distribución es simétrica si se tiene que: la media es igual diana e igual al modo (X = Md = Mo); pero si la distribución se vuelve asimétrica las tres medidas se separan y entonces el valor promedio ar será mayor que la mediana, que a su vez será mayor que el modo, deduciéndose que la distribución es asimétrica positiva. Si la media aritmética es menor que la mediana y ésta menor que el modo, se dice que la distribución es asimétrica negativa. En la distribución asimétrica positiva, la curva pre- senta un alargamiento a la derecha; en la negativa el alargamiento pre- senta hacia la izquierda. Véase gráficas 4. Gráfica 4. Asimetría Las fórmulas para calcular la asimetría y su grado son: Media aritmética - Modo X - Mo As = = Desviación estándar s 3(Media aritmética - Mediana) 3(X - Md) As = = Desviación estándar s 3.4 Kurtosis Una característica importante de la variación de algunas distribucio- nes es su grado de agudeza en la cima de la curva que las representa agudeza que se observa en la región del modo, comparada con las con- diciones halladas para el mismo sitio en la curva normal, es lo que Kurtosis.
  • 52. 52 SERIE: APRENDER A INVESTIGAR Si la curva es más plana que la normal, la distribución se llama achatada o platicúrtica; si es más aguda, lleva el nombre de apuntada o leptocúrtica, y si la curva es normal, se denomina mesocúrtica. La Kurtosis es una medida de altura de la curva, por lo tanto está re- presentada por el cuarto momento de la media. En la misma forma que para la asimetría, su cálculo se efectúa en función de la desviación estándar y de los momentos unidimensionales de orden cuatro con respecto a la media aritmética. m4 m4 Su fórmula es: a4 = = s4 m 22 Otra formula para medir la Kurtosis es la que se basa en los cuartiles y percentiles. Q K = P90 - P10 En donde Q = 1/2 (Q3-Q1). Si el valor encontrado de la Kurtosis es igual a 0.263 se dice que la curva es mesocúrtica o normal; si es mayor, la curva es leptocúrtica y si es menor, la curva es platicúrtica. Por ejemplo, calcular el coeficiente de Kurtosis, si el valor del primer cuartil es Q1 = 68.25; Q3 = 90.75; P10 D1 =58.12 y P90 = D9 = 101.00 Aplicando la fórmula se tiene: Q 1 K = en donde Q = (Q3-Q1) reemplazando P90 - P10 2 1 1 Se tiene Q = (90.75 - 68.25) = (22.5) = 11.25 2 2 11.25 11.25 K = = = 0.262 101.00 - 58.12 42.88 Se puede decir que la curva es normal o mesocúrtica.
  • 53. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 53 3.5 Tablas de contingencia En muchas ocasiones, la información puede organizarse y presentar- se de acuerdo con la relación entre dos o más variables. Es cuando se habla de tablas de doble entrada o múltiples entradas o comparación de colectivos. Las variables pueden ser categóricas o nu- méricas. Esta forma de representación presenta grandes ventajas, entre otras resume información y posibilita el análisis de dependencia, asociación, correlación y homogeneidad. Supongamos que a partir de datos disponibles en nuestro estudio se ha elaborado el siguiente cuadro: Tabla 9. Distribución de alumnos por jornadas y clase de colegio NÚMERO DE ALUMNOS CLASIFICACIÓN DE LA JORNADA COLEGIOS COLEGIOS TOTAL OFICIALES PRIVADOS Única 230 840 1070 Mañana 583 614 1197 Tarde 418 234 652 Total 1231 1688 2919 Si comparamos los datos en dirección horizontal constatamos que el mayor número de estudiantes corresponde a la jornada de la mañana, mientras que si leemos los datos en dirección vertical el mayor número de estudiantes corresponde los colegios privados. En ocasiones el investigador desea especificar y analizar los datos con más variables. Para el ejemplo anterior podría ser sexo y edad.
  • 54. 54 SERIE: APRENDER A INVESTIGAR Tabla 10. Distribución de alumnos por jornadas, clase de colegio, sexo y edad Clasificación COLEGIOS OFICIALES COLEGIOS PRIVADOS de la jornada Hombres Mujeres Hombres Mujeres 10-15 15-20 10-15 15-20 10-15 15-20 10-15 15-20 Única 52 80 22 76 132 180 423 105 Mañana 121 47 168 247 241 132 86 155 Tarde 123 154 49 92 76 51 47 60 Subtotal 296 281 239 415 449 363 5561 320 TOTAL 1231 1688 En este ejemplo, el 52 corresponde al número de estudiantes hombres entre los 10 y 15 años, de jornada única pertenecientes a colegios oficiales. Las tablas de contingencia se pueden realizar con frecuencias relati- vas, es decir, con porcentajes. ÍNDICE DE DISPERSIÓN CATEGÓRICO Para datos ordinales y nominales se utiliza el llamado ÍNDICE DE DIS- PERSIÓN CATEGÓRICO, cuya fórmula es: K(N2 - Σ f2) D = N2(K - 1) Donde K es el número de categorías de la variable. Σ f2 es la suma de las frecuencias al cuadrado N = número de casos (tamaño de la muestra) Por ejemplo: Si tenemos la siguiente clasificación de 15 estudiantes por preferen- cias deportivas:
  • 55. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 55 DEPORTES ALUMNOS f2 FÚTBOL 8 64 VOLEIBOL 2 4 BASKET 5 25 TOTAL 15 El índice de dispersión categórico sería: 3(225 - 93) D = 225(3 - 1) 396 D = = 0.88 450 Lo cual indica que los datos presentan una dispersión del 88%. DISTRIBUCIÓN DE DATOS, TÉCNICAS NUMÉRICAS AUTOEVALUACIÓN N° 2 Lea cuidadosamente cada uno de los siguientes enunciados y seña- le la respuesta correcta. 1. Para entender la naturaleza de la distribución de frecuencias, las medidas de tendencia central son mejores que las de dispersión Sí _______ No _______ 2. Las medidas de tendencia central son-. ___________________________________________________ 3. ¿Cuál es la mediana de la siguiente distribución? 4, 4, 5, 3, 7, 9, 5, 1, 7, 3, 7, 7, 5
  • 56. 56 SERIE: APRENDER A INVESTIGAR 4. Un profesor pidió los pesos en Kg a 30 estudiantes del curso de álgebra y obtuvo los siguientes resultados: No. de estudiantes Edad f 30-34 5 35-39 6 40-44 8 45-49 7 50-54 4 Total 30 a. ¿Cuál es el peso promedio de sus alumnos? _________ b. ¿Cuál es la mediana? _________ c. ¿Cuál es la moda de las edades? _________ 5. ¿Cuáles son las modas de las siguientes series de números? a) 122, 103, 148, 113, 103, 118. b) 75, 84, 37, 49, 51, 83. c) 22, 43, 22, 38, 41, 43, 20. 6. ¿Cuál es la medida de dispersión más sencilla? ___________________________________________________ 7. El rango tiene la desventaja de ser sensible a los valores extremos. Sí _______ No _______
  • 57. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 57 8. La varianza siempre debe ser un valor positivo. Sí _______ No _______ 9. ¿Cómo se define la Desviación Estándar? ___________________________________________________ 10. Una de las características de la Kurtosis es el grado de agudeza de la curva, la cual se puede clasificar en tres tipos: a. Una más plana que la normal 0: __________________ b. La segunda más aguda 0: __________________ c. Si la curva es normal 0: __________________ RESPUESTA A LA AUTOEVALUACIÓN N° 2 10. a. Platicúrtica. b. Leptocúrtica. c. Mesocúrtica 9. La raíz cuadrada de la varianza 8. Sí 7. Sí 6. El rango c) 22 y 43 b) No hay 5. a) 103 c. moda= 8 b. Mediana = 42 4. a. X = 4.18 3. 5 2. Media, mediana y moda 1. No
  • 58. 58 SERIE: APRENDER A INVESTIGAR Taller de estadística N° 1 Se realizó un experimento para evaluar el efecto de la edad en la fre- cuencia cardíaca, cuando se somete una persona a un grado específico de ejercicios. Se seleccionaron al azar hombres de cuatro grupos de eda- des, 10-19, 20-39, 40-59, 60-69. Cada individuo recorrió la banda sin fin a una velocidad específica durante 12 minutos y se registró el aumento de la frecuencia cardíaca, la diferencia antes y después del ejercicio, (en la- tidos por minuto) ¿Qué puede usted concluir, si los siguientes datos son el resultado del procesamiento de la información apoyada en el computador. VARIABLE GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 Talla 15 10 12 12 Promedio 30.1333 27.5 29.5 38.3333 Mediana 30 27.5 29 37.5 Moda 22 24 33 36 Varianza 24.8381 23.8333 19.1818 50.6061 Desviación estándar 4.98378 4.88194 4.37971 7.11379 Mínimo 22 21 22 28 Máximo 39 34 37 54 Rango 17 13 1.5 26 Quartil inferior 26 24 26.5 34.5 Quartil superior 34 32 33 42 Rango interquartil 8 8 6.5 7.5 Skewness -0.0873053 -0.0716212 0.0311649 0.668752 Kurtosis -0.612727 -1.59948 -0.726827 1.02909 Coeficiente de variación 16.5391 17.7525 14.8465 18.5577 Suma 452 275 354 460 Preguntas 1. ¿Qué tipo de muestreo se realizó? 2. ¿Qué grupo fue más homogéneo en los resultados? ¿Por qué? 3. Comparando las medias aritméticas ¿qué grupo obtuvo la menor media? 4. ¿Qué grupo presenta un mayor rango? ¿Qué significa? 5. Si consideramos el grupo 4 5.1 ¿Cuál es el mínimo valor? 5.2 ¿Cuál fue el mayor aumento de frecuencia cardíaca? 5.3 ¿Qué porcentaje de la información está por debajo de 34.5?
  • 59. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 59 5.4 ¿Qué porcentaje de la información está por encima de 34.5? 5.5 ¿Qué porcentaje de la información está entre 34.5 y 42? 6. Si consideramos el grupo 2 6.1 ¿Qué porcentaje de la información está por encima de 32? 6.2 ¿Qué valor corresponde al dato que más se repite? 6.3 ¿Qué dato está ubicado en el primer cuartil? 6.4 ¿Qué significado tienen las dos respuestas anteriores? Respuestas 1. Muestreo aleatorio por estratos según edades. 2. El grupo No. 3 porque obtuvo el menor coeficiente de variación. 3. El grupo No. 2 con un valor de 27.5. 4. El grupo No. 4 significa que obtuvo mayor variabilidad entre el dato mayor y el dato menor. 5. 5.1 28 5.2 54 5.3 El 25% 5.4 El 75% 5.5 El 50% 6. 6.1 El 25% 6.2 24 6.3 24 6.4 Significa que por debajo del dato que más se repite hay un 25% de la información.
  • 60. 60 SERIE: APRENDER A INVESTIGAR 4. INTRODUCCIÓN A LAS PROBABILIDADES 4.1 Probabilidades elementales Consideramos varios ejemplos: es casi seguro que hoy no llueve, con ello expresamos algún grado de confianza de que no llueve, a pesar de la completa seguridad. ¿Qué posibilidad existe de obtener una buena nota en el examen de economía? ¿En el de estadística? «En el próximo examen tengo la oportunidad de obtener una nota alta». Si un aficionado a la hípica es preguntado sobre una fija en una deter- minada carrera, puede darnos una insinuación de cuál caballo puede ga- nar. «El caballo X tiene una buena oportunidad». Nos encontramos con un conjunto cuya técnica se refiere a resultados que no estamos muy seguros. Asociamos cierto grado de confianza, con relación a que cada una de estas predicciones se realice. El cierto grado de confianza reposa en la experiencia (pasada y presente). Los Bayecianos definen la probabilidad de un acontecimiento, como una medida del grado de confianza que uno tiene, en que ocurra el acon- tecimiento. Otros autores consideran que la probabilidad pertenece a aquellas no- ciones imposibles de ser definidas adecuadamente y se les considera basadas en la experiencia. Por lo tanto, se puede decir que la probabilidad es una creencia basada en la experiencia. Consideramos algunas definiciones, según el método. a. Método axiomático. El cual concibe la probabilidad de ocurrencia de un suceso, como un número comprendido entre cero y uno. Este con- cepto tiene que ver directamente con la noción de frecuencia relativa, donde: 0 < p < l. Supongamos que se lanza 100 veces una moneda, anotamos el número de veces que sale cara y las veces que sale sello; los resultados fueron los siguientes: Frecuencias absolutas: cara 56 veces; sello 44 veces Frecuencias relativas: 56/100; 44/100 Posibilidad: p = 56% (éxito); q = 44% (fracaso)
  • 61. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 61 b. Método empírico o práctico. Considera la probabilidad de un su- ceso, como aquel número al cual se aproxima cada vez la frecuencia re- lativa de la ocurrencia de un suceso, cuando las veces que se repite el experimento que origina ese suceso es bastante grande. Este concepto tiene algo que ver con el experimento de Quetelet, en donde la probabili- dad de un suceso tiende a estabilizarse en un punto, cuando el número de experimentos se va haciendo cada vez más grande. c. Método clásico. Considera la probabilidad como el cuociente de dividir los casos favorables, que pueden ocurrir en un suceso, por el total de casos posibles. Número de casos favorables p = __________________________ Número de casos posibles Ejemplos: – En el lanzamiento de una moneda hay: 2 posibilidades N° Combinaciones Probabilidades C (C) 1/2 = 0.5 S (S) 1/2 = 0.5 2 1 = 1.0 – Lanzamiento de dos monedas. 4 Posibilidades N° Combinaciones Probabilidades 2C (C,C) 1 1/4 = 0.25 1Cy1S (C, S) (S, C) 2 2/4 = 0.50 2S (S,S) 1 1/4 = 0.25 4 1 = 1.00 – Lanzamiento de tres monedas. 8 posibilidades N° Combinaciones Probabilidades 1C (C, C, C) 1 1/8 = 0.125 2C y 1S (C, C, S) (C, S, C) (S, C, C) 3 3/8 = 0.375 2S y 1C (S,S,C)(S,C,S)(C,S,S) 3 3/8 = 0.375 3S (S, S, S) 1 1/8 = 0.125 8 1 = 1.000
  • 62. 62 SERIE: APRENDER A INVESTIGAR En efecto el número de casos posibles en los ejemplos anteriores se obtiene: 21 = 1 2n 22 = 4 2 = casos posibles en una moneda 23 = 8 n = número de lanzamientos En un dado sería: 6n 61 = 6 6 = casos posibles en un dado 62 = 36 36 = casos posibles al lanzar dos dados 4.2 Esperanza Si p es la posibilidad de éxito en un suceso, en un solo ensayo, el número de sucesos o esperanzas de ese suceso en n ensayos, estará dado por el producto de n y la probabilidad de éxito p. E=np Ejemplo: En el lanzamiento 900 veces de dos dados, ¿cuál es la esperanza de que la suma de sus caras sea un valor menor a 6? Primero obtenemos la probabilidad de éxito del suceso en un solo ensayo. (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10 Como se lanzan 900 veces, en dos dados, se tiene: 10 900 E = np = 900 = = 250 36 36 La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor de 6. 4.3 Leyes de las probabilidades Para facilitar el cálculo de las probabilidades se emplean estas leyes. 1. Si dos o más sucesos son tales que solamente uno de ellos puede ocu- rrir en un solo ensayo, se dice que son mutuamente excluyentes. Se
  • 63. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 63 denomina probabilidad aditiva y será igual a la suma de las probabilidades de cada suceso. P = P 1 + P2 + P3........... + Pn Ejemplo: La probabilidad de obtener un as o un rey, sacando una sola carta en una baraja española de 40 cartas. Si uno de los casos aparece, queda excluido el otro. 4 1 P1 = = (As) 40 10 4 1 P2 = = (Rey) 40 10 1 1 2 1 P = P1+P2 = + = = 10 10 10 5 2. Se dice que dos o más sucesos son independientes, si la probabilidad de presentación de alguno de ellos queda influenciada por la presenta- ción del otro. En caso contrario, se dice que son dependientes. En otras palabras, si el resultado de un suceso no afecta al otro, se dice que son independientes, por lo tanto se efectuará la multiplicación de las probabilidades para cada suceso. P = P1 x P2 x P3..... x Pn Ejemplo: ¿Qué probabilidad tendremos de obtener dos reyes, sacando una car- ta de una baraja y la otra de una segunda baraja? 4 4 16 1 P = x = = 40 40 1600 100 Se dice que los sucesos son dependientes, o eventos compuestos, si la ocurrencia o no ocurrencia de un evento en cualquier prueba afecta la probabilidad de otros eventos en otras pruebas, es decir que la probabi- lidad del segundo suceso depende del primer suceso, el del tercero, de lo que haya sucedido en el primero y segundo y así sucesivamente.
  • 64. 64 SERIE: APRENDER A INVESTIGAR Ejemplo: La probabilidad de obtener tres ases, sacando sucesivamente tres cartas de una baraja española, sin volverlas a incluir (sin reposición) en el montón. 4 3 2 P1 = P2 = P3 = 40 39 38 4 3 2 24 P = • • = 40 39 38 59280 1 P= 2470 4.4 Análisis combinatorio El análisis combinatorio es un sistema que permite agrupar y ordenar, en diversas formas, los elementos de un conjunto. Los tres principales tipos de análisis combinatorio son: 4.4.1 Permutaciones Se denominan permutaciones de η elementos, los diferentes grupos que se pueden hacer, tomándolos todos cada vez. Las permutaciones implican orden. Cada conjunto ordenado de η elementos se denominará una permuta- ción de los n elementos diferentes. La formula es Pn = n!, donde Pn corresponde al número de permuta- ciones posibles. Por ejemplo: Determine el número de permutaciones posibles de las letras A, B, C, D. P4 = 4! = 4 x 3 x 2 x 1 = 24 Representémoslas:
  • 65. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 65 ABCD BACD CABD DABC ABDC BADC CADB DACB ACBD BCDA CBAD DBAC ADBC BDAC CDAB DCBA ADCB BDCA CDBA DCAB ACDB BCAD CBDA DBCA Otro ejemplo: ¿Cuántos números diferentes de 9 cifras se pueden formar con los dígitos del cero al 9, usándolos una sola vez? P10,= 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800 Permutaciones con repetición Las permutaciones con repetición r, son un caso particular de las variacio- nes y no existe una ley sencilla para su formación. Dado lo complicado del sistema, sólo, se presenta la fórmula que logra el número de esta clase de permutaciones. Sean los elementos aa - bbb - cc - d, para permutar con repetición, ten- dremos 8 elementos repartidos así: dos del primero, tres del segundo, dos del tercero y uno del cuarto, entonces las permutaciones se presentarán así: P8(r: 2,3,2,1) y la fórmula respectiva será: 8! 8x7x6x5x4x3x2x1 P8(r:2,3,2,1) = = 2!3!2! 2x1x3x2x1x2x1 P8(r:2,3,2,1)=1680 La formula será n! Pn(r: r1, r2) = r1!r2! Ejemplo: ¿De cuántas maneras distribuiríamos 3 monedas de $100 y 4 monedas de $500 en una misma línea? 7! 7x6x5x4x3x2x1 P7(r: 3,4) = = 3!4! 3x2x1x4x3x2x1 P7(r: 3,4) = 35
  • 66. 66 SERIE: APRENDER A INVESTIGAR Otro ejemplo: Cuántos grupos de 2 letras se pueden formar con las letras de la palabra amigas. 6! P6(r: 2) = = 360 2! 4.4.2 Variaciones Las variaciones corresponden a aquellas permutaciones donde los ele- mentos no se toman en su totalidad. Dado un conjunto de n elementos diferentes, se denominará permutación parcial o variaciones, de subconjunto de r elementos (r<n) pertenecientes al conjunto dado. n! La fórmula es: Vrn = (n - r)! En el ejemplo de las cuatro letras o elementos (n) vamos a permutar de a 2 (r) 4 4! 4x3x2x1 V2 = = = 12 (4 - 2)! 2x1 AB BA CA DA AC BC CB DB AD BD CD DC Ejemplo: ¿Cuántas cifras diferentes de 4 dígitos se pueden formar con los dígitos del 0 al 9, usándolos una vez? 10! 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 V10 = 4 = = 5.040 (10 - 4)! 6x5x4x3x2x1 4.4.3 Combinaciones Son aquellas en las que no interesa el orden de la aparición de ele- mentos del conjunto. Será lo mismo AB que BA.
  • 67. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 67 Cuando se toma la totalidad de elementos, solamente se puede hacer una combinación. Si se tiene las letras A, B, C, D y se combinan de dos en dos, se obtienen 6 casos: AB BC CD AC BD AD La fórmula será: n! (n) = Cn = r r r!(n - r)! Y se lee combinación de n elementos tomados de r en r. Ejemplo: Cuál es la combinación de las 4 letras A, B, C, D, tomadas de 4 en 4. 4! 4x3x2x1 4 (4) = C4 = 4 = = 1 4!(4 - 4)! 4x3x2x1x1 El factorial de cero es uno (0! = l). En la combinación de estas 4 letras tomadas de 2 en 2 será, 4! 4x3x2x1 4 (2) = C2 = 4 = = 6 2!(4 - 2)! 2x1x2x1 4.5 Probabilidad condicional En algunos eventos probabilísticos se tiene alguna información, que reduce el espacio muestral original a uno de sus subconjuntos; las probabi- lidades asociadas a esos subconjuntos determinan la probabilidad condi- cional. Su fórmula está dada así: ∩ P(B∩A) P(B/A) = P(A) Ejemplo:
  • 68. 68 SERIE: APRENDER A INVESTIGAR El 18 % de las familias de un barrio tienen vehículo propio, el 20% tiene vivienda de su propiedad y el 12% tiene vivienda y vehículo. ¿Cuál es la posi- bilidad de tener vivienda si se tiene vehículo? A = Propietario de vehículo A’ = No propietario de vehículo B Propietario de vivienda B’ No propietario de vivienda B B’ Total A 0.12 0.06 0.18 A’ 0.08 0.74 0.82 Total 0.20 0.80 1.00 0.12 P(B/A) = = 0.66 0.18 INTRODUCCIÓN A LAS PROBABILIDADES AUTOEVALUACIÓN N° 3 1. La definición clásica de probabilidades es el cociente de dividir el número de casos favorables que pueden ocurrir en un suceso, por el número de casos posibles: Sí ______ No ______ 2. ¿Cuál es la probabilidad de que una bola, extraída al azar de una urna que contiene 3 bolas rojas, 4 blancas y 5 azules, sea blanca? a. 3/12 b. 1/3 c. 5/16 d. Ninguna
  • 69. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 69 3. Una señora invita a cenar a 8 personas; después de sentarse ella, ¿de cuántas maneras se pueden sentar sus invitados? 4. En un juego de moneda, entre dos personas, con un premio de $1.000 por aparición de cara, ¿cuál es la esperanza de ganar con el resultado de cara? 5. ¿De cuántas maneras se pueden sacar dos manzanas de una caja que contiene 8 manzanas? RESPUESTAS A LA AUTOEVALUACIÓN N° 3 5 . C82 = 28 4 . $500 3 . 40.320 2 . 1/3 1. Sí.
  • 70. 70 SERIE: APRENDER A INVESTIGAR 4.6 Distribución binomial En repetidos ensayos, siendo p la probabilidad de éxito en un solo ensayo la cual debe permanecer fija y q la probabilidad de fracaso, entonces la proba- bilidad P de que se obtengan r éxitos en n ensayos, es el termino del desarro- llo binomial (q+p)n. La fórmula general será: p = Cnr pr qn-r Los criterios que deben satisfacer una experiencia binomial son: a) Existir un número fijo de pruebas repetidas (n). b) Cada una de las n pruebas debe tener dos resultados: favorable o desfa- vorable; en el caso de una moneda será: cara o sello. c) La probabilidad de éxito de un acontecimiento es fija. d) Las pruebas son independientes. e) Nos interesa el número de éxitos en n pruebas. En caso de lanzar 4 monedas y se quiera determinar la probabilidad de obtener exactamente dos caras, será: 2 4-2 2 2 1 1 4! 1 1 4.3.2.1 1 1 P = C 4 2 = = 2 2 2!2! 2 2 2.1.2.1 4 4 1 6 P = 6 = = 0.375 = 37.5% 16 16 4.7 Distribución normal Muchas distribuciones de mediciones, que se hacen tanto en las cien- cias sociales como en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma que se asemeja al corte transversal de una campana. Esta distribución se observa más cuando el número de observaciones es grande y cuando en muchos casos las investigaciones se realizan con muestras de poblaciones grandes; en la mayoría de los casos las distri-
  • 71. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 71 buciones tienden a aproximarse a la curva en forma de campana ya men- cionada. Una distribución de frecuencias que se asemeja a una campana se reco- noce como una Distribución Normal, que por tener características especia- les, se convierte en un requisito fundamental para entender el proceso rela- cionado con la inferencia estadística y la prueba de hipótesis. Cuando el número n de experimentos es grande, se hace difícil el cálculo de las probabilidades mediante el teorema del Binomio; para facilitar el cálculo y agilizar las operaciones, utilizaremos la distribución normal. Entre las propiedades de la distribución normal están, a. El área total debajo de la curva, puede representar el número total de ele- mentos en una población y se puede considerar que el área es igual a la unidad. Esta propiedad permite determinar la proporción de la frecuencia conteni- da entre dos puntajes a lo largo del eje horizontal, ya que se puede calcular la proporción del área debajo de la curva y contenida entre los dos puntos. b. La media aritmética, la mediana, y la moda de una distribución normal son iguales a cero. c. La desviación estándar es igual a 1 d. Como veíamos, tiene una distribución simétrica. e. Es una distribución asintótica, es decir, como no toca el eje de las X, se extiende infinitamente. f. En una distribución normal el 68.26% de los valores bajo la curva, se en- cuentra dentro de más o menos una desviación estándar de la media arit- mética; el 95.46% de los valores debajo de la curva se encuentra dentro de más o menos dos desviaciones estándar de la media y el 99.9% se encuentra dentro de más o menos tres desviaciones estándar, tal como se ve en la gráfica 5. La curva está dada por la función:
  • 72. 72 SERIE: APRENDER A INVESTIGAR z2 n 2 Y= e2G G √2π π donde: n número de datos G desviación estándar de la distribución binomial = √ npq e base de los logaritmos naturales = 2.71828 π 3.1416 µ media de la distribución nominal = np Gráfica 5. Características de una distribución normal. Probabilidad mediante una aproximación a la curva normal X y Y son cantidades concretas de la misma especie. La variante esta- χ−µ dística z = , representa una medida de las desviaciones estándar o G de las G llamadas unidades estandarizadas. La expresión anterior también es conocida como desviación normal. Aplicando la fórmula podemos cal- cular la probabilidad, por ejemplo de obtener 4, 5 y 6 caras, en 9 lanza- mientos de una moneda, mediante una aproximación a la binomial.
  • 73. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 73 n=9 p=½ q=½ µ = np = 9 (½) = 4.5 G = √ npq = √ 9 (½) (½) = 1.5 p = (3.5 < x <6.5) x = 4,5 y 6 caras Gráfica 6. Se tiene que x 3.5 corresponde al límite inferior de 4, y x 6.5 es el límite superior de 6. Se va a buscar el valor del área comprendido entre 3.5 y 6.5, o sea, P (3.5<x<6.5). Primero localizamos el área a partir de la media hasta el límite inferior, dado que cada lado vale el 50%, la suma total será igual a uno. x–µ 3.5 - 4.5 De donde z = entonces z = = –0.67 G 1.5 z = (-0.67) = 0.2486, tomado de la tabla, área bajo la curva normal.
  • 74. 74 SERIE: APRENDER A INVESTIGAR 6.5 - 4.5 Z= = 1.33 1.5 Z = 1.33 = 0.4082, tomado de la tabla, área bajo la curva normal. Se desea el área comprendida entre z = -0.67 y z = 1.33 Para ello sumamos: 0.2486 + 0.4082 = 0.6568 La probabilidad de que aparezca 4, 5 y 6 caras es del 65.68%. Véase gráfica 6. Ejemplos: Usando la tabla del área bajo la curva normal, plantearemos algunos problemas que servirán de modelo. Ver gráficas: 7 - 8 - 9 y 1 0. a) Para z = 1.5 y z = -1.4 z = 1.5 la tabla da 0.4332 z =1.4 la tabla de 0.4192 p (-14<z<1.5) = 0.4332+0.4192 p 0.8524 = 85.24% Gráfica 7.
  • 75. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 75 b) Si se plantea p (z<1.5), corresponde al siguiente gráfico. 0.5000 + 0.4332 = 0.9332 = 93.32% Gráfica 8. c) P (z>1.5) 0.5000 - 0.4332 = 0.0668 =6.68% Gráfica 9.
  • 76. 76 SERIE: APRENDER A INVESTIGAR d) Si queremos conocer el porcentaje de frecuencia comprendida entre z = -3 y z = -2, será necesario proceder por diferencia. z = -3 = 0.4987 0.4772 z = -2 = 0.0215 La diferencia es 0.0215 = 2.15% P (-3 < z < -2)= 2.15% Gráfica 10. 4.8 Distribución de Poisson Se tiene ahora una distribución binomial, cuando n es grande, por lo gene- ral mayor de 50, a la vez que p, la probabilidad de éxito de un suceso se acerque a cero, mientras que q, la probabilidad de fracaso, se aproxime a uno, de tal manera que el producto np, llamado lamda λ es menor o igual a 5, debe utilizarse la distribución de Poisson. Su fórmula es: λ xe-λ λ P= X! donde e = 2.71828
  • 77. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 77 λ = np x = número de casos favorables Ejemplo: a) Si el 1 % de las bombillas fabricadas por una compañía son defectuosas, hallar la probabilidad de que en una muestra de 100 bombillas 3 sean defectuosas. λ = 100 x 0.01 = 1 X=3 13 - e-1 1 (0.36788) P = = = 0.06131 3! 3.2.1 e-1 (utilizamos la tabla para valores de e-λ) e-1 = 0.36788 b) Si, la probabilidad de que una persona adquiera la enfermedad como consecuencia de una vacuna contra la misma, es 0.0002, ¿cuál es la probabilidad de que la adquieran exactamente 5 personas en una po- blación de 10.000 vacunados? λ x . e-λ λ p= X! λ = np = 10.000 x 0.0002 = 2 x=5 25 (0.13534) 32(0.13534) 4.33088 entonces P = = = 5.4.3.2.1 120 120 P = 0.03609 = 3.61 % P (x = 5) = 3.61 %
  • 78. 78 SERIE: APRENDER A INVESTIGAR LA CURVA NORMAL Y SUS APLICACIONES AUTOEVALUACIÓN N° 4 1. La curva normal se caracteriza por que es asimptótica. Esto quiere decir que: a. La media es igual a la moda _________________ b. Tiene forma de campana _________________ c. Es simétrica _________________ d. Nunca toca el eje _________________ e. Ninguna de las anteriores _________________ 2. La tabla bajo la curva normal sirve para indicar cuál es: a. La proporción de los casos que se encuentran entre la media y un valor llamado puntaje _____________ b. El valor de la desviación estándar en relación con el valor de la media _____________ 3. En una distribución normal, la media, la mediana y la moda son iguales: Sí _____ No _____ 4. ¿Cuál es el área bajo la curva normal que corresponde a un z = 2.5? _____________________________________________________ 5. El promedio de las notas de un curso está en 1.350 puntos y tiene una distribución normal con una desviación estándar de 18 puntos. a. ¿Qué porcentaje de alumnos tiene notas entre 1.350 y 1.377 puntos? _________________ b. Entre 1.365 y 1.377 _________________ c. Entre 1.31 y 1.351. _________________
  • 79. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 79 6. Con una distribución de 20 elementos se obtiene una media de 20.3 y una desviación estándar de 2.81. Si uno de los elementos tiene un valor de 28, ¿cuál es el valor de z? a. 17.18 _____________ b. 7.70 _____________ c. 2.74 _____________ d. 5.48 _____________ e. Ninguno de los anteriores _____________ 7. En una distribución normal, el 68.26% de los valores bajo la curva se encuentra dentro de más o menos una desviación estándar de la media aritmética. Sí _____ No _____ 8. En una distribución binomial, cuando n es pequeña, se utiliza la dis- tribución de Poisson. Sí _____ No _____ RESPUESTAS A LA AUTOEVALUACIÓN N° 3 8=No 7=Sí; 6=c)2.74; c)21.14%; b)13.65; 5=a)43.32%; 4=49.38%; 3=Sí; 2=a-, 1 =d;
  • 80. 80 SERIE: APRENDER A INVESTIGAR 5. ESTADÍSTICA INFERENCIAL Ayuda a determinar la confiabilidad de la inferencia de que los fenóme- nos observados en la muestra ocurrirán también en la población de donde se seleccionó la muestra. Es decir, sirve para estimar la eficacia del razo- namiento inductivo con el cual se infiere que lo que se observa en una parte se observará en el grupo entero. El objeto de la estadística es el de hacer inferencias (predecir, decidir) sobre algunas características de la población con base en la información contenida en una muestra. Por lo tanto, se puede afirmar que el empleo de la estadística inferencial presume el dominio de la estadística descriptiva. Sin embargo se debe tener presente que al predecir un resultado o tomar una decisión se está sujeto a una incertidumbre o margen de error, bien sea por la técnica de muestreo o por la selección del estadístico de prueba. Es importante resaltar que se debe diferenciar entre las técnicas que son válidas para el análisis de los datos cualitativos y de los datos cuanti- tativos. En el caso de la estadística inferencial el investigador se encuentra con dos tipos de técnicas. Por un lado las técnicas paramétricas que suponen una serie de supuestos acerca de la naturaleza de la población de la que se extrajo la muestra de estudio. Por otro lado, las técnicas no paramétricas, que no requieren supuestos sobre las características de la población y que se facilitan más para el análisis de datos nominales y ordinales. Las ventajas de las técnicas paramétricas es que son más potentes que las no paramétricas y por consiguiente las inferencias que se realizan son más fiables. El inconveniente es que el investigador no siempre pue- de cumplir con los requisitos y supuestos que exige el enfoque paramétrico, sobre todo en investigaciones educativas y sociales. La ventaja de las técnicas no paramétricas es que son fáciles de utili- zar y algunas son tan potentes como las paramétricas. El análisis de datos cualitativos ha generado técnicas propias, que ac- tualmente constituyen toda una metodología específica que viene marcada por la propia idiosincrasia cualitativa y que toma determinadas opciones en relación a las unidades de registro de los datos y la forma de tratarlos.
  • 81. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 81 Actualmente existe interés por sistematizar estos procedimientos, sin embargo esta tarea es difícil debido al carácter abierto y flexible de la me- todología, los diversos enfoques, y la variedad de objetivos científicos que puede cubrir. Una de las maneras de realizar estimaciones es con las pruebas de hipótesis referentes a sus valores. En muchos aspectos el procedimiento formal para la prueba de hipó- tesis es similar al método científico. 5.1 La prueba de hipótesis Ya el investigador, desde el momento en que identifica y delimita el pro- blema que va a investigar, ha aclarado los elementos conceptuales y las hipótesis o modelos que tiene que probar. En las etapas complicadas con la generación de los instrumentos, con la recolección de la información y con la codificación de la misma, estas hipótesis se aclaran mucho más y en algunos casos, toman características cuantitativas, permitiendo la apli- cación de técnicas estadísticas, para probar su relevancia en cuanto a su capacidad para generalizar el fenómeno, o la relación entre fenómenos, a poblaciones mayores, o para tomar decisiones en relación con tales fenó- menos. En esta parte distinguiremos la lógica del proceso para probar una hi- pótesis y aplicaremos en casos determinados la prueba Z, la prueba T y la prueba de significación entre muestras, para ilustrar el proceso de prueba de hipótesis. La lógica de la prueba de hipótesis En el proceso de la estadística inferencial, hay dos tipos de hipótesis claves: una es la hipótesis de investigación (H 1), que simplemente señala la existencia de un hecho o de un evento, o la relación entre dos o más fenómenos. La otra es la hipótesis nula (H0) que se construye artificialmente para que el investigador evalúe su hipótesis de investigación. Si la hipótesis de investigación afirma que existe una relación entre dos o más fenómenos, la hipótesis nula (H0) plantea que no existe relación entre los dos fenómenos.
  • 82. 82 SERIE: APRENDER A INVESTIGAR Es decir, se utiliza esta última como un modelo para probar la hipótesis de investigación, o sea, probar su veracidad o su falsedad. Para probar una hipótesis, se necesita: 1° La existencia o planteamiento de la misma. 2° Que se anticipen los eventos que pueden resultar a partir de la observa- ción o experimentación. 3° Que se especifiquen las condiciones bajo las cuales la hipótesis se puede rechazar o aceptar. 4° Que se haga el experimento y la observación y que se analice el evento o resultado. 5° Que se tome la decisión de rechazar o aceptar la hipótesis. Esto implica que, aunque se tiene que observar o experimentar, todas las suposiciones se hacen antes de las mismas observaciones o experimentos. Es decir, el investigador predice y luego bajo las reglas del juego de su predic- ción evalúa en relación con los resultados. Si éstos no son consistentes con lo que se predijo, se rechaza la hipótesis. Con un ejemplo podemos ilustrar la naturaleza de la prueba de hipótesis. Supongamos que se está probando una nueva semilla para resolver proble- mas de productividad en una región determinada. La hipótesis de la investiga- ción sería que la media aritmética por fanegada es mayor de 519 arrobas, que es el tradicionalmente observado en esa región. Para verificar la hipótesis tenemos que completar los cinco pasos siguientes: 1° Aclarar la hipótesis de investigación H1 y crear la hipótesis nula H0. 2° Obtener la distribución del muestreo. 3° Seleccionar un nivel de significancia y una región de rechazo. 4° Hacer la prueba estadística. 5° Comparar y concluir.
  • 83. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 83 Punto 1 El paso uno se define en el enunciado del problema. Para que sea verifica- da HI, el proceso a seguir es contradecir a H0, es decir, hay que contradecir que la media aritmética es igual o menor a 519. Entonces las dos hipótesis se representan así: H1: X > 519 H0: X < 519 Con lo anterior, lo que se está diciendo es que, si encontramos que el promedio de producción por fanegada es de 519 arrobas o menos, tendre- mos que concluir que nuestra hipótesis inicial H1, tendrá que ser modificada y por lo tanto, la nueva semilla, por lo menos en cuanto a su productividad, no es competitiva con las tradicionalmente utilizadas. Punto 2 Una vez aclaradas las suposiciones del punto 1, acerca de H1 y H0, por medio de un razonamiento matemático podemos obtener la distribución de muestreo, o sea, la distribución de todos los posibles valores que una estadís- tica puede tener, con base en un muestreo probabilístico de un universo. Esta distribución nos dice, entonces, qué probabilidad hay de obtener cada uno de los resultados. Dependiendo del tamaño de las muestras, las distribuciones de muestreo tienden a tomar una distribución normal y por ello no es necesario calcularlas. Un teorema importante, que es una aplicación de la distribución normal, conocido como el teorema del Límite Central, dice que si en una población de tamaño N, con una media de µ y una varianza de S2 se obtienen mues- tras al azar, la distribución de las medias de las muestras seleccionadas será normal -y más lo será en la medida en que se incremento el número de muestras seleccionadas- y tendrá una media de Y y varianza S2/N. El teorema garantiza que la media de una muestra puede estar muy cer- cana al de la población, en la medida en que tenga un tamaño n grande, ya que la varianza de la distribución de las medias muestrales S2/N, se hace más pequeña en la medida en que aumenta el tamaño n. La desviación estándar de la distribución de las medias de la muestra se denomina como el error estándar: S/ /N
  • 84. 84 SERIE: APRENDER A INVESTIGAR Punto 3 A partir de la información obtenida, el investigador puede escoger resulta- dos que permitan aceptar o rechazar sus supuestos. Posteriormente, los re- sultados identificados para rechazar la suposición se llaman de región crítica, dividiendo así los resultados en los que sirven para rechazar y los que sirven para aceptar la hipótesis nula, sabiendo que estos sectores están relaciona- dos con errores de tipo α y β. Una vez aclaradas la H1 y H0, obtenemos aleatoriamente una muestra de la producción por fanegada de la semilla probada en la región. Calculamos la media aritmética y la desviación estándar de los datos de la muestra, información ésta que nos permite hacer la prueba estadística. Si calculamos x, sabemos que la distribución de muestreo de x, supo- niendo que H0 es cierto, es bastante aproximada a una distribución normal con un µ = 519. Valores de x, que contradicen H0 y por lo tanto validan a H1, serán aque- llos que se encuentran en la región de la cola derecha de la distribución, como lo señala la figura 11. Estos valores contradictorios generan la re- gión de rechazo, es decir, si el valor observado de x cae en la región de rechazo, descartamos H0 y aprobamos H1. Observemos que se verifica H1 contradiciendo H0. Por lo tanto si x cae en la región de aceptación de la figura 11, aceptamos H0 y no podemos verificar H1. Esta es la etapa de comparación con la región de rechazo. Gráfica 11. Suponiendo que H0 es verdadera, los valores contradictorios de X están en la cola superior.
  • 85. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 85 Hay posibilidad de cometer dos tipos de errores al probar la hipótesis. Podemos, como en cualquier proceso de decisión entre dos escogencias, cometer el error de rechazar a H0 cuando en realidad es verdadera; error tipo l ó α; o podemos aceptar H0 cuando en realidad es falsa; error tipo ll ó β. Y aunque es conveniente determinar la región de aceptación y de rechazo, minimizando tanto el error tipo α como el error tipo β, esto no es imposible porque están inversamente relacionadas, es decir, para una muestra de tamaño η, cuando se cambia la región de rechazo para incrementar el error α, el error β disminuye y viceversa. Para resolver este problema, la comunidad de científicos ha decidido que se debe trabajar con la probabilidad de cometer error tipo l ó α y la espe- cificación del valor para el error tipo α determina la región de rechazo. ¿Cómo se hace? Volviendo a nuestro ejemplo, sabemos que rechazamos H0 si obtenemos grandes valores de x. Si tenemos una muestra de 36 terrenos de una fanegada, como mues- tra del estudio y si la media aritmética es x = 573 y la desviación estándar es S = 124 la pregunta clave sobre la cual tenemos que tomar una deci- sión es si el x para toda la región es mayor que 519. Para concluir, decidimos el valor del error αcon el cual queremos traba- jar; siempre sabemos que hay la posibilidad de cometer un error. Si en este caso queremos correr el riesgo de equivocarnos 1 de cada 40 decisiones, es decir de rechazar incorrectamente H0 entonces α = 1/40 = 0.025 Como suponemos que H 0 es verdadera, x está distribuida normalmen- te y tiene µ = 51 9 y una desviación estándar de: S 124 20.67 = = √ N √36 Punto 4 Supongamos que en la figura 11 la región rayada sea la equivalente a la de un α = 0,025. Para calcular el punto de rechazo, se tiene que calcular el valor de Z, que tiene un área de 0.025 a su derecha. En la tabla de áreas bajo la curva normal vemos que el valor correspondiente es de 1.96, por lo que lo designaremos como el límite para la región de rechazo y si el valor observado de x es mayor que 1.96, desviaciones estándar arriba de µ= 159, se rechaza la hipótesis nula.
  • 86. 86 SERIE: APRENDER A INVESTIGAR Cuando el valor de x es igual a 573 y el de S es igual a 124, el valor de Z normalizado es: x-µ 573 - 519 54 Z = = = = 2.61 S 124 20.67 √N √ 36 Punto 5 El último paso es comparar el valor obtenido con el dispuesto como rechazo, ya que x encontrado está a más de 1.96 unidades de desviación estándar arriba del µ = 519, rechazamos H0 en favor de H1 y concluimos que la productividad de la nueva variedad de semilla es significativamente mayor que 519. 5.2 Pruebas de significancia de muestras únicas o simples Cuando se quiere probar hipótesis a partir de una muestra única, se pueden utilizar varias pruebas de significancia de hipótesis. En estudios en ciencias naturales y ciencias sociales es muy frecuente este tipo de situaciones y las técnicas utilizadas más frecuentemente son la prueba Z, y la prueba t frecuentemente llamada t de Student. 5.2.1 Prueba Z Normalmente se utiliza cuando se conoce el parámetro de la pobla- ción. Ilustremos su uso con el siguiente ejemplo hipotético: En una institución de enseñanza media se presenta una deserción que los directores consideran muy alta y pensaron que con un programa de consejería, podrían controlarla, con la hipótesis de que cuanta más guía personal, mayor sería la probabilidad de continuar exitosamente en la institución. Se generó una consejería y al cabo de un año se recopiló infor- mación sobre el número de veces que cada estudiante tuvo contacto for- mal con un consejero. La media aritmética para el total de estudiantes fue de 12.1 visitas al año, con una desviación estándar de 3.21. Meses después se hizo una muestra aleatoria simple de 40 estudian- tes desertores y a partir de los datos obtenidos con la recopilación de in- formación, se les calculó una media aritmética de 9.11. Al ver que era más baja que el resto de la población, los directores se hicieron la siguiente pre-
  • 87. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 87 gunta. ¿Es el número de visitas de los desertores significativamente más bajo que el de la población estudiantil? Supongamos la hipótesis de la investigación H 1: x < µ y la hipótesis nula H0: x > µ, decidimos utilizar un nivel del 0.01 de significancia, la muestra, como vimos, es probabilística. Para probar la hipótesis calculamos el puntaje Z, normalizado como habíamos visto así: x-µ 9.11 - 12.1 -2.99 Z = = = = -5.86 S 3.21 3.21 √N √ 40 6.32 El signo es indiferente al resultado, porque estamos trabajando con áreas, por lo tanto Z = 5.86. En la tabla de áreas bajo la curva normal, vemos que para que el x sea significativamente distinto de µ = 12.1, se necesita una Z = 2.33 o mayor; como el Z obtenido es mayor, se rechaza H 0 y se acepta H1, ya que: 0.5000 - 0.0100 = 0.4900 Entonces Z = 2.33 Concluimos que los estudiantes desertores tienen un número de con- tactos significativamente inferior al resto de la población estudiantil. 5.2.2 Distribución t de Student En los casos en que no se conoce el parámetro poblacional, depen- demos únicamente de las estadísticas de las muestras y utilizamos la Prueba t. Cuando n > 30 (muestra grande) la desviación estándar simbolizada por s, se le considera como un buen estimador de la desviación estándar poblacional, debido a que existe una mayor probabilidad de que los valores extremos que toma la variable, queden incluidos en el cálculo de la va- rianza para la muestra, tal como ocurre en el cálculo de la varianza pobla- cional. Siendo, s = S, la fórmula para obtener s será:
  • 88. 88 SERIE: APRENDER A INVESTIGAR s= ^ Σ (x - x) 2 n Para n < 30 (muestra pequeña) la desviación estándar se simboliza por s, cuando no se ha efectuado ninguna corrección. Se considera que, s, por lo general, es mejor que S, debido a la menor probabilidad de que se incluyan los valores extremos de la variable. Por tanto, se hace nece- sario efectuar algunas correcciones en el cálculo: a. Cuando se da la desviación estándar sin corregir: s= ^ Σ (x - x) 2 n n n-1 b. Cuando se desea corregirla directamente s= ^ Σ (x - x) 2 n-1 En la distribución de t Student, se considera que las curvas son simé- tricas, pero algo más achatadas y más abiertas en los extremos, los cua- les corresponden a regiones críticas. A medida en que el tamaño de la muestra se hace más grande, más se acerca a la normal. La función dada para este tipo de distribución es: v+1 – 2 2 t Y = C 1+ v donde v corresponde a los grados de libertad, número que depende de n; C es una constante que depende de v y es calculada en tal forma que el área bajo la curva sea igual a 1. Grados de libertad Corresponden al número máximo de variables que puedan asignarse libremente, antes de que el resto de las variables queden completamente determinadas.
  • 89. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 89 Las variantes estadísticas para el cálculo de t son: a) En las distribuciones muestrales donde n < 30, la fórmula es: x-µ t= s ^ n-1 también puede escribirse en la siguiente forma x-µ t= s n donde s se obtiene corrigiéndola así: s= s ^ n ó s= Σ (x - x) 2 n-1 n-1 b) En las distribuciones de medias muestrales se tiene: (X - Y)2 – (µx - µy) t= sx-y siendo s2= Σ (X - X) 2 + Σ (Y - Y)2 n1+n2-2 sx-y = s s2 2 + n 1 n2 En la determinación de los puntos críticos, t i (inferior) y ts (superior), se utiliza la tabla t de Student. En primer lugar se fija el nivel de significación, por ejemplo, α = 0.05, luego se calculan los grados de libertad, siendo en distribuciones muestrales v = n - 1, en diferencias de medidas muestrales: v= ni + n2 - 2. Si la prueba es bilateral, se tomará el 5% para cada una de
  • 90. 90 SERIE: APRENDER A INVESTIGAR las regiones críticas y si es unilateral se tomará el doble del nivel de significancia asignado; en este caso, será 0. 1 0. Ejemplos: 1. Una muestra de 25 observaciones tiene una media de 42.0 y una des- viación estándar de 8. Trabajando con un nivel de significancia del 1%. Existe razón para rechazar la hipótesis de que la media de la pobla- ción es de 46.0. a. H 1: µx K46 H 0: µ = 46 b. α = 0.01 Gráfica 12. c. s=8 ^ 25 s= 8 = 8(1.021) = 8.17 25 - 1 42 - 46 -4 t = t = = -2.45 8.17 1.63 √25 V = 25-1; α = 0.01; corresponde a una t = 2.7969
  • 91. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 91 Como el valor de t = -2.45 queda en la región de aceptación, se acepta la hipótesis de que µ = 46, es decir no existe razón para rechazar que la media de la población es 46. 2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferen- tes, para determinar el contenido de nicotina y obtiene los siguientes resultados, en miligramos. Marca A: 24 26 25 22 23 Marca B: 27 28 25 29 26 ¿Los resultados anteriores, señalan que existe una diferencia en el contenido medio de nicotina en ambas marcas? Solución: a) HI: µx K µy H O: µ x = µ y b) = 0.05 c) sx-y =1 Siendo: s= Σ (X - X) 2 + Σ (Y - Y)2 n1+n2-2 sx-y = s s2 2 + n 1 n2 Tabla 11. Resultado de las dos marcas de cigarrillos para determinar el contenido de nicotina X y x-x (x - x)2 y-y (y - y)2 24 27 0 0 0 0 26 28 2 4 1 1 25 25 1 1 -2 4 22 29 -2 4 2 4 23 26 -1 1 -1 1 120 135 0 10 0 10
  • 92. 92 SERIE: APRENDER A INVESTIGAR 120 135 X = = 24 Y = = 27 5 5 10 + 10 20 s= = = 2.5 5+5-2 8 s = 1.6 s2 = 2.5 2.5 2.5 sx-y = + = 1 =1 5 5 d) t = (24 - 27) - 0 = –3 = –3 1 1 e) v = n1 + n2-2 v=5+5-2 v=8 Gráfica 13. f) Los resultados anteriores señalan que existe una diferencia significati- va en el contenido medio de nicotina en ambas marcas. Véase gráfica 13. 5.2.3 Distribución Chi Cuadrado: χ2 La distribución normal se utiliza en todos aquellos casos que ofrecen dos resultados posibles; cuando se presentan más de dos resultados posi- bles, debe aplicarse la prueba chi cuadrado que se simboliza así: χ2. Un ejemplo típico de distribución lo constituye el lanzamiento de una moneda con posibilidades de que aparezca cara o sello. Uno de χ2 consiste en el lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.
  • 93. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 93 El Chi cuadrado es la suma de las fracciones que tienen por numerador el cuadrado de las diferencias entre las frecuencias reales u observadas y las frecuencias esperadas o teóricas y por denominador la frecuencia es- perada. (ni - n*)2 χ2 = Σ n* i i en donde ni frecuencia observada o real n*i frecuencia teórica o esperada Se puede observar en la fórmula, que mientras mayor sea la coinciden- cia entre las frecuencias observadas y las esperadas, menor será el valor de χ2. Si χ2 = 0 significa concordancia entre las frecuencias observadas y las esperadas. Ejemplo: Supongamos que se lanza un dado 60 veces. Se sabe que las fre- cuencias teóricas, para este caso son de 10 veces cada cara y las fre- cuencias reales son los resultados del lanzamiento. ¿La base de un nivel de significancia del 5%, permite suponer que el dado no es perfecto? Solución: El problema da las frecuencias reales nt, para cada cara, como se ve en la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabi- lidad de cada suceso por n (número de lanzamientos). Véase gráfica 14. Tabla 12. Frecuencia en el lanzamiento de un dado 60 veces Caras ni ni* n i - n i* (ni - n i*)2 (ni - n*)2 i n*i 1 7 10 -3 9 0.9 2 14 10 4 16 1.6 3 8 10 -2 4 0.4 4 5 10 -5 25 2.5 5 16 10 6 36 3.6 6 10 10 0 0 0 Σ 60 60 0 - 9.0
  • 94. 94 SERIE: APRENDER A INVESTIGAR n*i= np1= 60 ( ) 1 6 = 60 6 =10 y así se obtienen las demás frecuencias teó- ricas. Se realiza la prueba teniendo en cuenta los siguientes pasos: 1) HI: ni K n*i H I: ni K n*i 2) α = 0.05 (ni - n*i)2 3) χ = Σ 2 = 9.0 n*i 4) V = n - 1 = 6 - 1 = 5... χ20.05 = 11.07 Gráfica 14. En la tabla de distribución de χ2, encontramos que 11.07 es el valor crítico. 5) χ2 < χ20.05 , es decir 9 < 11.07, por lo tanto se acepta la hipótesis de que la diferencia no es significativa. En otras palabras podemos afirmar que a un nivel del 5%, las diferencias que presentan las frecuencias reales, con relación a las frecuencias teóricas no nos da base para afirmar que el dado está cargado.
  • 95. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 95 PRUEBAS DE HIPÓTESIS - AUTOEVALUACIÓN N° 5 1. ¿La hipótesis de investigación es exactamente lo mismo que la hipótesis nula? Sí _____ No _____ 2. Si una hipótesis de investigación es que dos poblaciones tienen iguales medias aritméticas, ¿cuál es la hipótesis nula? a. Que en efecto tienen iguales medias aritméticas ____ b. Que las dos poblaciones tienen distintas medias aritméticas ____ c. Que las medias aritméticas pueden ser iguales o distintas ____ d. Para poder definirla hay que conocer la desviación estándar ____ 3. ¿Una distribución de muestreo es lo mismo que una distribución de una muestra? Sí _____ No _____ ¿Por qué? ___________________________________________________ ___________________________________________________ 4. El nivel de significancia es: a. Lo mismo que el nivel de precisión _____ b. La región crítica de una curva normal _____ c. Una probabilidad _____ d. El error alfa α _____ e. La exactitud con que se predicen los parámetros _____ 5. El valor crítico de un puntaje Z para una prueba de una cola, al nivel de significancia 0.05 es: ________
  • 96. 96 SERIE: APRENDER A INVESTIGAR 6. ¿A partir de una muestra de obreros en una fábrica, se puede inferir a cerca de las características de esa fábrica? a. No _____ b. Sólo si uso una prueba Z _____ c. Sólo si uso una prueba t _____ d. Si se usa una prueba Z o prueba t _____ 7. ¿La prueba t se prefiere a la prueba Z cuando no se conocen los parámetros del universo? Sí _____ No _____ 8. Los salarios diarios de una industria están distribuidos normal- mente con una media de $132 y una desviación estándar de $25. Si una empresa de dicha industria, que cuenta con 40 obreros paga en promedio $122, puede acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del 1%? Sí _____ No _____ Desarrollo: _________________________________________ ___________________________________________________ ___________________________________________________ 9. Una hipótesis dice que el estudiante promedio de la universidad colombiana tiene un coeficiente de inteligencia mayor que el resto de la población. Escriba una hipótesis de investigación y una hipótesis nula, con un coeficiente de inteligencia que al estan- darizarse tiene una X = 100 Hipótesis de investigación: ______________________________ Hipótesis nula: ________________________________________ 10. Un fabricante de ciertas piezas de proyectiles sostiene que en condiciones normales de reparación, tienen una duración media µ=320 horas. Probar esta afirmación frente a la alternativa µ K320, si 16 piezas duran un promedio de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia del 5%.
  • 97. 1. No, es lo contrario. 2. b 3. No. La distribución de una muestra son las características que tienen los datos a partir de una muestra. La distribución de un muestreo es la distribución de una mues- tra de medias a partir de muestras. 4. c 5. 1.96 6. d 7. Sí 122 – 132 8. Z = = –2.53 cae en la región de rechazo. Se puede 25 √40 acusar a la compañía de pagar salarios inferiores al nivel del 1% 9. Hipótesis de investigación: H 1= x >100 Hipótesis nula: H0=x≤100 308 – 320 10. t = = –1.60 cae en la zona de aceptación, o sea, que 29 √15 la duración promedio es de 320, a un nivel significativo del 5%. 11. Sí, porque χ2 = 4.518 y cae en la zona de aceptación y se puede considerar el dado perfecto. RESPUESTAS A LA AUTOEVALUACIÓN N° 5 Explique. No _____ Sí _____ ficancia? ¿Puede considerarse el dado perfecto al nivel del 1% de signi- 16 13 22 20 17 12 ni 6 5 4 3 2 1 Cara A tados: 11. Un dado se lanza 100 veces y se obtienen los siguientes resul- 97 MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN
  • 98. 98 SERIE: APRENDER A INVESTIGAR 6. REGRESIÓN Y CORRELACIÓN 6.1 Introducción a la bidimensional En esta parte examinaremos la relación entre variables, medidas en es- calas de intervalo o de razón. Pero ya no sólo queremos comparar, ahora queremos entender qué tipo de conexión hay entre las variables, por inter- medio de la relación que existe entre ellas, e ir más allá entendiendo la naturaleza de la relación entre las variables. En las distribuciones bidimensionales se consideran dos variables en forma simultánea, determinándose si tienen alguna relación funcional entre sí; aún más, cuantificando dicha relación. Estas variables pueden ser am- bas discretas, ambas continuas, o una discreta y otra continua. Llamaremos Xi a la primera variable, donde i toma todos los valores desde 1 hasta n. Así tendremos X1, X2, X3, ... Xn; Yi se considerará como la segunda variable, donde i toma los valores desde 1 hasta n. Se tendrán tantos valores de X como valores de Y, es decir, se tomarán siempre pares de observaciones. Tabla. Valores de X y Y Xi Yi Xi Yi Xi2 Yi2 XY X1 Y1 6 3 36 9 18 X2 Y2 10 4 100 16 40 X3 Y3 14 8 196 64 112 X4 Y4 20 12 400 144 240 27 18 729 324 486 33 25 1.089 625 825 Xn Yn 110 70 2.550 1.182 1.721 Para cada variable se podrá calcular la media aritmética, la varianza y la desviación estándar, usando los datos no agrupados. X = Σ Xi = 110 = 18.33 N 6 Y = Σ Yi = 70 = 11.67 n 6
  • 99. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 99 S2 = Σ X2 i – X2 = 2.550 – (18.33)2 = 89.01 x n 5 S2 = Σ Y2 i – Y2 = 1.182 – (11.66)2 = 61.04 y n 6 Sy= √Sy 2 = √89.01 = 9.44 Sy= √Sy 2 = √61.04 = 7.81 La covarianza es una medida de dispersión que representa el grado de variabilidad conjunta entre Xi y Yi. Su símbolo es mxy ó myx. Se define como la media del producto de las desviaciones respecto a las medias aritméti- cas. Entonces se puede calcular la covarianza por la siguiente fórmula: mxy = Σ XY – X• Y n Tomando los datos de la tabla anterior podemos calcular la covarianza así: 1.721 mxy = = – (18.33)(11.67) 6 mxy = 286.83 – 213.91 mxy = 72.92 Los datos de la distribución bidimensional anteriormente dada puede representarse gráficamente en un par de ejes de coordenadas, tomando el eje de la abscisas para la primera variable (Xi) y el eje vertical para los valores de la segunda variable (Yi).
  • 100. 100 SERIE: APRENDER A INVESTIGAR En un plano cartesiano se presentan tantos datos como puntos pares de observaciones se tengan, correspondiendo cada punto a un par de ob- servaciones. A esta representación gráfica se le denomina indistintamen- te diagrama de desparramiento, de esparcimiento o nube de puntos. Gráfica 15. Nube de puntos El problema consiste ahora en unir varios puntos de ese conjunto o nube de puntos, mediante un ajuste, ya sea rectilíneo, parabólico, expo- nencial o de cualquier otro tipo de línea que represente al conjunto. En algunos casos esos puntos estarán condensados al rededor de la línea, en otros presentarán diferencias; en este último caso, se pueden producir grandes errores, como consecuencia de que el ajuste realizado no es el más indicado. El tipo de línea que se relaciona, dependerá de la forma que asuma el conjunto de puntos, al hacer la respectiva gráfica. También valiéndose de la experiencia del estadístico se puede determinar el mejor ajuste. En la exponencial, es muy sencilla la identificación, basta que la variable muestre un crecimiento geométrico, como por ejemplo, la población, el producto bruto, etc. En general, se dice que la curva que hace mínima la suma de los cua- drados de las desviaciones entre puntos dados, dicha línea es la mejor.
  • 101. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 101 6.2 Ajuste de una recta de regresión rectilíneo simple Supóngase que se desea ajustar una recta, para ello sabemos que la ecuación general de la recta es: Y = a + bx, X = a + by donde X, en la primera ecuación y Y en la segunda es la variable que se supone conocida, llamada variable independiente. Ahora, Y y X en una segunda ecuación corresponde a la variable que se va a estimar, conoci- da con el nombre de variable dependiente. a. es el coeficiente de posición, denominado también origen, o sea, es la altura de la perpendicular levantada en el punto de origen. Véase gráfica 16. El coeficiente de posición puede ser mayor, menor o igual a cero. a) a>0 b) a=0 c) a<0 Gráfica 16. En el primer caso será un punto por encima del origen, en el segundo pasará por el origen y en el tercero estará por debajo del origen. b. Es el coeficiente angular, el cual nos determina los crecimientos o la cantidad que aumenta en Y, por cada unidad que aumenta X y se deno- mina como pendiente. El coeficiente angular puede ser:
  • 102. 102 SERIE: APRENDER A INVESTIGAR a) b>0 b) b<0 c) b<0 Gráfica 17. Coeficiente angular b. Gráfica 18. Posición de a y b. Si b es un valor mayor que cero, es decir positivo, nos indicará que la recta es ascendente; si b es menor que cero, la recta será descendente y si es igual a cero, la recta es paralela al eje horizontal o vertical. Cuando se tiene la ecuación Y = a + bx, se dice en este caso que se está estimando a Y en función de X. Para la ecuación X = a + by, decimos que estimamos a X en función de Y El problema, ahora, consiste en calcular los parámetros a y b. Partiendo de las ecuaciones normales de los mínimos cuadrados, se pueden calcular estos parámetros.
  • 103. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 103 Las ecuaciones normales para los mínimos cuadrados son: 1) Σ Y = Na + bΣ X 2) Σ XY = aΣ X + bΣ X2 Tomaremos los datos de la distribución bidimensional de la tabla y reem- plazando en estas ecuaciones se tiene: 1) 70 = 6a + 110b 2) 1.721 = 110a + 2.550b Por sustitución, eliminamos a y calculamos el valor de b así, multipli- camos los valores de la ecuación (1) por -110 y los de la ecuación (2) por 6 y se resta de la primera. 1) -7.700 = -660a - 12.100b 2) 10.326 = 660a + 15.300b 2.626 = 3.200b 2.626 b = = 0.82 3.200 Reemplazamos el valor calculado de b en la ecuación (1) así: 1) 70 = 6a+110(0.82) 70 = 6a + 90.2 70 – 90.2 a = 6 a = -3.37 Reemplazando en la ecuación general de la recta, Y = a + bx, se tiene: Y = 3.37 + 0.82x cuando se quiere estimar X en función de Y, se procede de la siguiente forma: X = a + by
  • 104. 104 SERIE: APRENDER A INVESTIGAR Las ecuaciones normales para el cálculo de los parámetros a y b son: 1) Σ X = Na + bΣ Y 2) Σ XY.= aΣ Y + bΣ Y2 1) 110 = 6a + 70b 2) 1.721 = 70a + 1.128b Multiplicando (1) por -70 y (2) por 6 y luego restamos de la primera: 1) -7.700 = -420a - 4.900b 2) 10.326 = 420a + 7.092b 2.626 = 2.192b 2.626 b = = 1.20 2.192 Reemplazando este valor en la ecuación (1) se tiene el valor de a 1) 110 = 6a+70(1.20) 110 = 6a+84 100 – 84 a = 6 100 – 84 a = 6 Reemplazando en la ecuación general de la recta X = a + by, se tiene: X = 4.33 + 1.20y 6.3 Correlación En la práctica algunas de las variables que medimos en los procesos de investigación, tienen un nivel de medición intervalo o de razón y para re- solver problemas con estos niveles existen unas técnicas diferentes a las que hasta ahora hemos visto.
  • 105. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 105 Cuando tenemos mediciones realizadas con escalas intervalos o de razón, la mejor medida paramétrica de asociación es la relación de Pearson (r), también conocida como la relación Producto-Momento. Para hacer una correcta interpretación del coeficiente, se tienen que hacer dos supo- siciones. 1. Se supone que la relación es lineal. 2. Que la distribución de las variables asociadas tiende a ser normal. Es importante entender que una correlación entre dos variables produce un número que resume la naturaleza de la asociación entre las variables. En el caso de la correlación de Pearson, ese número (r) toma valores desde -1 hasta +1, pasando por cero, cuando hay relación entre las varia- bles. Si la relación tiende a ser inversa, se aproximará a -1, en la medida en que sea perfecta y por el otro lado, si la correlación tiende a ser directa, se acercará a +1. No sólo sirve para indicar si hay o no relación, sino para indicar la fuerza de la misma y también para compararla con las otras variables. Una forma adecuada para ilustrar la naturaleza de r, se muestra en la figura 19. Aquí se presentan 6 tipos de relaciones entre las dos variables X y Y. Cada punto en los cuadrantes representa los valores de X, y Y toma un elemento de la muestra o población analizada. En la gráfica A, se ve claramente una nube de puntos dispersos, casi que aleatoriamente distribuidos. Cuando esto sucede no existe ninguna relación directa entre las dos variables, es decir r es igual o tiende a cero (r ≅ 0). En la gráfica B, vemos que existe una tendencia. A mayores valores de X parecen estar asociados mayores valores de Y, por lo tanto, existe una relación directa entre las dos variables. Es decir r>0. En la gráfica C, vemos que también hay una tendencia, pero en este caso indicando que a valores pequeños de X corresponden valores gran- des de Y y a valores grandes de X corresponden valores pequeños de Y. O sea, hay una relación inversa entre las dos variables r<0. En la gráfica D, vemos que hay una correlación no lineal entre las dos variables. En el rango de valores bajos y altos de X corresponden valores bajos de Y y en el rango de valores intermedios de X corresponden valores altos de Y. Aunque r ≅ 0, no podemos decir que no hay relación entre las
  • 106. 106 SERIE: APRENDER A INVESTIGAR dos variables, sólo que la relación es curvilínea y por lo tanto requiere de un tratamiento particular. Gráfica 19. Ejemplos para entender la interpretación de r. Los dos últimos gráficos E y F sirven para ilustrar una situación que suele presentarse durante una investigación. En el caso E, vemos que la mayoría de los elementos analizados, pa- recen indicar la no existencia de relación entre las dos variables, pero hay unos pocos casos donde altos valores de X tienen a los valores de Y. En el caso F, se presenta lo contrario, la mayoría de las observaciones analizadas indican una relación positiva entre X y Y, pero unos pocos ca- sos la distorsionan, ya que rompen la tendencia. Estos ejemplos, muestran la utilidad de hacer uso de histogramas y de las distribuciones de las frecuencias obtenidas, para no cometer errores. Por ejemplo, concluir que no hay relación en el caso del gráfico D, cuando
  • 107. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 107 en realidad hay una no lineal; o decir que hay relación positiva en el gráfico E, o que no existe relación en el gráfico D, cuando en realidad es lo con- trario. En estos dos últimos casos, lo recomendable es retirar los elementos distorsionadores, o completar una mayor información, por si en realidad lo sugerido por los casos extremos es la tendencia real, o por último, revisar los procesos de recolección, codificación o sistematización de la informa- ción, donde se pudo haber cometido algún error. 6.4 Coeficiente de correlación Nos permite cuantificar el grado de correlación existente entre las va- riables X y Y. Hay dos maneras de calcular el coeficiente de correlación, una aritmé- tica y otra por medio de álgebra de matrices. Hagamos un ejercicio aritmético: Supongamos que queremos medir la asociación que existe entre inno- vación tecnológica y producción, en 11 empresas que elaboraron un mis- mo producto. En la tabla 12 se presenta la información obtenida en visitas realizadas a 11 industrias. Tabla 12. Ejemplo para calcular r Empresa Nivel Producción X2 Y2 XY tecnológico X y 1 44 20 1.936 400 880 2 62 19 3.844 361 1.178 3 30 15 900 225 450 4 50 21 2.500 441 1.050 5 28 13 784 169 364 6 34 15 1.156 225 510 7 49 17 2.401 289 833 8 54 17 2.916 289 918 9 72 22 5.184 484 1.584 10 66 21 4.356 441 1.386 11 27 14 729 196 378 N=11 X=516 Y=194 X2= 26.706 Y2=3.520 XY = 9.531
  • 108. 108 SERIE: APRENDER A INVESTIGAR Una fórmula para calcular r es: NΣ XY – (Σ X)(Σ Y) r = NΣ X – (Σ X)2 NΣ Y2 – (Σ Y)2 2 Sustituyendo tenemos: (11)(9.531) – (516)(194) r = 11(26.706)–(516)2 11(3.520)–(194)2 4.737 r = 29.820.840 r = 0,867 Como correlaciones cercanas a 1 son altas e indican una asociación positiva, concluimos que hay una alta asociación entre la tecnología utili- zada y la producción en el tipo de industria estudiadas. El grado de correlación lo podemos clasificar evitando un tanto la rigi- dez de sus límites: a. Correlación perfecta, cuando r=1 (o menos de 1). b. Correlación excelente, cuando r es mayor que 0.90 y menor que 1, ó (-1<Y<-0.90). c. Correlación aceptable, cuando r se encuentra entre 0.80 y 0.90 ó (-090<r<-080). d. Correlación regular, cuando r se encuentra entre 0.60 y 0.80 (-080<r<-0.60). e. Correlación mínima, cuando r se encuentra entre 0.30 y 0.60 (-0.60<r<-0.30). f. No hay correlación para r menor de 0.30 ó (-0.30<r<0)
  • 109. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 109 REGRESIÓN Y CORRELACIÓN - AUTOEVALUACIÓN N° 6 1. La fórmula Y = a + bx, ¿corresponde a la ecuación general de la recta? Sí _____ No _____ ¿Qué nombre recibe la variable X? __________________________ 2. ¿Qué nombre recibe a? ____________________________________ 3. ¿Qué nombre recibe b? ____________________________________ 4. Con base en los datos de la siguiente tabla de valores para X y Y, halle la recta de regresión por los mínimos cuadrados. Para Y=a+bx ____________________________________________________ Xi Yi ____________________________________________________ 13 5 14 7 8 9 10 8 15 11 ____________________________________________________ 60 40 ____________________________________________________ 5. Calcule el coeficiente de correlación, a partir de los datos de la siguiente tabla: ____________________________________________________ Xi Yi ____________________________________________________ 9 23 17 35 20 29 19 33 20 43 23 32 ____________________________________________________ 108 195 ____________________________________________________
  • 110. 1. Sí. Variable independiente. 2. Coeficiente de posición. 3. Coeficiente angular. 4. Y = -180.4 + 15.7x 5. r = 0.60 RESPUESTAS A LA AUTOEVALUACIÓN N° 6 SERIE: APRENDER A INVESTIGAR 110
  • 111. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 111 7. ANÁLISIS DE LA VARIANZA Del análisis de varianza, podemos decir que esta técnica estadística, normalmente es utilizada para analizar resultados en la investigación con diseños experimentales y cuasi experimentales. Muchas veces necesita- mos comparar dos o más distribuciones, que corresponden a variaciones de una misma variable dependiente, afectada por una o más variables independientes. Las variables independientes pueden ser medidas en cualquier tipo de escala, pero la variable dependiente debe ser medida, al menos, al nivel intervalo. Si las variables independientes son medidas al nivel intervalo o de razón, tendríamos un típico caso de análisis de regresión múltiple. Si queremos medir la importancia relativa de tres procesos en la cali- dad de un producto final utilizamos el análisis de varianza (ANOVA). En la tabla 13 tomamos unos datos hipotéticos para ilustrar su caso. Te- nemos tres grupos de 5 productos, seleccionados independientemente, al azar, con sus respectivos puntajes, en cuanto a su calidad; ésta, que es la variable dependiente, se midió por medio de una escala intervalo. Tabla 13. Datos para ilustrar el uso de Anova Método 1 Método2 Método 3 Total X X2 X X2 X X2 6 36 9 81 4 16 10 100 7 49 6 36 9 81 8 64 9 81 11 121 8 64 4 16 12 144 5 25 3 9 Σ 48 482 37 283 26 158 111 x 9.6 7.4 5.2 7.4 N 5 5 5 1.5 Supongamos que cada grupo sometido a un método de producción distinto, tiene varianzas iguales. Es decir, la hipótesis nula H 0, es que no
  • 112. 112 SERIE: APRENDER A INVESTIGAR hay diferencias en las medias aritméticas de los tres grupos. Suponga- mos que queremos analizar las observaciones a un nivel de significancia del 0.05 y ver si hay diferencias en la calidad por el método empleado. El cálculo de F, contra cuya distribución de muestreo se comparan los resul- tados, es el procedimiento a seguir. 1° Suma total de los cuadrados de los puntajes de los tres grupos así: (Σ X)2 Σ (X – X) = Σ X 2 2 – N (111)2 = (482 + 283 + 158) – 15 = 923 – 821.4 = 101.6 2° Suma de cuadrados entre columnas. Igual fórmula pero referida a cada uno de los tres grupos o métodos utilizados así: (48)2 Método 1 = 482 – = 482 – 460.8 = 21.2 5 (37)2 Método 2 = 283 – = 283 – 273.8 = 9.2 5 (26)2 22.8 Método 3 = 158 – = 158 – 135.2 = 5 Total 53.2 3° Suma de cuadrados entre columnas (grupos). Suma total del cuadrado = suma “dentro” + suma “entre” Suma “entre” = suma total - suma “dentro”. Suma “entre” = 101.6 - 53.2 Suma “entre” = 48.4
  • 113. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 113 4° Grados de libertad. Son los siguientes: Suma total = n-1 = 15-1=14 Suma “dentro” = K(N 1-1); donde K=número de grupos y N 1 tamaño de los grupos (5) = 3(5-1) = 12 Suma “entre” = K-1 = 3-1 =2 5° Cálculo para análisis de la varianza con el valor de F Suma de Grados de Estimación F Cuadrados libertad de la varianza Total 101.6 14 Entre columnas 48.4 2 24.20 Dentro de las 53.2 12 4.43 5.46 columnas La estimación de la varianza es la razón de la suma de cuadrados y los grados de libertad y F es igual a la razón de la estimación “entre” y la estimación “dentro”. 48.4 Varianza “entre” = = 24.2 2 24.2 F = = 5.46 4.43 53.2 Varianza “dentro” = = 4.43 12
  • 114. 114 SERIE: APRENDER A INVESTIGAR 6° Decisión En la tabla de distribución F vemos que con un nivel de significancia del 0.05 y con 2 y 12 grados de libertad, necesitamos un valor igual o ma- yor a 3.88 para poder rechazar H0. Como en efecto obtuvimos uno de 5.46, rechazamos H0 y concluimos que los métodos utilizados sí producen una diferencia significativa en la calidad del producto. ANÁLISIS DE VARIANZA - AUTOEVALUACIÓN N° 7 1. En una universidad se quiere probar el efecto que distintos méto- dos de enseñanza tienen, en los resultados de un curso dado. Tres métodos se proponen y se aplican a tres grupos, compues- tos de 14 estudiantes, cada grupo seleccionado aleatoriamente entre los alumnos del curso. Los resultados del examen final del semestre se presentan a continuación. Se puede concluir que los métodos producen un efecto diferencia. 52 27 16 49 36 14 34 34 23 52 32 21 14 41 29 41 33 20 34 25 28 42 19 27 33 28 17 39 22 12 51 25 40 43 14 28 39 22 18 43 27 21 2. La distribución que se utiliza para probar el nivel de significancia de un análisis de varianza es el χ2 Verdadero _____ Falso _____
  • 115. 1. Suma total = 5.112.4 2. Suma de cuadrados entre columnas: Método 1 = 1.309.4 Método 2 = 675.5 Método 3 = 715.4 Total 2.700.3 3. Suma de cuadrados entre columnas. Suma de cuadrados entre las columnas: 5.112.4 2.700.3 2.412.1 4. Grados de libertad. Suma total = 42-1 =41 Suma dentro = 3(14 - 1)39 Suma entre = 3-1 =2 5. Cálculo F Sumade Grados de Varianza F cuadrados libertad Total 5.112.40 41 Entre 2.412.10 2 1.206.10 Dentro 2.700.30 39 69.24 17.42 RESPUESTA A LA AUTOEVALUACIÓN N° 7 115 MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN
  • 116. Si se prueba con significancia del 0.01, esto implica que necesi- tamos un F al menos de 5.3, para rechazar H0 y aceptar que los métodos sí tienen efecto en el rendimiento académico de los es- tudiantes y como se obtiene un F=17.42, concluimos que sí tiene efectos. 2. Falso, es la distribución F. Comente los resultados de los 2 problemas. SERIE: APRENDER A INVESTIGAR 116
  • 117. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 117 8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO La necesidad de contar con una herramienta adecuada para la ense- ñanza e investigación estadística, conlleva a realizar un estudio detallado de los programas con mayor aplicación en estos campos, además se debe considerar para la implementación de éstos, los recursos físicos para un desempeño eficaz. El paquete estadístico SAS y SPSS cumplen con los requerimientos académicos debido a su manejo personalizado, cursos de actualización y asesoría continua, lo cual contribuye como soporte a la docencia y en gran parte al proceso educativo. 8.1 SAS Es un sistema que provee herramientas para la captura, administra- ción y análisis de datos. • Este software permite un total control sobre la información. • Permite accesar, administrar, analizar y presentar la información. • El SAS está conformado por los siguientes módulos: STAT Provee herramientas para el análisis estadístico avanzado. Sirve para administrar la información como: – Almacenamiento y recuperación de información. – Programación y modificación de datos. – Reportes. – Análisis estadístico.
  • 118. 118 SERIE: APRENDER A INVESTIGAR SAS/STAR PROCEDURES Regression Analysis Multivariante Survial Clustering Scoring Categorical Discriminant Of Variance NLIN CANCORR Analysis ACLACUS CADMOD CANDISC ANOVA- SCORE ORTHOREG FACTOR LIFEREG CLUSTER- FREQ DISCRIM PLAN- REG-RSREG TTEST PRINCOMP FASTCLUS STEPDISC GLM TREE- NESTED- VARCLUS VARCOMP FSP** Sirve para construir y manipular conjuntos de datos. Este módulo facilita la captura de datos, validación, verificación en tablas, edición y consulta. AF** Sirve para crear menús y para encadenar los diversos módulos. ETS* Provee herramientas para realizar proyecciones en modelos economé- tricos. Puede realizar reportes como tablas de amortización y tablas de depreciación. OR Provee una herramienta para investigación de operaciones. QC* Es una aplicación para estadísticas en control de calidad. GRAPH Es el módulo que posee el SAS Convenciones: * No es necesario. ** Para realizar aplicaciones bajo ambientes SAS.
  • 119. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 119 SHARE Permite el acceso concurrente de varios usuarios a archivos comunes SAS. Este módulo garantiza la integridad y la seguridad de la información. ACCES Este módulo sirve para realizar las interfaces en los manejadores de bases de datos. 8.2 SPSS BASE Contiene estadísticas básicas, gráficos de alta resolución y un paque- te completo de listado. Con el SPSS BASE 6.0 bajo Windows se produci- rá un análisis y resultados de alta calidad. – Estadísticas profesionales Medidas de similariedad y diferencias en sus datos, provee técnicas de clasificación. En este procedimiento incluye Análisis Cluster, Análisis Discriminante, Análisis Factor, Análisis Multidimensional, Análisis Proxi- midades, Mínimos Cuadrados con Ponderación y Mínimos Cuadrados con dos fases. – Estadísticas avanzadas Incluye sofisticadas técnicas como: Regresión Decox, Estimación Kalpian Meier, Regresión Logística, Análisis Lineal Logarítmico, Análisis de Varianza Multivariado, Regresión No-Lineal de Vida (Tabla vida). – Tablas Crea una variedad de cuadros tabulares, incluyendo tablas complejas (múltiple respuesta). – Tendencias Ejecuta pronósticos y análisis de series de tiempo, modelos de suaviza- ción y métodos para estimación autorregresión.
  • 120. 120 SERIE: APRENDER A INVESTIGAR – Categorías Ejecuta análisis conjunto y procedimientos de optimización, incluyen- do análisis de correspondencia. – Chaid Desarrolla modelos predictivos, produce variables predictorias. – Lissrel Relaciona un análisis estructural lineal y modelos de ecuaciones simul- táneas. 8.3 Requerimientos mínimos para la instalación del Software SAS 1. Procesador 486 o superior. 2. Memoria RAM 32 Mb o superior. 3. 20 Mb de espacio en el disco duro. 4. Cualquiera de las siguientes opciones • Windows versión 3.1 o posteriores. • Windows para trabajo en grupo versión 3.1 o posteriores. 8.4 Requerimientos mínimos para la instalación del Software SPSS 1. Procesador 386 o superior. 2. Memoria RAM 32 Mb o superior. 3. 20 Mb como mínimo para almacenar el SPSS. 4. Monitor VGA. 5. Cualquiera de las siguientes opciones. 6. Windows versión 3.1 o posteriores. • Windows para trabajo en grupo versión 3.1 o posteriores.
  • 121. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 121 8.5 Manejador de Base de Datos En la actualidad existen en el mercado una gran variedad de maneja- dores de bases de datos con características únicas, es decir, no son com- patibles con los sistemas tradicionales de manejadores de bases de datos de segunda y tercera generación como Dbase, DataEase, Foxpro. Los manejadores de Bases de Datos de cuarta generación que se recomien- dan por compatibilidad son Acces, Paradox, Foxpro. Para cumplir con los objetivos educativos se recomienda por su flexi- bilidad y compatibilidad el Foxplus bajo ambiente Windows. Visual Foxpro 6.0 La herramienta para el desarrollador profesional de aplicaciones xBase. (En esta nueva versión obtendrá: Mejor rendimiento e IDE, mayor conec- tividad y soporte de ActiveX). Características Sigue la evolución de Foxpro desde un sistema de desarrollo de bases de datos de escritorio y de tipo procedural a un entorno de desarrollo orientado a objetos, con las herramientas necesarias para construir apli- caciones y componentes en sistemas clientelservidor e lnternet. Visual Foxpro 6.0 es un miembro de la familia que integra el sistema de desarrollo Visual Studio. Permite la utilización de los últimos avances en los sistemas operativos Windows y Windows NT y ha sido diseñado para per- mitir a los 500.000 desarrolladores que usan Visual Foxpro una forma más potente y eficiente de crear aplicaciones multicapa cliente/servidor, basa- das en Web y centradas en el tratamiento de datos. La compatibilidad con el año 2000 está totalmente asegurada. Visual Foxpro mantiene un completo set de comandos Xbase para per- mitir una curva suave de aprendizaje a los programadores de bases de datos en entornos MsDos. Dispone de las características más avanzadas en el diseño de clases orientadas a objeto incluyendo herencia, subclases, encapsulación y poli- morfismo. Las librerías de clases visuales y no visuales (por código) redu- cen enormente el tiempo de desarrollo.
  • 122. 122 SERIE: APRENDER A INVESTIGAR Existen herramientas de diseño para todas las fases de desarrollo de la aplicación. Un motor de bases de datos altamente eficiente, un lenguaje centrado en los datos y la capacidad de creación de componentes hacen de Visual Fospro una herramienta idónea para la generación de lógica de negocio en los entornos multicapa con tratamientos intensivos de datos. Visual Foxpro puede intercambiar datos con bases de datos SQL a través de ODBC (Open Database Connectivity). De esta forma, no es necesario un gran esfuerzo en la adaptación de aplicaciones basadas en servidor de ficheros a aplicaciones clientelservidor. También podemos uti- lizar los componentes ADO (ActiveX Data Objects) para intercambiar in- formación con datos relacionases y no-relacionales mediante OLE DB. Visual Foxpro puede ser utilizado en las tres capas de una arquitectura clientelservidor. Puede suministrar el interface de usuario a través del uso de formularios con toda la potencia de la orientación a objeto. Los controles ActiveX pueden usarse en los formularios y se subciasean para extender sus funcionalidades. La lógica de negocio puede encapsularse en compo- nentes muy eficientes gracias a la potencia de Fospro en la recuperación y manipulación de datos. Los componentes COM pueden ser llamados des- de el front-end del usuario o desde el servidor lnternet. Los componentes comunican con las bases de datos de Fospro y SQL a través de ODBC y OLE DB. En almacenamiento de datos puede estar soportado por el motor de Visual Foxpro. En arquitecturas CIS la mejor combinación es SQL para el proceso de las transacciones y Visual Foxpro para el manejo de consul- tas locales y procesos batch. Novedades en Visual Foxpro 6.0 La aparición de Visual Foxpro 6.0 ha supuesto principalmente una evo- lución de las herramientas de desarrollo para adaptarlas a la arquitectura COM y al desarrollo de aplicaciones multicapa en lnternet e lntranet. Ade- más dispone de herramientas de desarrollo mejoradas y ampliadas. Por último se han revisado los comandos de programación, destacando la mejora en el soporte del año 2000. Las principales novedades son: OLE Drag and Drop El OLE Drag and Drop permite intercambiar datos entre los controles de una aplicación o entre varias aplicaciones que soporten esta funcionalidad. Ahora podemos arrastrar ficheros desde el explorador de Windows a la ventana del proyecto o transportar textos con el ratón desde Word o Excel.
  • 123. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 123 Visual foxpro disponía desde versiones anteriores de un drag and drop propietario. Sigue existiendo, pero se recomienda no utilizar los dos tipos de drag and drop simultáneamente en una aplicación. Documentos activos Visual Foxpro permite crear documentos activos, los cuales permiten visualizar documentos no-Htmi en un explorador de lnternet. De momento sólo es posible con el Microsoft lnternet Explorer. Un documento activo es un tipo de documento OLE embebido. Se visualiza totalmente en un área de la aplicación contenedora o host, mezclando su menú con el del host. La tecnología de documento activo permite visualizar múltiples tipos de documentos dentro de un único contenedor. A diferencia de Visual Basic, los formularios de Visual Foxpro no re- quieren modificaciones para crear documentos activos. Es suficiente con iniciar la aplicación desde una clase basada en la clase base ActiveDoc. La clase base ActiveDoc aporta las propiedades, eventos y métodos para un documento activo y de esta forma interactuar con el host. Mejoras en el servidor de automatización Un servidor de automatización es un componente que expone su funcionalidad, la cual puede ser usada por otras aplicaciones a través de la automatización. Visual Foxpro puede crear servidores de automatización dentro o fuera del proceso. Las mejoras en este tema se refieren al soport del Apartement Model Threading. De esta forma Visual Foxpro tiene soporte para Microsoft Tran- saction Server. Los componentes construidos con Visual Foxpro pueden ser manejados por el explorador de Microsoft Transacción Server y parti- cipar en las transacciones con otros componentes. Otras mejoras de adaptación de los servidores de automatización a la arquitectura COM son: gestión optimizada del Runtime, soporte mejorado de las librerías de tipos, manejo de excepciones, paso de arrays, nuevas propiedades y métodos para la automatización... Galería de componentes La galería de componentes es una nueva herramienta que ayuda a agru- par y organizar objetos como las clases, librerías, formularios, botones. Los distintos objetos pueden organizarse en otros objetos como proyectos,
  • 124. 124 SERIE: APRENDER A INVESTIGAR aplicaciones u otras agrupaciones diferentes. Estas agrupaciones visua- les se pueden adaptar dinámicamente a las necesidades del desarrollador. La galería de componentes incluye también las Visual Foxpro Foun- dation Classes. Son un conjunto de clases para mejorar las aplicaciones, reutilizando código probado y optimizado. Estas clases pueden incluirse en nuestros proyectos directamente o crear subciases para adaptarlas a las distintas aplicaciones. Aplicación de cobertura y control de rendimiento de código La aplicación de cobertura genera información de las líneas que fueron ejecutadas en un determinado fichero. Por otro lado se puede configurar el control que se realiza sobre las líneas de código ejecutadas, cuántas veces se ejecutan, duración y muchos otros aspectos. Acceso por programa al proyecto En versiones anteriores de Visual Foxpro, el único acceso a los pro- yectos se realizaba de forma directa, abriendo la tabla pix a través del gestor de proyectos. Ahora se ha implementado un objeto proyecto para poder manipularlo por programa. El objeto proyecto actúa de intermedio entre un proyecto abierto y el desarrollador que puede interactuar direc- tamente con el proyecto.
  • 125. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 125 9. STATGRAPHICS Software para el análisis de datos cuantitativos y cualitativos cuya es- tructura está sobre la base de menús. Existen versiones para trabajar bajo DOS y bajo Windows. El menú principal de Statgraphics permite entrar a cualquiera de las 22 secciones divididas en seis grupos. 9.1 Grupo I: Data handling and system utilities A. DATA MANAGEMENT. Menú para entrada de datos, definición de varia- bles, importación y exportación de datos. B. SYSTEM ENVIROMANT. Acceso a requerimientos y configuración del sistema. C. REPORT WRITER AND GRAPHICS REPLAY. Configuración de im- presoras. D. PLOTTER INTERFACE. Interfase para plotter. 9.2 Grupo II: Plotting and descriptiva statistics E. PLOTTING FUNCTIONS. Elaboración de gráficas estadísticas en dos y tres dimensiones. F. DESCRIPTIVE METHODS. Resume datos, realiza distribuciones de frecuencia, obtiene estadísticas básicas. G. ESTIMATION AND TEST. Elabora intervalos de confianza y pruebas de hipótesis para una o dos muestras. Permite hacer pruebas de bondad de ajuste. H. DISTRIBUTION FUNCTIONS. Genera números aleatorios. Permite ha- cer cálculos con las principales funciones de probabilidad continuas y discretas. I. EXPLORATOR Y DATA ANALYSIS. Realiza el análisis exploratorio de datos, diagrama de tallos y hojas, diagrama de caja, etc.
  • 126. 126 SERIE: APRENDER A INVESTIGAR 9.3 Grupo III: Anova and regression analysis J. ANALYSIS OF VARIANCE. Realiza análisis de varianza de una o dos vías. K. REGRESION ANALYSIS. Ajusta modelos lineales y no lineales en una y varias variables. 9.4 Grupo IV: Time series procedures L. FORECASTING. Pronosticación con modelos de series temporales. M. SMOOTHING. Procedimientos de promedios móviles N. QUALITY CONTROL. Procedimientos de control de calidad estadísticos. O. TIME SERIES ANALYSIS. Procedimientos para ajustar modelos ARIMA a series temporales. 9.5 Grupo V: Advanced procedures P. CATEGORICAL DATA ANALYSIS. Tablas de contingencia, correspon- dencias simples, etc. Q. MULTIVARIATE METHODS. Componentes principales, análisis de con- glomerados, tests multivariados, etc. R. NONPARAMETRIC METHODS. Pruebas no paramétricas con una y varias muestras. S. SAMPLING. Determina tamaño de la muestra. T. EXPERIMENTAL DESIGN. Métodos de diseño de experimentos, anova, manova, diseños 22, 23, etc. 9.6 Grupo VI: Mathematical procedures U. NUMERICAL ANALYSIS. Métodos de análisis numéricos, raíces de fun- ciones, método simple, álgebra, etc. V. MATHEMATICAL FUNCTIONS. Glosario de funciones matemáticas, aplicaciones.
  • 127. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 127 9.7 Requerimientos físicos para la instalación de Statgraphics 1. Sistema operativo DOS (Windows 3.1 o superior si se va a instalar la versión bajo Windows). 2. Procesador 386 o superior 3. El monitor se configura en la instalación. 4. 5 Mb para almacenar el STATGRAPHICS.
  • 128. 128 SERIE: APRENDER A INVESTIGAR Tablas Áreas bajo la curva normal Fracción del área total (10.000) bajo la curva normal, correspondiente a dis- tancias entre la media y las ordenadas situadas a z unidades de desviación estándar de la media.
  • 129. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 129 Números aleatorios
  • 130. 130 SERIE: APRENDER A INVESTIGAR Distribución de t
  • 131. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 131 Distribución de X2
  • 132. 132 SERIE: APRENDER A INVESTIGAR Valores de F con significancia de 0.05
  • 133. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 133 Valores de F con significancia de 0.01
  • 135. Serie APRENDER A INVESTIGAR ANEXO Módulo 4 Instructivo para el uso del video ESTELA URIBE VÉLEZ 1. Uso didáctico del video 2. Videos: • La medición y las ciencias • La curva normal • La muestra
  • 136. 136 SERIE: APRENDER A INVESTIGAR
  • 137. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 137 1. USO DIDÁCTICO DEL VIDEO En este documento queremos mostrar la importancia que tiene la utiliza- ción de video en las aulas de clase, sus ventajas y desventajas en las activi- dades académicas. Así mismo, que es responsabilidad del profesor el buen uso que de éste se haga para facilitarle el proceso enseñanza-aprendizaje. El video es un sistema de almacenamiento de imágenes y sonidos que utiliza los mismos fundamentos técnicos que la televisión y que nació para cu- brir las necesidades que las programadoras de T.V. tenían para almacenar sus programas y librarse de la esclavitud de la emisión en directo. Su aparición revolucionó la tecnología televisiva, que hasta el momento se reducía a la trans- misión de sucesos en directo, de forma irrepetible. El video configuró una nueva televisión donde el programa elaborado por montaje, el diferido, las repeticio- nes y los intercambios de programas, enriquecen la producción televisiva. La mayor ventaja que tiene el video con respecto al resto de los audio- visuales, desde el punto de vista didáctico, es la posibilidad de una presenta- ción flexible y un fed-back inmediato. Una de las funciones que debe cumplir el video en el aula es la de ser un facilitador para el proceso enseñanza-aprendizaje. El docente debe reflexionar sobre la realidad educativa concreta y, como consecuencia de ello, descubrir cuáles son sus necesidades reales con rela- ción al video como medio concreto, fruto del desarrollo de las nuevas tecno- logías de la comunicación y su aplicación en la enseñanza. El video como medio didáctico La forma más frecuente de esta utilización consiste en el trabajo con el grupo/aula –la situación de enseñanza masiva–, en la que el monitor sustituye el discurso del profesor. Generalmente se recurre a este medio para motivar/ introducir un tema, aunque para algunos temas y/o disciplinas –generalmente aquellas centradas en la explicación de procesos, etc.– el video introduce algunos momentos didácticos. El video puede cumplir diferentes funciones dentro de los procesos de enseñanza-aprendizaje; entre ellas tenemos: Función motivadora El video, como todos los medios basados en lenguajes visuales, es parti- cularmente apto para transmitir emociones, sensaciones, afectos, que a me- nudo las palabras no logran expresar con la misma precisión, ya que la ima- gen, por su misma naturaleza, comunica de manera inmediata, más rápida y
  • 138. 138 SERIE: APRENDER A INVESTIGAR emotiva que la palabra. En este sentido, además de implicar al alumno en la información videográfica, pueden desarrollarse y afirmarse actitudes, estimu- lar la imaginación, la fantasía... Básicamente se trata de utilizar el video para captar la atención y, a su vez, dar una primera idea, muy general sobre el tema. El tipo de programas que podemos emplear puede proceder de emisiones de televisión comercial, de películas, de actividades realizadas en el propio centro, entre otras. Su grado de elaboración desde el punto de vista educativo puede ser muy ele- mental, ya que lo fundamental de esto reside en lo que tiene de actualidad o de interés para el alumno. El profesor es quien puede decidir qué tipo de conteni- dos son los adecuados, en cada caso concreto, para el desarrollo de esta función. El material puede tener los orígenes más diversos. Función presentadora/introductoria La presentación del contenido del tema, bien en su totalidad, bien en una parte del mismo, puede ser otra de las funciones del video en el aula. Esta utilización es sensiblemente diferente a la anterior y no se puede entender ni tiene sentido de forma aislada. El desarrollar un tema en el aula por medio del video debe tener dos accio- nes previas: 1. Adecuar el programa a la situación concreta de clase. 2. Desarrollar los materiales que van a permitir la comprensión y el desarro- llo del mismo, el video por sí solo tiene problemas para, de una forma adecuada, dar una información a un grupo de alumnos. La velocidad de la narración puede ser, entre otros, uno de los problemas que se pueden presentar. Para suplir algunos de estos problemas se hace indispensable que el profesor prepare por lo menos dos tipos de materiales complemen- tarios a esta presentación como son: – Materiales de ampliación del contenido del video. Estos deben permitir que el alumno vea la importancia del tema que el video ha mostrado y cómo desarrollar aquellos aspectos tratados en el video que puedan tener un interés relevante. Deben ser fundamentalmente documentos, referencias bibliográficas, etc., que el profesor debe preparar para cada video. – Materiales de observación o evaluación del video. Deben ser como guías de observación del problema, en el que se destacan aquellos aspectos del mismo que tienen un mayor interés y que deben ser observados con más atención. Tienen una doble función: destacar los puntos fundamen- tales y evaluar los contenidos por el alumno. Estas guías contienen una
  • 139. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 139 serie de cuestiones que se han de responder con la información que facilita el programa visionado. No se trata exclusivamente de preguntas y respuestas en el sentido más tradicional. Pueden ser esquemas para completar, mapas a complementar, gráficas, etc. Un uso complementario de todo lo anterior va a permitir al estudiante no sólo la utilización de cualquier guía, sino también la manipulación de los pro- gramas de video utilizados en clase, de tal forma que pueda crear con ellos su propio programa, bien con intención de completar el aprendizaje o bien con una intención evaluadora. Función informativa Está directamente relacionada con la adquisición de conocimientos y con la relación que se establece entre las nuevas informaciones que se reciben y las ideas que ya se poseen, desarrollando nuevos conceptos y conocimien- tos. El video actúa de mediatizador desde el momento que se trata de una observación indirecta. Esta observación no puede limitar el estudio a lo que el entorno le ofrece visualmente, sino que se ocupará de cosas que no pueden ser observadas directamente, bien por problemas especiales –no se puede acceder–, bien por problemas temporales –acontecimientos que pueden apre- ciarse con la concentración o dilatación del tiempo–, lugares inaccesibles para la visión humana, o por tratarse de una conexión con otras tecnologías –tele- scopios, microscopios–, o de acceso difícil, costoso o peligroso. Función instructiva El video, además de motivar y transmitir información, ha de servir para proporcionar instrumentos tendientes a la organización del conocimiento y al desarrollo de destrezas. Las destrezas, las actitudes de base conseguidas, pueden transferirse a otros ámbitos del conocimiento, de la cultura o de las situaciones vitales a través de principios. La aplicación de estos principios a la utilización didáctica se centra, fun- damentalmente, en la intervención del profesor en la transmisión del mensaje –especialmente, en el modo de presentación–, de tal forma que lo haga más dinámico y activo. Esta intervención requiere un conocimiento de las im- plicaciones que el modo de presentación de un material tiene en el alumno, la posibilidad de flexibilizar la utilización de los materiales a fin de adecuarlos al mayor abanico de necesidades y condiciones y, por último, requiere también la integración del medio en el contexto. Estos principios son: a. El modo de presentación: La eficacia del mensaje depende tanto del con- tenido como de su presentación.
  • 140. 140 SERIE: APRENDER A INVESTIGAR b. Flexibilidad de utilización: La flexibilidad supone para el profesor el trata- miento de dicho mensaje desde enfoques diversos: a. La audiencia: Debe conocer muy bien a su audiencia y tener claras sus necesidades. b. Contemplar la necesidad de utilización en situaciones didácticas que no sean solamente grupales. c. Utilización integrada en el contexto educativo: El profesor debe presen- tar contenidos que se integren en el medio afectivo, social y cultural del alumno destinatario. Función de recapitulador Este es otro posible uso del video en la situación interactiva de clase, el empleo de las secuencias más significativas del tema expuesto, dándole un tratamiento diferente, más ágil, más breve, puede permitir que todo el tema se resuma en unos pocos minutos, de manera que quede claro cuáles son las ideas y los conceptos fundamentales del mismo. Las funciones anteriores van interrelacionadas y le corresponde al profe- sor desarrollarlas de tal forma que se adecuen a sus propósitos; por lo tanto el profesor debe, con anterioridad a la utilización del video en el aula, visionar repetidamente el mismo, analizarlo y decidir cuáles son los puntos esenciales del tema, desarrollando seguidamente los materiales complementarios para los estudiantes. El video como medio de expresión y de comunicación Si concebimos el video como un medio que une la comunicación didácti- ca, es obvio que, además de transmitir información externa –más o menos modificada o manipulada por el profesor–, debe servir de medio de expresión de las propias ideas y experiencias para los protagonistas del proceso ense- ñanza-aprendizaje –profesor y alumnos–. El video, por su propia naturaleza, resulta un medio apropiado en una comuni- cación bidireccional –multidireccional– en el aula. Su desarrollo como tal, exi- ge, no obstante, un cambio radical en algunas concepciones ancladas en el sistema educativo y, especialmente, aquellas relacionadas con la facultad y la libertad para comunicar. Es necesaria la participación libre y consciente por parte del alumno en el proceso comunicativo.
  • 141. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 141 La simplicidad técnica de manejo y los bajos costos de este medio, hacen posible lo que con el cine era más complicado. La enseñanza de la imagen es hoy factible en su doble vertiente, para contemplarla y para usarla como me- dio de expresión. Conocer los criterios y principios que están detrás de un mensaje verboicónico nos permite dos tipos de acciones: – Primero. Facilitar la decodificación completa de los programas que nos llegan por los medios de comunicación de masas, fundamentalmente la televisión. – Segundo. Permite utilizar un nuevo medio de expresión de forma correcta, de manera que podamos decir lo que deseamos y que nuestro mensaje sea decodificado de acuerdo con nuestra intención. En relación con esto último debemos recordar que el video es un medio de comunicación, y por lo tanto reúne las condiciones necesarias para poder establecer por medio de él un proceso de comunicación fundamentalmente grupal y en menor medida personal. El video como medio de investigación El video reúne unas condiciones que le hacen ser un buen auxiliar para la investigación, tanto para los estudiosos de la educación, profesores, investi- gadores, etc., como para los propios alumnos. Por lo que respecta a los pri- meros, el video permite la grabación de distintos tipos de situaciones que tengan que ver con la enseñanza y que, posteriormente, se pueda estudiar al ritmo que se desee. Reuniones de grupos de trabajo, situaciones de clase, entrevistas, etc., son algunas de las ocasiones en las que el video puede aportar la posibilidad de observar aspectos que, de otra manera, pueden pa- sar inadvertidos. En el caso de los alumnos que también es extensible a cualquier tipo de investigaciones, el video puede proporcionar el soporte ideal para la observa- ción del desarrollo de procesos de tipo físico, etc., archivo documental, reali- zación de informes y un buen número más de posibilidades que prácticamen- te está limitado solamente por la imaginación y creatividad de los usuarios. Otros usos del video Evidentemente, existen otros usos del video en el aula, entre los cuales podemos destacar su utilización como medio de entretenimiento, o como re- cursos para la formación permanente del profesorado, para la comunicación universidad-padres, como medio de investigación, entre otros. Desde este punto de vista, los usos que resultan básicos para los profe- sores pueden ser:
  • 142. 142 SERIE: APRENDER A INVESTIGAR a. En la formación del profesorado, actuando como instrumento de análisis en diversas técnicas, como microenseñanza, y también en la familiariza- ción de los profesores respecto a dicho medio. b. En la investigación didáctica, como instrumento de análisis de las interac- ciones profesor-alumno, de las conductas de los alumnos, de la actuación de los profesores... También constituye un campo de investigación en este terreno la investigación sobre diseño y elaboración de materiales didácticos en video. Todos los posibles usos descritos casi nunca podremos aislarlos total- mente en la práctica educativa; así por ejemplo, la formación del profesorado no puede desligarse del componente de medio de investigación que el video desarrolla. Ventajas del video como ayuda didáctica – Permite mostrar situaciones históricas, presentes y futuras. – Se pueden repetir acciones. – Se pueden integrar imagen, color y sonido. – Permite adecuar parte de un tema en imágenes que se puedan proyectar. – Mantiene la atención del estudiante, si el tema es motivador. – Posibilita la reflexión en grupo sobre el tema proyectado. – Se pueden realizar análisis parciales sobre el tema, suspendiendo la pro- yección cada vez que el profesor o el estudiante lo consideren necesario. – Permite la interactividad en clase. – Puede ser visto en grupos o individualmente. – No requiere oscuridad para su presentación. Desventajas del video como ayuda didáctica – Sólo se debe presentar una idea del tema que se va a tratar. – El desarrollo del tema puede ser muy rápido y no se capta fácilmente. – Si el tema es largo y monótono permite que los estudiantes se distraigan. – Propicia los comentarios durante la proyección, lo que puede distraer a los asistentes. – Si el tema no está bien tratado permite el adormilamiento entre los asis- tentes.
  • 143. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 143 Errores más comunes cuando se presenta un video – No conocer el tema del video con anterioridad a la presentación. – Desconocer su estado físico (imagen rayada, mal sonido, baches...). – Pretender que un video por sí solo sea didáctico. – No preguntar a su audiencia si lo ha visto. – No hacerle una introducción antes de su presentación. – No analizar al final de la presentación una evaluación o conclusiones so- bre el tema. – Presentar videos muy largos sin hacer pausas para reflexionar sobre el tema o hacer declaraciones sobre el mismo. – No adecuar el aula para su presentación. – Apagar la luz cuando se utiliza un monitor de T.V. – Utilizar un monitor de T.V. pequeño para una audiencia muy grande. – Desconocer el funcionamiento de los equipos: T.V., VHS o Betamax. Algunas recomendaciones para utilizar el video con fines didácticos QUÉ NO HACER QUÉ HACER 1. Seleccionar todo el video sólo por 1. Ver el contenido del video y analizarlo el título. para ver si es apropiado al tema que queremos complementar. 2. Presentar un video sin conocer su 2. Revisar muy bien el material se- contenido y su estado físico, so- leccionado antes de presentarlo. nido, imagen. 3. Proyectar un video sin hacer an- 3. Hacer una presentación del tema tes una presentación del tema. y explicar qué se pretende con el video. 4. Presentar un video sin preguntar 4. Debemos interrogar a los partici- a los participantes si ya conocen pantes si ya conocen el video, su contenido. para no repetirlo o hacer otro en- foque sobre el mismo. 5. Presentar videos muy largos sin 5. Hacer una pausa para evitar la fa- hacer una pausa. tiga, hacer preguntas o aclaracio- nes sobre el tema si es del caso.
  • 144. 144 SERIE: APRENDER A INVESTIGAR 6. Presentar videos en idiomas ex- 6. Debemos preguntar si el idioma tranjeros, del video es comprensible para todos. 7. Seleccionar el video como único 7. Debemos combinar medios en medio de apoyo a un curso. nuestros cursos. 8. Utilizar un monitor de T.V. peque- 8. Seleccionar el tamaño del moni- ño para audiencias numerosas. tor de T.V. de acuerdo con el nú- mero de la audiencia. 9. Oscurecer el aula cuando se 9. Se debe dejar la luz prendida, está utilizando un monitor de T.V. esto permite observar la reacción de la audiencia ante el video. 10. Terminar la presentación sin ha- 10. Al terminar de ver un video se de- cer conclusiones o preguntas so- ben hacer preguntas, aclaracio- bre el video. nes, verificar si se cumplió el ob- jetivo propuesto. Bibliografía MARTÍNEZ SÁNCHEZ, Francisco. La educación ante las nuevas tecnologías de la Educación: Configuración de los videos didácticos. Anales de la Pedagogía Nº 8, 1990, págs. 159-180. COLOM CAÑELLAS, Antonio J., SUREDA NEGRE, Jaume, SALINAS IBÁÑEZ, Jesús. Tecnologías y medios didácticos. De Cincel S.A., Madrid, 1988.
  • 145. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 145 2. VIDEOS 2.1 VIDEO: «LA MEDICIÓN Y LAS CIENCIAS» Introducción El propósito de este video es mostrar qué es la medición, sus diferen- tes procesos para recolectar la información. El material audiovisual cumple la función de complemento o refuerzo al material escrito, está concebido como un material autoinstructivo elaborado como imágenes sencillas y de una forma coloquial. La información consignada en cada uno de los videos es autosuficiente, es decir, que en forma independiente comunica una información completa sobre un determinado tema. Sin embargo, no debe perder de vista que cada uno de ellos es parte integrante de una unidad global que es todo el curso. Para complementar el Módulo 4, Análisis de la información, se ha ela- borado el video «La medición y las ciencias», el cual le dará una visión pano- rámica y al mismo tiempo será un complemento al tema que usted ha estu- diado. Recomendaciones Antes de ver este video le recomendamos haber estudiado el Módulo 4, Análisis de la información, y estar familiarizado con las técnicas básicas para recolectar la información, Recuerde que el ideo es una ayuda complementaria, que pretende refor- zar el contenido que usted ya estudio, además debe tener en cuenta: • Para ver el video utilice un monitor de televisión adecuado, mínimo de 14’’. • No oscurezca la sala en donde vea el video, así no se fatigará. • Recuerde llevar papel y lápiz para que tome nota. • Es conveniente que sepa manipular el control remoto del VHS o Betamax para que pueda adelantar o retroceder en las ideas que no le sean claras. • Después de ver el video debe realizar la Autoevaluación que aparece a continuación del guión de contenido. Si ve el video con otros compañeros podrá realizar después una mesa redonda para discutir las respuestas, lo que lo hará más interesante y así los aportes que hagan los participantes serán valiosos.
  • 146. 146 SERIE: APRENDER A INVESTIGAR Guión de contenido del video «LA MEDICIÓN Y LAS CIENCIAS» Los investigadores disponen hoy de instrumentos muy precisos para me- dir magnitudes de espacio, de tiempo, de intensidad, no sólo en nuestro mun- do cercano sino en el espacio sideral. Estos adelantos técnicos son el resultado de un proceso tan largo como la presencia humana sobre la Tierra, tan antiguo como su necesidad de enume- rar, de contar, de medir las cosas, los animales, los seres diversos que com- partían con él su pequeño mundo circundante. Para numerar cosas o para medir longitudes, lo más obvio era recurrir al propio cuerpo, utilizar los dedos, los brazos, los pies, como unidades de medida; pero al tratarse de longitudes, los pies de Pedro eran más largos que los pies de Pablo, y unos y otros más largos que los de sus mujeres. Fue preciso entonces escoger arbitrariamente el pie derecho de Pedro como medida universal para toda la tribu, y como Pedro no podía concurrir a todos los sitios donde se necesita, se hicieron réplicas de los pies de Pedro para que todos pudieran utilizarlas. La fábula anterior puede ser o no ser una reseña exacta de la manera como se inició la historia de las medidas en el mundo, pero fue ésta la manera como se impuso, como consecuencia de la revolución francesa, el sistema métrico decimal para las mediciones en casi todos los rincones del planeta. Aunque el metro de cien centímetros tiene relación matemática como una medida de la tierra misma, la medida metro es un objeto de platino e iridio que se encuentra en el museo de «Sévres» cerca de París, esa medida tiene la ventaja de que se le puede tomar réplicas bastante adecuadas, como ésta que es el patrón de longitud para Colombia y reposa en la Universidad Nacional. Son medidas arbitrarias en su origen, pero aceptadas por el mundo y por consiguiente convertibles para la mayoría de la gente que sabe lo que significa un metro, un kilogramo, una hora, un año luz. La investigación científica mo- derna se hace en una u otra forma, con base en procesos de medición que pretenden señalar las características de los objetos que se investigan; aun- que es preciso decir que lo cuantitativo no constituye la parte más importante de la investigación y que incluso en investigaciones relativas a ciencias socia- les la medición tiene sus limitaciones que deben ser comprendidas por el investigador, para que no aspire a llegar con sus conclusiones más allá de lo que le permiten los datos. Los procesos de medición se han desarrollado más allá en las ciencias naturales y en las llamadas exactas que en las cien- cias sociales; pero de todos modos siempre y cuando el investigador tome las medidas reservas también el comportamiento de los seres humanos y sus actitudes pueden ser medidas, tanto en las ciencias sociales como en las naturales o en las exactas. Las mediciones que logramos hacer dejan siem- pre margen al error, porque siempre nos valemos de nuestros sentidos que
  • 147. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 147 están sujetos permanentemente a insuficiencias habituales o temporales, y nuestros instrumentos de medida más perfectos siempre dejan la posibilidad abierta para la incertidumbre. Sin embargo, cuando se toman todas las pre- cauciones y se realizan todas las pruebas y contra pruebas necesarias, el científico puede confiar en sus mediciones y quienes recibimos el beneficio de sus investigaciones también podemos aceptar como sólidas las bases sobre las que están edificadas. Podemos por ejemplo crear hipótesis sobre comportamiento del mercado de algún producto y establecer si dicho com- portamiento puede ser observado en sus consecuencias, si luego nuestros sentidos y nuestros instrumentos nos dicen que estamos experimentando lo que preveíamos, podemos tener confianza en que nuestra hipótesis era cier- ta. Lo que sí tiene que considerar indispensable el investigador para que el proceso de medición tenga su efecto es la clarificación y clasificación de los conceptos que utiliza, de tal manera que haya definiciones que permitan lo- grar acuerdos acerca de lo que se trata de expresar, o sea, que los otros entiendan lo que quiere decir aunque no lo compartan. Hay diversos niveles de medición ya sea en física o en astronomía, en sociología o economía, según las propiedades o características que están siendo medidas; ante todo el nivel nominal que sólo sirve para clasificar sin establecer ninguna otra diferencia entre las unidades o individuos de que se trata, y los números vienen a desempeñar medianamente el papel de nom- bres para distinguir a uno del otro. El nivel ordinal le asigna valores numéricos a los sujetos en tal forma que los valores más altos corresponden a los indivi- duos que tiene más de la característica que se está midiendo, con lo que se diferencia uno del otro, como en el nivel anterior, pero además introduce la posibilidad de un orden determinado. Sin embargo, hay por lo menos dos gran- des limitaciones: la diferencia entre el individuo que tiene el número uno y el que tiene el número dos no es igual a la que existe entre éste y el que tiene el número tres; además, no existe el cero absoluto y si le ponemos el número cero a alguno de los muñecos, sería para significar que tiene menor altura que el número uno, pero no significaría ausencia de altura. De esas dos fallas, el nivel intervalo de medición soluciona la primera, permite establecer el orden con intervalos iguales de tal manera que entre 10 y 20 grados hay la misma diferencia que entre 20 y 30 grados de temperatura; pero tampoco tenemos el cero absoluto, pues una temperatura de cero grados no significa carencia de temperatura sino el comienzo de la escala positiva y de la negativa. Finalmente existe el nivel de razón o radial en la medición, que incluye las posibilidades de los otros niveles, pero también incluye la del cero absoluto. El ingreso de las diversas personas se mide en pesos que son iguales para uno y para otro; por lo tanto, se pueden diferenciar según reciban más o menos. Pero, además, tienen la posibilidad de un cero absoluto como en el caso de quien está desempleado y no recibe un solo centavo de ingreso. El investiga- dor deberá definir muy bien el nivel de medición que corresponde al problema
  • 148. 148 SERIE: APRENDER A INVESTIGAR que desea investigar y el nivel que escoja le estará señalando la técnica esta- dística que debe utilizar para analizar los fenómenos. Además de la escogencia adecuada de los niveles de medición que el investigador necesita, en cada caso debe tener bien claros los factores que tomará como constantes y los que tendrá como variables. Generalmente se designan los factores constantes con las primeras letras del alfabeto castella- no o del griego, y las variables con las últimas letras de nuestro alfabeto, a las que se puede añadir distintivos numéricos. Por último, las variables pueden tomar sólo cierto número de valores y entonces son variables discretas, como cuando damos un valor unitario a cada respuesta acertada de un alumno, o pueden ser variables que tomen un número infinito de valores y entonces son variables continuas como en el sistema métrico decimal. Volvamos sobre la posibilidad de error que siempre acecha al investigador y que es más preocupante según sea la necesidad de precisión y el instru- mento que utiliza. Los errores pueden obedecer a falla personal, como por ejemplo: un defecto de la vista en el investigador, o a defectos sistemáticos surgidos de fallas intencionadas o fortuitas de los aparatos de medición. Y finalmente se dan los errores aleatorios, que corresponden al mismo proceso de medición, ya que por ejemplo: la más precisa de las balanzas no nos da siempre la misma medida, aunque es imposible cerrar el paso a toda posibi- lidad de error. El científico tiene que cuidar que su investigación sea siempre confiable, válida y representativa. La calidad interna radica en la representatividad o capacidad de ser gene- ralizada que tenga la investigación en los resultados que exhibe. La confiabilidad de una medición es la consistencia que muestra al ser realizada varias veces, o sea se refiere a la ausencia de errores que aparece en pruebas diferentes. La validez de una medición es el grado con que ésta representa una medi- da de lo que realmente se quiere medir, o sea de aquello que en etapa anterior se ha aclarado conceptualmente como objeto de la investigación o de la me- dición específica; con lo que ya se está diciendo que es más importante ase- gurarse de la validez de la medición que de su confiabilidad. Aunque no es posible establecer directamente la validez de una medición, la práctica cientí- fica ha consagrado varias maneras indirectas, ya sea para mediciones he- chas en el campo de las ciencias naturales o exactas, o ya sea en el de las ciencias sociales. Por último la representatividad o generalidad de una medición tiene que ver con el grado en que sus resultados surgidos a partir de una muestra pue- den ser atribuidos a la población general; porque si la medición no está bien hecha pierde representatividad así se haya escogido cuidadosamente la muestra.
  • 149. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 149 Autoevaluación Apoyándose en el contenido del Módulo 4 y del video que acaba de ver, conteste o complete si es del caso las siguientes preguntas: 1. ¿Qué debe considerar el investigador para que el proceso de medi- ción tenga efecto? 2. ¿Cómo pueden ser los niveles de medición? 3. ¿Para qué sirve el nivel nominal? 4. ¿Para qué sirve el nivel ordinal? 5. ¿En qué consiste el nivel de razón o radial en la medición? 6. ¿Qué determina la técnica estadística que el investigador debe uti- lizar para analizar los fenómenos? 7. ¿Qué otros factores debe considerar el investigador además de la escogencia de los niveles de medición? 8. ¿Cómo pueden ser las variables? 9. ¿Qué diferencia hay entre estas variables? 10. ¿A qué puede obedecer la posibilidad de error en la medición que realiza el investigador? 11. ¿De qué depende la calidad interna de un proceso de investiga- ción? 12. ¿En qué radica la calidad externa de los procesos de investigación? 13. ¿En qué consiste la confiabilidad de una medición? 14. ¿Qué es la validez de una medición?
  • 150. puestas con el guión de contenido. Después de haber realizado la autoevaluación puede comparar sus res- 1. Clarificación y clasificación de los conceptos que utiliza, para lograr acuerdos acerca de lo que se trata de expresar. 2. Nominal, ordinal y el nivel de razón o radial. 3. Para clasificar sin establecer ninguna otra diferencia entre las uni- dades o individuos de que se trate. 4. Asigna valores numéricos y puede introducir la posibilidad de un orden determinado. 5. Incluye las posibilidades de los otros niveles y la del cero absoluto. 6. El nivel de medición. 7. Los factores que tomará como constantes y los que tendrá como variables. 8. Discretas y continuas. 9. Las discretas tienen número de valores, las continuas tienen un número infinito de valor. 10. • A falla personal. • Defectos sistemáticos surgidos de fallas intencionadas o fortui- tas de los aparatos de medición. • Errores aleatorios que corresponden al mismo proceso de medi- ción. 11. De la confiabilidad y validez que tenga la observación de los datos. 12. En la representabilidad o capacidad de ser generalizada que tenga la investigación en los resultados que exhibe. 13. Es la consistencia que muestra al ser realizada varias veces, o sea a la ausencia de error que aparece en pruebas diferentes. 14. Es el grado con que ésta representa una medida de lo que realmen- te se quiere medir. Respuestas a la Autoevaluación SERIE: APRENDER A INVESTIGAR 150
  • 151. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 151 2.2 VIDEO: «LA CURVA NORMAL» Introducción El propósito de este video es mostrar qué es la curva normal, su com- prensión y la aplicación en el trabajo investigativo. El material audiovisual cumple la función de complemento o refuerzo al material escrito, está concebido como un material autoinstructivo elaborado con imágenes sencillas y de una forma coloquial. La información consignada en cada uno de los videos es autosuficiente, es decir, que en forma independiente comunica una información completa sobre un determinado tema. Sin embargo, no debe perder de vista que cada uno de ellos es parte integrante de una unidad global que es todo el curso. Para complementar el Módulo 4. Análisis de la información, se ha ela- borado el video «La curva normal», el cual le dará una visión panorámica y al mismo tiempo será un complemento al tema que usted ha estudiado. Recomendaciones Antes de ver este video que tiene una duración de 15 minutos, le recomen- damos haber estudiado el Módulo 4, conocer en qué consiste el modelo teóri- co de la curva normal y cuáles son sus múltiples aplicaciones. Recuerde que el video es una ayuda complementaria, que pretende refor- zar el contenido que usted ya estudió; además tenga en cuenta: • Para ver el video utilice un monitor de televisión adecuado, mínimo de 14”. • No oscurezca la sala en donde vea el video, así no se fatigará. • Recuerde llevar papel y lápiz para que tome nota. • Es conveniente que sepa manejar el control remoto del VHS o del Betamax para que pueda adelantar o retroceder en las ideas que no le sean claras. Después de ver el video debe realizar la Autoevaluación que aparece a continuación del guión de contenido. Si ve el video con otros compañeros podrá realizar después una mesa redonda para discutir las respuestas, lo que lo hará más interesante y así los aportes que hagan los participantes serán valiosos.
  • 152. 152 SERIE: APRENDER A INVESTIGAR Guión de contenido del video «LA CURVA NORMAL» ¿Qué nuevas vías son necesarias para la ciudad? ¿Qué cantidad de pro- visiones debe almacenar este negocio para atender a sus clientes? ¿En qué nivel está la calidad de esta deportista? Para responder preguntas como és- tas es necesario observar y registrar la frecuencia y la forma como ocurren ciertos hechos a lo largo de un período. En el caso de las vías, por ejemplo: podríamos llegar a conocer datos como el promedio de vehículos que transi- tan durante varios días de la semana; o la clase de vehículos que con más frecuencia pasan por allí; son buses, camiones o carros particulares, y con mayor observación podríamos llegar a conocer muchos detalles de la forma como se comporta el tránsito en esa calle en distintas horas y en diversas épocas del año. De la misma manera y con procesos similares de observa- ción el propietario de este negocio podría calcular las provisiones que debe almacenar de acuerdo con la forma como se comporta la demanda de sus clientes según días, horas y clase de producto. En el caso del deportista, también sería posible registrar las marcas que logra en su deporte, con el fin de medir sus progresos a lo largo de un entrena- miento o para compararlo con las marcas que logran otros competidores. La estadística nos proporciona entonces un conjunto de técnicas para registrar y observar el comportamiento de fenómenos variables. Cuando se efectúan mediciones estadísticas se observan diferentes formas en la frecuencia con que ocurre el fenómeno. Por ejemplo: si examinas el comportamiento del cliente en esta panadería a lo largo del día, es probable encontrar que las ventas máximas se localizan en dos períodos, en las primeras horas de la mañana y las últimas de la tarde. Esta clase de distribuciones se conocen como bimo- dales. En otro tipo de distribuciones las mayores frecuencias se acumulan a uno u otro lado de los valores de la variable. Por ejemplo: es probable que las calificaciones que un profesor oneroso concede a sus alumnos estén repre- sentadas por un tipo de curva concreta en la cual se registra que la mayor parte de estudiantes consiguen buenas notas; en el caso del profesor muy estricto la distribución de las frecuencias será opuesta al caso anterior. En el caso dos, la curva refleja que sólo unos pocos estudiantes consi- guen buenas notas, mientras que la mayoría sólo alcanzan calificaciones malas o mediocres. Otra clase de distribución, conocida como distribución normal, es aquella en la cual las frecuencias tienden a concentrarse uniformemente alrededor de un valor central. A esa distribución se aproxima por ejemplo: los puntajes que los estudiantes consiguen en exámenes como las pruebas del ICFES, o los de ingreso a la universidad; en ese caso la mayor parte de estu- diantes se concentra en los puntajes intermedios de la escala, mientras que un grupo menor consigue los puntajes máximos y otros resultantes se ubican en los mínimos.
  • 153. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 153 A partir del concepto de distribución normal, la ciencia de la estadística ha desarrollado un modelo teórico de importantes y múltiples aplicaciones. Este modelo se conoce como curva normal y no es otra cosa que una representa- ción gráfica y matemática de aquellos fenómenos que bajo ciertas condicio- nes pueden considerarse como normalmente distribuidos. En su origen la curva normal surge como representación de la frecuencia de eventos que ocurren al azar, y por lo tanto como parte de la teoría de la probabilidad. En efecto, al tomar estas ocho monedas podemos preguntarnos con qué fre- cuencia relativa saldrán caras si las lanzáramos un gran número de veces. Lo primero que responde la teoría de probabilidad es que en la mayor parte de los casos saldrán cuatro caras, del mismo modo podremos suponer que en el menor número de veces saldrán solamente caras y que en un número de veces igualmente menor no saldrán caras. El histograma completo de fre- cuencias relativas para el caso propuesto tendrá finalmente esta distribución, y si en vez de ocho lanzáramos dieciséis monedas aumentaría el número de las barras dentro del histograma y cada vez se identificaría mejor el perfil de la curva y de la distribución normal. De esta manera la curva normal representa en su origen la frecuencia con que ocurren fenómenos regidos por el azar, sobre los cuales operan multitud de factores independientes. De la misma forma que podemos encontrar círculos de diferente diámetro sin que por ello pierdan su carácter de círculos, es posible también encontrar curvas cerca- nas a la normal, pero con diferentes configuraciones. Por ejemplo: estas dos curvas registran el mismo valor como promedio pero su amplitud varía porque es distinta a su desviación estándar. Estas dos curvas registran promedios diferentes pero sus desviaciones estándar son iguales. En estas dos curvas los promedios y las desviaciones estándar son dife- rentes. Sin embargo la familia de las curvas normales cumplen las siguientes características: en primer lugar toda curva normal es simétrica, es decir que la mitad de su lado izquierdo es igual a la mitad del lado derecho, igualmente la distribución que representa la curva normal es unimodal a tal punto que promedio, mediana, y moda tienen todos el mismo valor. De otra parte, y a diferencia de un polígono de frecuencia, la curva normal es continua, y por lo tanto sólo registra en rigor valores de variables que sean continuas. Otra característica común es que la curva normal es asintótica, es decir, que no toca el eje de las «x» y que por lo tanto ocupará un número infinito de observaciones; si bien es cierto que en las ciencias sociales las mediciones no son continuas ni el número de observaciones es infinito, la utilidad práctica de la curva normal es su valor como modelo estadístico y matemático.
  • 154. 154 SERIE: APRENDER A INVESTIGAR La curva normal es un instrumento que ayuda a organizar, describir y pre- decir el comportamiento de fenómenos que en su distribución se aproximan a la distribución normal. Así por ejemplo, y tomando la curva normal como mo- delo, podrían estimarse el porcentaje de colombianos adultos cuya estatura varía entre 1.60 metros y 1.80 metros y el porcentaje de aquellos que miden menos de 1.60 metros o más de 1.80 metros. Otra forma en que la Curva Normal actúa como modelo de suma impor- tancia es en la llamada Distribución de Muestreo. En efecto, si obtenemos una gran cantidad de muestras aleatorias de un universo dado, el valor de los promedios y de otras estadística de esas muestras tienden a conformar una distribución normal. A modo de ejemplo veamos este caso: los valores 1, 2 y 3 conforman nuestro universo. De ese universo vamos a obtener todas las posibles muestras de dos elementos. He aquí la primera muestra, el prome- dio de esa muestra es uno y lo anotamos en una tabla de frecuencia. Ahora vamos a repetir el procedimiento con las otras posibles muestras, es decir, tomamos los valores de la muestra y consignamos en la tabla el valor de su promedio, he aquí el resultado final, los promedios de las diferentes muestras tienen una distribución muy cerca a la normal. Si el universo fuera mayor y las muestras más grandes el perfil de la curva normal sería más notable. Hay otro hecho en extremo interesante y es que el valor promedio de la distribución de estos promedios coinciden con el valor promedio del universo original. Este carácter normal de la distribución de muestreo es de gran importancia para realizar inferencias ya que permite al investigador calcular la probabilidad de que el valor de una estadística obtenida en una muestra, coincida con el valor del parámetro de la población o universo. Como modelo teórico, la curva nor- mal tiene en síntesis las siguientes características: como sabemos es una distribución simétrica y asintótica que no toca el eje horizontal y se extiende indefinidamente; el área total debajo de la curva puede representar el número total de elementos de la población o universo, es decir, constituye el 100% de los casos; esta propiedad permite que entre dos puntajes a lo largo del eje horizontal sea posible determinar la proporción de la frecuencia entre dos puntajes; proporción que será igual al área de la curva entre esos dos puntos. Cuando se normaliza una distribución, el medio aritmético, la mediana y la moda son iguales a cero; por lo tanto, los valores al lado izquierdo del eje horizontal son negativos mientras que los valores del lado derecho son posi- tivos. La desviación estándar en una desviación normalizada es igual a uno, el 68.26% de los valores de la distribución se localizan bajo el área determinada por una desviación estándar a cada lado del medio aritmético. Del mismo modo el 95.46% de los valores se localizan entre extremos de dos desviacio- nes a lado y lado del medio. El 99% de los valores se agrupan bajo el área que determinan tres desviaciones estándar a lado y lado del mismo medio. La comprensión y aplicación de la curva normal es una exigencia en el trabajo investigativo, particularmente cuando se desea hacer inferencias a partir de
  • 155. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 155 una muestra. La curva es un modelo, es una abstracción; para aplicarla con acierto se requiere su exacta comprensión como instrumento estadístico; lo mismo que el conocimiento preciso de la índole y características de la inves- tigación para la cual se aplique. Autoevaluación Apoyándose en el contenido del Módulo 4, y en el video que acaba de ver conteste o complete si es del caso las siguientes preguntas: 1. ¿Qué es la distribución normal? 2. ¿Qué es la curva normal? 3. ¿Por qué surge la curva normal? 4. ¿Cuales son las características que deben cumplir la familia de las curvas normales? 5. ¿Qué es una curva normal asintótica? 6. ¿Cuál es la utilidad práctica de la curva normal? 7. Como modelo estadístico y matemático la curva normal es un ins- trumento que ayuda a... 8. ¿Qué es distribución de muestreo? 9. ¿Qué características tiene la curva normal como modelo teórico? 10. Cuando se normaliza una distribución, la media aritmética, la me- diana y la moda son igual a.... 11. ¿A qué es igual la sesviación estándar de una distribución normali- zada? 12. ¿Qué se necesita para aplicar la curva normal con acierto?
  • 156. puestas con el guión de contenido. Después de haber contestado las preguntas puedes comparar sus res- 1. Es aquella en la cual las frecuencias tienden a concentrarse unifor- memente alrededor de un valor central. 2. Es una representación gráfica y matemática de aquellos fenóme- nos que bajo ciertas condiciones pueden considerarse como nor- malmente distribuidos. 3. Como representación de la frecuencia de eventos que ocurren al azar y por lo tanto como parte de la teoría de la probabilidad. 4. – Toda curva normal es simétrica. – La distribución que representa la curva normal es la unimodal. – La curva normal es continua. – La curva normal es asintótica. 5. Es la que no toca el eje de la X y por lo tanto ocupará un número infinito de observaciones. 6. Es su valor como modelo estadístico y matemático. 7. Organizar, describir y predecir el comportamiento de fenómenos que en su distribución se aproximan a la distribución normal. 8. Cuando la curva normal actúa como modelo se obtiene una gran cantidad de muestras aleatorias de un universo dado y el valor de los promedios y de otras estadísticas tiende a conformar una distri- bución de muestreo. 9. – Es una distribución simétrica y asintótica que no toca el eje hori- zontal y se extiende independientemente. – El área total debajo de la curva normal puede representar el nú- mero total de elementos de la población urbana. 10. Cero 11. A uno 12. Su exacta comprensión como instrumento estadístico, lo mismo que el conocimiento preciso de la índole y características de la in- vestigación para la cual se aplica. Respuestas a la Autoevaluación SERIE: APRENDER A INVESTIGAR 156
  • 157. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 157 2.3 VIDEO: «LA MUESTRA» Introducción El propósito de este video es mostrar qué es la muestra, cuándo utili- zar una muestra, qué obtiene el investigador a través de la muestra. El material audiovisual cumple la función de complemento o refuerzo al material escrito, está concebido como un material autoinstructivo elaborado con imágenes sencillas y de una forma coloquial. La información consignada en cada uno de los videos es autosuficiente, es decir, que en forma independiente comunica una información completa sobre un determinado tema. Sin embargo, no debe perder de vista que cada uno de ellos es parte integrante de una unidad global que es todo el curso. Para complementar el Módulo 4. Análisis de la información, se ha ela- borado el video: «La muestra», el cual le dará una visión panorámica y al mismo tiempo será un complemento al tema que usted ha estudiado. Recomendaciones Antes de ver este video que tiene una duración de 15 minutos, le recomen- damos haber estudiado el Módulo 4, conocer qué es la muestra, cómo se utiliza, para qué sirve, cómo se determina ésta. Recuerde que el video es una ayuda complementaria, que pretende reforzar el contenido que usted ya estu- dió. Además tenga en cuenta: • Para ver el video utilice un monitor de televisión adecuado, mínimo de 14”. • No oscurezca la sala en donde vea el video, así no se fatigará. • Recuerde llevar el papel y lápiz para que tome nota. • Es conveniente que sepa manejar el control remoto del VHS o del Betamax para que pueda adelantar o retroceder en las ideas que no le sean claras. Después de ver el video debe realizar la Autoevaluación que aparece a continuación del guión de contenido. Si ve el video con otros compañeros podrá realizar después una mesa redonda para discutir las respuestas, lo que lo hará más interesante y así los aportes que hagan los participantes serán valiosos.
  • 158. 158 SERIE: APRENDER A INVESTIGAR Guión de contenido del video «LA MUESTRA» Muchas afirmaciones sobre características de las personas de una región o sobre las que tienen una misma profesión u oficio, o sobre características de las personas según su edad o sexo son ejemplo de generalizaciones, he- chas a partir de la observación de apenas unos casos. Eso quiere decir que en la vida cotidiana deducimos que una población tiene cierta característica por el hecho de haberla observado en una muestra de esa población. Todos generalizamos pero todos sabemos que esas generalizaciones no son científicamente ciertas; sin embargo, la ciencia también hace generaliza- ciones a partir de la observación de un número limitado de casos. La diferen- cia está en que la ciencia sigue rigurosos métodos para garantizar la validez de sus generalizaciones. En efecto, el trabajo del investigador científico es encontrar leyes, relaciones, comportamientos y otras características que per- mitan conocer mejor, bien sea el mundo de los fenómenos naturales o bien el mundo de los fenómenos humanos y sociales. En este proceso son muchas y diversas las preguntas que motivan un trabajo de investigación. Por ejem- plo: ¿cuántos desempleados tiene el país? o ¿cómo puede controlarse la roya de los cafetos?, o ¿de qué manera influye el nivel educacional de los padres en el desarrollo físico y mental de sus hijos? En casos como estos los desempleados o los cafetos o los padres de familia constituyen la población o universo objeto de cada investigación. Pero ante la imposibilidad de que el investigador examine a cada individuo de su universo o población sean desem- pleados, o cafetos, o padres de familia o cualquier otro conglomerado, se hace indispensable que tan solo observe una muestra tomada de la población o universo objeto de su estudio y que a partir de esa muestra pueda generali- zar válidamente para todos los casos. Así pues, podemos decir que cuando el investigador desea conocer una característica de una población o universo su trabajo se orienta en primer lugar a observar esa característica en una mues- tra tomada de esa población o universo, los valores que el investigador mide en la muestra se conocen como estadística y los valores que corresponden a la población o universo se conocen como parámetros. Así por ejemplo puede ocurrir que en una muestra encontremos un 10% de desempleo. Ese valor sería la estadística, pero es posible que el valor real del desempleo en la ciu- dad en la cual se tomó la muestra al contabilizar absolutamente todos los casos sea un 12%, esta cifra entonces sería el parámetro. Podemos decir entonces que el investigador obtiene estadísticas de la muestra para inferir parámetros de la población o universo. En este proceso de inferencia científi- ca, el investigador debe cumplir varias y rigurosas exigencias; debe en primer lugar garantizar que su muestra sea representativa del universo, es decir, que la muestra reproduce las distribuciones y valores del universo o poblaciones con márgenes de error calculables. La representatividad de la muestra de- pende de varios factores; uno de ellos es la identificación del universo de don-
  • 159. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 159 de va a sacar la muestra, esta identificación del universo o marco de muestreo no siempre es sencilla; hay algunas dificultades inherentes, la primera es la posibilidad de delimitar un universo, por el hecho de que todo universo es un organismo vivo que se expande, que crece y es dinámico; tomemos el caso de la población de una ciudad o el número de carros que hay en la ciudad, o el número de maestros que hay en una nación, esos universos están perma- nentemente creciendo y por lo tanto es muy difícil dar una delimitación precisa en un momento preciso; en segundo lugar existe una segunda clase de limita- ciones que tiene que ver con el tipo de objeto social sobre el cual se va a hacer la muestra. Hay objetos sociales que de por sí son distintamente definidos como por ejemplo: el número de alcohólicos que hay en una ciudad o el número de vagabundos, etc., en esos casos evidentemente no hay manera de precisar el universo; hay una tercera clase de delimitaciones que tienen que ver con las posibilidades tecnológicas al servicio de una investigación, para poder delimitar ese universo en objetos que están ya centralizados, que tienen re- gistros públicos, por ejemplo el problema no es tanto el dato ni la clase de dato, sino el control y la sofisticación que existe en cuanto a la información para ese tipo de datos. Otro factor influyente en la representatividad de la muestra es el diseño muestral. Diseñar una muestra es buscar que cada componente de un universo tenga la posibilidad de estar incluido en la mues- tra y que se pueda calcular la posibilidad que cada elemento tenga de estar en la muestra. Las muestras aleatorias o probabilísticas son de varias clases y exigen diferentes procedimientos de selección; sin embargo no son las únicas que se utilizan en la investigación porque también existen muestras no proba- bilísticas. Las muestras no probabilísticas o intencionales se justifican parti- cularmente en etapas exploratorias de la investigación o para finar instrumen- tos de redacción de datos o para estudios en profundidad. Este es un caso: la muestra no probabilística se elabora siempre sin tener en cuenta los procedimientos estadísticos de muestreo, es aquella donde no se conoce el universo y es muy difícil, por lo tanto, determinar una muestra, y donde los elementos de la muestra tienen no todas las mismas posibilidades de ser escogidas para el estudio. Vamos a poner un ejemplo muy claro que es la forma de explicarlo. En investigación tenemos una forma de conseguir in- formación llamada bola de nieve. La podemos aplicar a una investigación en pintura. Por ejemplo: queremos investigar a los pintores en Colombia, única- mente conocemos un pintor y no conocemos a los demás, por lo tanto no conocemos ni el universo ni la muestra. Vamos donde este pintor que cono- cemos y hacemos la entrevista, al final de la entrevista le preguntamos por dos pintores similares a él en el grupo que nos interesa. Para hacerle la entre- vista vamos donde esta gente, los entrevistamos y al final les preguntamos también si conocen otros dos pintores, cada uno de ellos. En esta forma va-
  • 160. 160 SERIE: APRENDER A INVESTIGAR mos ampliando el grupo de gente que estamos necesitando y la bola de nieve va creciendo. Ya no tenemos solamente uno, tenemos seis y eso se va am- pliando. Cada persona nos va dando dos nombres más y en esta forma va- mos creando un universo de donde podemos sacar una muestra que la va- mos creando. Inicialmente en este caso sería la muestra primero y el universo después, pero únicamente debe ser utilizada la muestra no probabilística en aquellos casos en que no exista conocimiento sobre el universo y por lo tanto la dificultad para conseguir una muestra sea muy grande. En resumen el investigador define con la mayor claridad posible el univer- so de su estudio, que las amas de casa, que los miembros de partidos políti- cos, que los de un servicio público, etc., ahora el investigador obtiene mues- tras unas veces aleatorias y otras intencionales de la población o universo que desea estudiar, pero ojo, que sean muestras representativas. El investigador hace sus observaciones y mediciones sobre la muestra, de esa manera obtiene estadísticas o sea valores como frecuencias, prome- dios y otros que le sirven para conocer el comportamiento de la muestra de las variables que está investigando. Finalmente y mediante procesos estadís- ticos el investigador puede, con margen de errores calculables, generalizar a la población o universo las observaciones hechas a la muestra; de modo ge- neral eso es así; pero hay unos pasos de análisis de datos y comprobación de hipótesis muy rigurosos. Medir algo en la muestra y generalizar a la población es lo que se conoce como inferencia, es decir, que una estadística nos permi- te hallar un parámetro. Para definir el tamaño de la muestra hay que considerar algunos aspec- tos, unos de orden práctico y otros de orden teórico. En el orden práctico y para definir su muestra busca orientaciones en otros estudios similares e igualmente examina los recursos económicos con que cuenta, el tiempo de que dispone. Desde el punto de vista teórico, el investigador determina su muestra principalmente de acuerdo con los objetivos de su estudio e igual- mente se sirve de las fórmulas que las estadísticas proporcionan para calcu- lar tamaño de muestra. ¿Cómo influyen estos factores prácticos y teóricos para que un investigador determine el tamaño de su muestra? Un factor importante es la naturaleza del estudio o sea qué tipo de investi- gación se está realizando, de qué tipo de investigación se trata. Pongamos algunos ejemplos: En primer lugar es muy importante la naturaleza del estudio, es decir, qué tipo de investigación se está realizando, en qué tipo de disciplina y cuales son los objetivos precisos de la investigación para el momento en que el investiga- dor selecciona o determina la muestra. En segundo lugar hay dos factores también muy importantes, el factor económico y el factor tiempo que ya el
  • 161. INSTRUCTIVO PARA EL USO DEL VIDEO MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 161 investigador debe haber tenido en cuenta desde el momento en que inició su investigación. La complejidad de una muestra por ejemplo hace que aumente el precio de una investigación o los costos de una investigación. Por otra par- te, también se puede racionalizar adecuadamente el tiempo si se han hecho estudios previos sobre lo que es la muestra. También debe tenerse en cuenta el tipo de procesamiento de la información que se va a hacer, y por otra parte la forma como se va a hacer la recolección de información. Una tercera ca- racterística importante es la tradición que otros investigadores han construido con relación al tipo de muestra que han utilizado, para investigaciones o estu- dios similares, finalmente la estadística y la teoría del muestreo han propor- cionado herramientas muy valiosas a los investigadores de diferentes discipli- nas para la adecuada toma de decisiones, en el momento de determinación de la muestra. La precisión de los resultados no sólo depende del tamaño de las mues- tras, si hay errores de recolección, una muestra grande podría ser mala, mien- tas que una muestra pequeña con cuidadosa recolección y selección podría ser excelente. Una muestra grande no es suficiente para garantizar la precisión de los resultados. Para determinar una muestra no basta con saber fórmulas matemáticas que nos permitan encontrar su tamaño, depende en primer lugar de la preci- sión con que esté definido el universo de la investigación, de la claridad que el investigador tenga sobre los objetivos y de su estudio, la recolección y proce- samiento cuidados de los datos. De esta forma la claridad conceptual y rigor metodológico son la garantía necesaria para que finalmente las técnicas esta- dísticas permitan inferir resultados a partir de una muestra.
  • 162. 162 SERIE: APRENDER A INVESTIGAR Autoevaluación Apoyándose en el contenido del Módulo 4, y en el video que acaba de ver conteste o complete si es del caso las siguientes preguntas: 1. ¿Qué es una muestra? 2. ¿En qué se diferencian las generalizaciones que hace la ciencia con respecto a las generalizaciones que no son científicamente ciertas? 3. ¿Cómo se llaman los valores que el investigador mide en la mues- tra? 4. ¿Con qué nombre se conocen los valores que corresponden a la población o universo? 5. ¿De qué depende la representatividad de la muestra? 6. ¿Qué es diseñar una muestra? 7. ¿Qué tipos de muestras se utilizan en la investigación? 8. ¿Cuándo se utilizan las muestras no probabilísticas o intencionales? 9 ¿Qué es la muestra no probabilística? 10. El investigador hace sus observaciones y mediciones sobre... 11. ¿Qué obtiene el investigador a través de la muestra? 12. ¿,Qué es inferencia? 13. ¿Cómo se define el tamaño de la muestra? 14. Para determinar una muestra ¿qué debe tener en cuenta un inves- tigador? 15. ¿Qué constituye la garantía necesaria para que finalmente las téc- nicas estadísticas permitan resultados a partir de una muestra?
  • 163. 1. Son las generalizaciones hechas a partir de la observación de ape- nas unos casos. 2. En que la ciencia sigue rigurosos métodos para garantizar la vali- dez de sus generalizaciones. 3. Estadísticos. 4. Parámetros. 5. De la identificación del universo de donde se va a sacar la muestra. 6. Es buscar que cada componente de un universo tenga la posibili- dad de estar incluido en la muestra y que se pueda calcular la posi- bilidad que cada elemento tenga de estar en la muestra. 7. <->Muestras aleatorias o probabilísticas <->Muestras no probabilísticas o intencionales 8. Se justifican particularmente en etapas exploratorias de la investi- gación o para afinar instrumentos de redacción de datos o para es- tudios en profundidad. 9. Es aquella donde no se conoce el universo y es muy difícil por lo tanto determina una muestra y donde los elementos de la muestra no tienen todos la misma posibilidad de ser escogidos para el es- tudio. 10. La muestra 11. Obtiene estadística, o sea valores como frecuencias, promedios y otros que le sirven para conocer el comportamiento de la muestra de las variables que está investigando. 12. Es medir algo en la muestra y generalizar a la población. 13. Se debe buscar orientación en otros estudios similares, examinar los recursos económicos con que se cuenta, el tiempo de que se dispone, lo anterior desde el punto de vista práctico; y desde el pun- to de vista teórico el investigador determina su muestra principal- mente de acuerdo a los objetivos de su estudio e igualmente se sirve de las fórmulas que la estadística proporciona para calcular tamaños de muestra. Respuestas a la Autoevaluación 163 MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN INSTRUCTIVO PARA EL USO DEL VIDEO
  • 164. puestas con el guión de contenido. Después de haber contestado las preguntas puedes comparar sus res- 14. – La precisión con que esté definido el universo de la investigación. – La claridad que el investigador tenga sobre los objetivos y varia- bles de su estudio. – La recolección y procesamiento cuidadoso de los datos. 15. La claridad conceptual y rigor metodológico. SERIE: APRENDER A INVESTIGAR 164
  • 165. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 165 Bibliografía BERENSON, Mark. Estadística básica en administración. Conceptos y aplicaciones . 1992. BRIONES, G. Métodos y técnicas de investigación para las ciencias sociales. México, Trillas, 1982. CARVAJAL, Lizardo. Metodología de la investigación. Séptima edición. Cali, FAID, 1991. CEBALLOS ROJAS, Argemiro. Estadística descriptiva y probabilidad básica. 1994. GODINO, J. y otros. Azar y probabilidad. Fundamentos didácticos y propuestas curriculares. Síntesis, 1991. GONZÁLEZ REYNA, Susana. Manual de redacción e investigación documental. Se- gunda edición, México, Trillas, 1994. HARNETT y MURPHY. Introducción al análisis estadístico. Addison-Wesley Iberoame- ricana, 1993. HOPKINS, Kenneth. Estadística básica para las ciencias sociales y el comportamien- to. 1997. KREYSZIG, Erwin. Estadística matemática. Limusa. 1983. MASON, Robert; LIND Douglas. Estadística para administración y economía. 8a edi- ción. Santa Fe de Bogotá, Alfaomega Grupo Editor S.A. de C.V., 1998. MENDENHALL, William. Introducción a la probabilidad y a la estadística. Grupo Edito- rial Iberoamericana, 1991. MENDENHALL, William; WACKERLY, Dennis; SCHEAFFER, Richard. Estadística matemática con aplicaciones. México, Grupo Editorial Iberoamericana, 1994. MENDENHALL, SCHEAFFER y WACKERLY. Estadística matemática con aplicacio- nes. Grupo Editorial Iberoamericana, 1986.
  • 166. 166 SERIE: APRENDER A INVESTIGAR MONTGOMERY, Douglas C. Diseño y análisis de instrumentos. Grupos Editorial Ibero- americana, 1991. MONTGOMERY, Douglas C. Control estadístico de la calidad. Grupo Editorial Ibero- americana, 1991. PARZEN, ENMANUEL. Teoría moderna de probabilidades y sus aplicaciones. México, Limusa, 1991. PEÑA SÁNCHEZ DE RIVERA, Daniel. Estadística, modelos y métodos. Tomo I y Tomo II. Alianza Editores, 1990. SCHEAFFER, MENDENHALL, OTT. Elementos de muestreo. Grupo Editorial Ibero- americana, 1987. SCHEAFFER y McCLAVE. Probabilidad y estadística para ingeniería, Grupo Editorial Iberoamericana, 1993. SUÁREZ DE LA CRUZ, Alberto Camilo. Metodología para el estudio y la investigación. Cuarta edición, Bogotá, Ediciones Ciencias y Derecha, 1991.