lunes, 30 de septiembre de 2013

P26 Funciones Estadísticas

Conceptos básicos de estadística

Entendemos por estadística al conjunto de técnicas y métodos matemáticos empleados para coleccionar, analizar y presentar información.

La Estadística se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

La estadística descriptiva permite mostrar los datos existentes de manera que sean fáciles de entender, en gráficas, tablas y diagramas.

La estadística inferencial emplea los datos conocidos para elaborar pronósticos de resultados futuros, por ejemplo con los datos de las ventas de los últimos años puede estimarse las ventas del siguiente año.

En estadística, se entiende por población a un todo (por ejemplo todos los habitantes de un país en edad de votar). Una muestra es una fracción o segmento de ese todo (por ejemplo una muestra de mil posibles votantes a los que se consultan sus preferencias electorales).

Distribuciones de frecuencia

En estadística usualmente se manejan listas o tablas de datos. Conviene ordenar los datos para facilitar su interpretación.

Las listas de datos desagrupados son difíciles de interpretar. Las distribuciones de frecuencia nos ayudan a presentar los datos de manera que sean significativos y compresibles. En una tabla de frecuencias o distribución de frecuencias se organizan los datos en clases o grupos de frecuencia, por ejemplo en una lista de calificaciones podemos agrupar las calificaciones que están entre 100 y 90 en una clase, las que estan entre 89 y 80 en otra, las de 79 a 70 en otra más, etc.

Un histograma es un diagrama simple de frecuencia. Las barras del histograma representan las frecuencias con que ocurren ciertos valores dentro de una muestra.


Si hay demasiadas columnas no se obtiene una buena representación visual de los datos, si hay muy pocas puede perderse la perspectiva. Usualmente se hace por intento y falla, aunque algunos autores sugieren emplear la fórmula:
Columnas = 1 + 3.3*log(observaciones)



La Campana de Gauss

En estadística, la curva en forma de campana, representa la frecuencia central de muchos fenómenos. También se le denomina curva normal, curva de distribución de frecuencia, curva de Gauss, curva ideal o curva de distribución simétrica.


Medidas de tendencia central


Media aritmética. En una lista de valores el promedio de los mismos es una de las medidas más importantes y significativas. Por ejemplo en una lista de calificaciones, el promedio o calificación media, nos proporciona información acerca del desempeño obtenido.

En estadística, la media corresponde al promedio aritmético.

Mediana. Es la observación central, o sea el punto medio de los datos colocados en orden. Si el número de datos es impar, por ejemplo 15, la mediana es el octavo valor de los datos en orden. Si el número de datos es impar la mediana es el promedio de los dos números centrales.

Moda. Es el valor de datos más común, o sea el que ocurre con mayor frecuencia. Por ejemplo en una hipotética lista de calificaciones pudiera ser una calificación de 75.

En la curva ideal, la media, la mediana y la moda corresponden al mismo valor y la curva es perfectamente simétrica.

La mediana siempre esta en medio de la moda y la media porque es la medida central.

Sesgo. Una curva de distribución real puede estar corrida a un lado u otro del eje central. Decimos que la curva esta corrida a la derecha, cuando la media esta a la derecha (o sea que es mayor) que la moda. En esta curva el área bajo la curva de la sección de la derecha es mayor que el área de la sección izquierda (aunque el pico queda en la parte izquierda).

Ejemplo:   Calificaciones 50 60 60 70 80 90 100

promedio 72.85 (media), moda 60, mediana 70

por eso esta sesgada a la derecha (porque el promedio esta a la derecha de la medida central(mediana)


Medidas de dispersión

Se denomina dispersión a la extensión de los datos en una distribución.


Por ejemplo: si el rango de las calificaciones va de 25 a 100 esta más disperso que el rango de calificaciones de 70 a 100.

Rango o alcance, es la diferencia entre el valor máximo y el mínimo de los valores observados.

La Varianza es una operación intermedia para obtener la desviación estándar y corresponde al promedio de las desviaciones elevadas al cuadrado. Es una medida de la dispersión del total de valores. Al elevar al cuadrado las desviaciones se logra que todos los valores sean positivos y se asigna más peso a las desviaciones grandes.

La Desviación estándar  es la raíz cuadrada de la Varianza. Es lo que se espera desviar de la media.

El coeficiente de variación es una medida relativa expresada como un por ciento. Corresponde a dividir la desviación estándar entre la media aritmética y multiplicar el resultado por 100.

Coeficiente de variación = ( desviación estandar / media aritmética ) x 100 %

Ejemplo: Si el promedio  es 80 y la desviación estándar  es de 4 el coeficiente de variación es 4/80*100% = 5%

Relaciones entre variables.

En ocasiones existen relaciones entre variables, que pueden ser expresadas en una ecuación.

Las técnicas de regresión y las de análisis de correlación buscan encontrar la relación entre dos variables.

La variable conocida se denomina variable independiente, la que se trata de predecir decimos que es la variable dependiente.


Las relaciones pueden ser directas o inversas.






Relación causal, cuando la variable independiente ocasiona que la variable dependiente cambie (por ejem. Temperatura y venta de helado).

Relaciones de asociación, cuando otros factores ocasionan cambios tanto entre las variables dependientes como las independientes (por ejem. Ventas de casas y Ventas de Autos, que no dependen entre sí, sino que ambas dependen de otra variable, el poder adquisitivo de los compradores).

Medidas de distribución

Se indico previamente que si un conjunto de datos está ordenado por magnitud, el valor central que divide al conjunto en dos mitades iguales, es la mediana . Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Esos valores denotados Q1, Q2, y Q3, se llaman primer cuartíl, segundo cuartíl y tercer cuartíl, respectivamente. EL Q2 coincide con la mediana.

Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se le denotan D1, D2,...,D9, mientras que los valores que lo dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2,...,P99. El 5º decil y el 50º percentil coinciden con la mediana. Los 25º y 75º percentiles coinciden con el primer y tercer cuartiles.

Colectivamente, cuartiles, deciles y percentiles se denominan cuantiles



FunciónDescripción
PROMEDIODevuelve el promedio de sus argumentos
INTERVALO.CONFIANZADevuelve el intervalo de confianza de la media de una población
COEF.DE.CORRELDevuelve el coeficiente de correlación entre dos conjuntos de datos
CONTARCuenta cuántos números hay en la lista de argumentos
CONTARACuenta cuántos valores hay en la lista de argumentos
CONTAR.BLANCO Cuenta el número de celdas en blanco de un rango
CONTAR.SI Cuenta el número de celdas, dentro del rango, que cumplen el criterio especificado.
COVAR Devuelve la covarianza, que es el promedio de los productos de las desviaciones para cada pareja de puntos de datos
PRONOSTICODevuelve un valor en una tendencia lineal
FRECUENCIADevuelve una distribución de frecuencia como una matriz vertical
INTERSECCION.EJEDevuelve la intersección de la línea de regresión lineal
CURTOSISDevuelve la curtosis de un conjunto de datos
ESTIMACION.LINEALDevuelve los parámetros de una tendencia lineal
ESTIMACION.LOGARITMICADevuelve los parámetros de una tendencia exponencial
MAXDevuelve el mayor valor de una lista de argumentos
MEDIANADevuelve la mediana de los números dados
MINDevuelve el valor mínimo de una lista de argumentos
MODADevuelve el valor más común de un conjunto de datos
DISTR.NORMDevuelve la distribución normal acumulativa
DISTR.NORM.INVDevuelve la función inversa de la distribución normal acumulativa
PERCENTILDevuelve el k-ésimo percentil de los valores de un rango
RANGO.PERCENTILDevuelve el rango porcentual de un valor de un conjunto de datos
PERMUTACIONESDevuelve el número de permutaciones de un número determinado de objetos
PROBABILIDADDevuelve la probabilidad de que los valores de un rango se encuentren entre dos límites
CUARTILDevuelve el cuartil de un conjunto de datos
COEFICIENTE.ASIMETRIADevuelve la asimetría de una distribución
PENDIENTEDevuelve la pendiente de la línea de regresión lineal
NORMALIZACIONDevuelve un valor normalizado
DESVESTCalcula la desviación estándar a partir de una muestra
DESVESTACalcula la desviación estándar a partir de una muestra, incluidos números, texto y valores lógicos
DESVESTPCalcula la desviación estándar en función de toda la población
DESVESTPACalcula la desviación estándar en función de toda la población, incluidos números, texto y valores lógicos
ERROR.TIPICO.XYDevuelve el error estándar del valor de "y" previsto para cada "x" de la regresión
TENDENCIADevuelve valores en una tendencia lineal
VARCalcula la varianza de una muestra
VARACalcula la varianza a partir de una muestra, incluidos números, texto y valores lógicos
VARPCalcula la varianza en función de toda la población
VARPACalcula la varianza en función de toda la población, incluidos números, texto y valores lógicos



Mayor Información:    Aplicaciones Estadísticas