Buscar

viernes, 12 de abril de 2013

Estadísticos descriptivos de una variable



En esta entrada se expone el siguiente problema:

La línea aérea LA quiere optimizar el rendimiento de su trayecto Barcelona – Madrid en hora punta (de las 7:00 a las 9:00). Concretamente querría minimizar el número de asientos vacíos en este trayecto y franja horaria. A tal efecto, se ha contabilizado el número de asientos vacíos en 30 vuelos de estas características (franja horaria y línea aérea) de Barcelona en Madrid. La información obtenida es la siguiente:

5, 6, 9, 8, 8, 5, 9, 9, 7, 6, 6, 7, 6, 7, 7 9, 9, 8, 9, 8, 6, 6, 5, 7, 6, 7, 7, 8, 7, 9

Se pide:

a) Calcular con Minitab los estadísticos descriptivos de la variable número de asientos vacíos y representáis los datos con un diagrama de caja. Engancháis los resultados obtenidos en vuestro documento de respuestas.
b) ¿Teniendo en cuenta los resultados del apartado anterior, qué número de asientos vacíos sería más representativo del trayecto estudiado?
c) Disponemos de otro conjunto de datos, correspondiendo al número de personas que viajan (en un vuelo de las características examinadas) con alguno sentando vacío al lado, del cual sabemos que la desviación típica muestral es s = 10,9. ¿Podemos afirmar que estos segundos datos son más dispersas que las primeras?


a) La opción de menú de Minitab, Stat > Basic Statistics > Display Descriptive Statistics, nos permitirá obtener los estadísticos descriptivos. Hemos creado una variable que se llama Asientos, donde se encuentra la información, en términos de asientos vacíos, del enunciado. Pasamos la columna Asientos a la caja Variables y validamos, obteniendo
Variable N Mean Median TrMean StDev SE Mean

Asientos 30 7,200 7,000 7,214 1,324 0,242

Variable Minimum Maximum Q1 Q3
Asientos 5,000 9,000 6,000 8,000

Para construir el gráfico haremos uso de las opciones de menú Graph > Box Plot. Pasamos la variable Asientos a la columna 1, hila 1 y validamos. Obtendremos, 




b) Es una distribución prácticamente simétrica, tal y cómo se observa a la representación gráfica anterior. Así pues podemos afirmar que tanto la mediana como la media serán medidas de centralidad representativas de la distribución. Diremos que el número de asientos vacíos más representativo de este trayecto es 7, pues la mediana es igual a 7 y la media es igual a 7,2 asientos vacíos.


c) No podemos afirmar que los datos con desviación típica sean más dispersas que las descritas anteriormente pues las muestras se expresan en unidades diferentes: el grupo de observaciones que analizamos cuenta el número de asientos vacíos pero este segundo grupo examina el número de personas que viajan con alguno sentando vacío. Necesitaríamos  la media de la segunda muestra porque así, mediante el coeficiente de Variación de Pearson, poder compararlas.

Sistema de ecuaciones compatible indeterminado



En esta entrada vamos a exponer el siguiente ejemplo, ¿Cuánto tiene que valer para que el sistema de ecuaciones sea compatible indeterminado?

Es un sistema homogéneo, por lo tanto seguro que tiene al menos una solución, . Por lo tanto, el sistema es compatible y por el teorema de Rouche, entonces, el rango de la matriz de los coeficientes es igual al rango de la matriz ampliada. Para ser compatible indeterminado hará falta que el rango de las matrices sea inferior a 2.


a) Por Gauss, multiplicando la primera fila por (-1/5) y sumando la segunda,

 


 

Si 2 + a = 0, es decir si , a= - 2 el rango de la matriz es 1, y como el número de incógnitas es 2, el sistema es compatible indeterminado.
Si a es diferente de 2 , el rango de la matriz es 2, y cómo coincide con el número de incógnitas, el sistema es compatible determinado.




b) Por determinantes,

 






Igualamos a 0. Si el determinante es nulo, el rango de la matriz es igual a 1. Por lo tanto,

10 + 5a = 0 ; a = - 2

Así para el sistema es compatible indeterminado.


jueves, 11 de abril de 2013

Problema de estandarización de una variable



En esta entrada vamos a exponer un problema que dice así, una facultad recibe solicitudes de ingreso para el siguiente curso. Los aspirantes se someten a pruebas selectivas puntuadas entre 0 y 1000. Se considera que la calificación obtenida por un estudiante elegido al azar entre los que hacen la prueba selectiva sigue una distribución normal de media 550 y desviación típica 100.

a) Si la facultad decide admitir el 25% de los aspirantes con calificaciones más altas de la distribución total, ¿cuál será la nota de corte?
b) Se ha de determinar el porcentaje de estudiantes que obtienen una puntuación entre 620 y 740.
c) Sabemos que en la convocatoria de este año, 350 estudiantes han obtenido una puntuación entre 400 y 450 puntos. Entonces, ¿cuántos aspirantes obtuvieron una puntuación entre 620 y 740?

Indicación: para resolver este apartado es conveniente que primero determines el número de estudiantes que se han presentado a la convocatoria.

a) Sea X la nota obtenida en la prueba selectiva por un estudiante elegido al azar entre los que hacen la prueba. Del enunciado tenemos que X se distribuye según una N(550,100). La nota de corte tiene que ser un valor x0 tal que 0,25=P(X > x0) pues la facultad decide admitir sólo el 25% de los estudiantes con calificación más alta. Al estandarizar, podemos formular equivalentemente la condición como 0,25 = P(Z > (x0-550)/100) = P(Z < (550-x0)/100), donde Z denota una distribución N(0,1) y en la última igualdad se ha hecho uso de la simetría de la normal estándar. Si consultamos la tabla de la N(0,1) tenemos que (550-x0)/100 ≈ -0,675 y por lo tanto x0 ≈ 550 + 0,675•100 = 617,5 puntos y la nota de corte es 618 puntos.

b) Para determinar el porcentaje de estudiantes que obtienen una puntuación entre 620 y 740 puntos necesitamos calcular P(620 < X < 740) = P((620-550)/100 < Z < (740-550)/100) = P(0,7 < Z < 1,9) donde nuevamente se ha aplicado estandarización. De la mesa de la N(0,1) vemos que P(Z ≤ 0,7) = 0,75804 y que P(Z ≤ 1,9) = 0,97128. Por lo tanto P(0,7 < Z < 1,9) = 0,97128 - 0,75804 = 0,21324 y el porcentaje pedido es del 21% de los estudiantes.

c) El número total de estudiantes N que se han presentado a la prueba se puede deducir del hecho que 350 aspirantes han obtenido una puntuación entre 400 y 450 puntos. Con similares argumentos a los del apartado anterior, se tiene que P(400 < X < 450) = P(-1,5 < Z < -1) = 0,15866 - 0,06681 = 0,09185. Tiene que ser 350/N ≈ 0,09185 y por lo tanto N ≈ 350/0,09185 = 3810,5607 ≈ 3811 personas. Cómo del apartado anterior sabemos que el 21% de los presentados obtienen una puntuación entre 620 y 740, podemos afirmar que en esta convocatoria han sido 3811∙0,21324 = 812,65764 ≈ 812 personas.

miércoles, 10 de abril de 2013

Matriz inversa



En esta entrada calculáis la matriz inversa de , 


y comprobáis que el resultado que habéis obtenido es correcto, es decir comprobáis que .

Primero encontramos el determinante de la matriz,


 

Cómo que es diferente de cero, sabemos que existe . A continuación calculamos la matriz adjunta, 



y transponemos,

.
Multiplicamos por la inversa del determinante y obtenemos,

.


Para comprobar que el resultado es correcto, utilizamos la propiedad 









De forma alternativa, podemos encontrar la matriz inversa por Gauss, 









En el primer paso hemos multiplicado la primera fila por (-2/3) y hemos sumado, multiplicando el resultado por (-1/10). Finalmente sumamos las dos filas para anular -1 de la primera fila, y dividiendo el resultado entre 3 obtenemos la matriz inversa.

 



Cuestiones sobre distribución normal estándar



En esta entrada vamos a considerar que los beneficios anuales (medidos en miles de euros) de las empresas de un cierto sector siguen una distribución aproximadamente normal de media 10 y desviación estándar 2. Si denotamos por Z una distribución normal estándar, ¿qué porcentaje aproximado de empresas obtienen beneficios por encima de 7000 euros?
a) 7%, que podemos calcular como P( Z < (10-7)/2 ) = 0,06681
b) 7%, que podemos calcular como P( Z < (7-10)/2 ) = 0,06681
c) 93%, que podemos calcular como P( Z < (10-7)/2 ) = 0,93319
d) 93%, que podemos calcular como P( Z < (7-10)/2 ) = 0,93319

Segundo, para una distribución N(µ, σ), qué de las siguientes afirmaciones es falsa. Aproximadamente,

a) el 95% de las observaciones se encuentran a una distancia menor a 2∙σ de µ
b) el 5% de las observaciones se encuentran a una distancia superior a 2∙σ de µ
c) el 97,5% de las observaciones se encuentran a una distancia menor a 2 ∙σ de µ
d) el 2,5% de las observaciones resultan superiores a µ + 2∙σ

 Solución primera cuestión: c)

Sea X la variable que mide (en miles de euros) los beneficios de las empresas del sector; del enunciado conocemos que X se distribuye según una ley N(10, 2). Estamos interesados en P(X > 7).

Las opciones a) y b) tienen que ser descartadas inicialmente pues 7 es inferior a la media de la distribución y, por lo tanto P(X > 7), es superior a P(X > 10) = 0,5 y por lo tanto el porcentaje pedido es superior al 50%.
Estandarizando tenemos que P(X > 7) = P(Z > (7-10)/2) donde Z es una variable distribuida según una N(0,1). Si recordamos la simetría de la distribución normal estándar, P(Z > (7-10)/2) = P(Z < (10-7)/2) = 0,9332 y por lo tanto la opción correcta es la c).

A la segunda cuestión: c)

Según la regla del 68-95-99,7, el 95% de las unidades de la población tienen valores entre la media menos dos desviaciones estándar y la media más dos desviaciones estándar, el que valida la opción a). Observamos que por la misma razón la opción b) es cierta pues el 5% de las observaciones restantes quedarían , o bien por sobre µ + 2∙σ o bien por debajo de µ - 2∙σ. Esta repartición del 5% restante es simétrica resultando el 2,5% de las unidades de la población por sobre µ + 2∙σ y el 2,5% por debajo de µ - 2∙σ con el que la opción d) también es cierta. La afirmación falsa era pues la c)

Observamos que si que sería cierto el hecho que el 97,5% de las observaciones resulta inferior a µ + 2∙σ pero no todas estas se encuentran a una distancia menor a 2∙σ de µ: por ejemplo µ - 3∙σ es claramente inferior a µ + 2∙σ pero su distancia a µ es igual a 3∙σ.

martes, 9 de abril de 2013

Cuestiones sobre desviación estándar y distribución asimétrica



En esta entrada vamos a exponer dos ejemplos tipo test sobre desviación estándar y sobre distribución asimétrica a la derecha.

 Un arquitecto no conoce con certeza el número de días necesario para finalizar un cierto proyecte “tipo” (por ejemplo, la reforma completa de un baño) pero estima que en media se necesitan 15 días con una varianza de 4 días2 . Si los costes de la mano de obra ascienden a 200 euros al día, cuál será la desviación estándar σ del coste en mano de obra necesario para finalizar el proyecto?

a)      σ = 100 euros
b) σ = 400 euros
c) σ = 800 euros
d) σ = 3000 euros

 Solución: b)

Para determinar el coste necesario para finalizar lo proyecto tipo, estamos realizando una transformación de los datos que consiste a multiplicar el número de días necesarios por el coste diario en mano de obra, es decir por 200. Por otra banda, del enunciado conocemos que la desviación estándar del número de días necesarios es 2. Así, la desviación estándar de los costes necesarios en mano de obra para finalizar el proyecto es 200•2 = 400 y la opción correcta es la b).


Segundo,  Es conocido que la distribución de una cierta variable es asimétrica a la derecha. Al calcular las medidas de centro se han obtenido los valores 2,8 y 3,4 pero no hemos anotado cuál corresponde a la media aritmética y qué a la mediana. Entonces, cuáles de las siguientes afirmaciones es cierta:

a) 2,8 es la media aritmética y 3,4 es la mediana
b) 2,8 es la mediana y 3,4 es la media aritmética
c) No puede ser que la mediana y la media aritmética sean diferentes
d) Es imposible responder sin tener la representación gráfica de la distribución


Solución: b)

Cuando la distribución es asimétrica, la media aritmética siempre es arrastrada hacia la cola de la distribución. En el caso de una distribución que es asimétrica hacia la derecha, la media aritmética es más alta que la mediana y la respuesta correcta es la b).

Búsqueda valores del parámetro el rango matriz sea 3

Dada la matriz , ¿para qué valores del parámetro el rango de la matriz es 3?




Para que el rango de la matriz sea 3, su determinante tiene que ser diferente de cero. Si calculamos el determinante aplicando la regla de Sarrus encontramos,

.


Los valores que anulan este determinante son:



El resto de valores que no anulan el determinante. Así para el determinante es diferente de cero, y por lo tanto el rango de la matriz es 3.