Buscar

lunes, 29 de abril de 2013

Cuestiones sobre el margen de error y el nivel de confianza



En esta entrada vamos a plantear un par de cuestiones tipo test.

Primero,  Antes de presentar en público un plan por la implantación del voto electrónico, el gobierno decide hacer una encuesta para conocer la posible aceptación de esta herramienta. Así, el funcionario encargado de la encuesta finalmente entrevista a 600 personas telefónicamente, de las cuales sólo 240 (un 40% pues) son favorables a la medida. Además de esta cifra, el funcionario tiene que informar a la ficha técnica de la encuesta de algunos aspectos, como por ejemplo que el nivel de confianza ha sido del 95%. Decidid qué de las siguientes alternativas es la correcta por el que respeta al margen de error del resultado de la encuesta: 

a) 3,92%
± El margen de error es igual a  
b) 0,16%
± El margen de error es igual a  
c) 24%
±El  margen de error es igual a  
d) 5,76%
± El margen de error es igual a  

Nos encontramos con una variable X de una población que en principio suponemos que se distribuye con un P de éxito desconocida. Para poder estimar este parámetro cogemos una muestra de medida, en este caso 600, y definimos una probabilidad de éxito p’ de forma que p’ = número de éxitos observados / medida de la muestra suponiendo que la distribución es aproximadamente normal puesto que cumple las condiciones de n = > 20 y np > =5 y n(1-p) > =  5 , la muestra es de 600 y 600 x 0,4 y 600 x 0,6 son mayores que 5, entonces la pueden definir cono una distribución X=  N(XP,SQR (np * ( 1 – p)) y que las muestras se han obtenido de forma aleatoria e independiente de una población que no ha cambiado durante el muestreo.

A partir de los supuestos anteriores se puede decir que el intervalo de confianza en un nivel de confianza (1- &) , en este caso del 95%, para la probabilidad de éxito poblacional viene dado:

p’+- Z & / 2 SQR (p’ ( 1 – p’) / n)  y de aquí podemos inferir que el error máximo de estimación es la mitad de la longitud de l ‘intervalo , es decir, E = Z & /2 SQR ( p’ * ( 1 – p’)/n )

Cono que en las mesas para Z 0,025 es 1,96 tenemos que E = 1,96 * SQR ( 0,4 * ( 1- 0,6) / 600 ;  E = 1,96 x 0,02 = 0,0392, por lo tanto , la afirmación correcta es la a.


Segundo, ¿Cuáles de las siguientes afirmaciones es falsa:?

a) Cuando mayor es el nivel de confianza, mayor será el intervalo de confianza del parámetro de interés

Si el nivel de confianza, es decir, ( 1- & ) va siendo cada vez más grande, es decir, la probabilidad de que el parámetro estimado esté incluido, efectivamente, en el intervalo de confianza, es decir, el área de la curva normal incluida entre –z y z, mayor será el intervalo de confianza, esto es así puesto que si el nivel de confianza es 85% necesitamos encontrar el valor z de forma que el 85% del área bajo la distribución normal esté incluida entre –z y z, es decir, en las mesas Z 0,075 = 1,44 para indicar el valor normal estándar que corta el 7,5% de la cola superior y la inferior, en cambio para Z 0,5 = 1,96 que corresponde a un nivel de confianza del 95%, entonces los intervalos son más grandes y la probabilidad que el parámetro esté incluido puesto que el área es más grande.

b) Si queremos mantener el intervalo de confianza y bajar el margen de error, tenemos que aumentar la medida de la muestra

Si la desviación poblacional es fija, entonces pueden reducir el error estándar mediante el incremento de la medida muestral, esto hace reducir el margen de error puesto que es inversamente proporcional a la raíz de la medida muestral, y cuando este aumenta hacia  el infinito el error tiende a 0.

c) Podemos bajar el margen de error, bajando el nivel de confianza

Si rebajamos el nivel de confianza del 95% al 90%, el margen de error será más pequeño, puesto que z es más pequeño, el nivel de precisión aumenta, pero la probabilidad que el parámetro esté incluido entre el intervalo de confianza es más bajo. Así, si z pasa de 1,96 a 1,645 tenemos que el margen de error es más pequeño en el segundo, puesto que cómo he dicho antes z es más pequeño y el error estándar de la muestra permanece, por el cual, el margen será más pequeño.

d) El margen de error y el nivel de confianza son aspectos diferenciados y no relacionados

No es cierto, por tanto, esta es la falsa. De lo anterior se puede deducir que no es así, así si suponemos que a diferentes niveles de confianza los márgenes de error tienen que cambiar, en tanto y cuánto, las áreas bajo la curva de la distribución que corta las colas por la parte inferior y superior, es decir, el área comprendida entre los valores encontrados en las tablas de Z, o probabilidad que el parámetro de referencia esté incluido, por lo tanto el nivel de confianza determina que siendo mayor o menor tiene que influir en el aspecto que el margen de error sea mayor o menor puesto que se proporcional a los valor de Z por el error estándar y si el nivel de confianza varía tenemos que buscar la Z pertinente, por lo tanto, hay una relación bajo mi punto de vista.

miércoles, 24 de abril de 2013

Probabilidad de aceptación o no de una propuesta



En esta entrada veremos que en un próximo referéndum se vota a favor o en contra de una ordenanza municipal que prohíbe la utilización de reproductores musicales a la calle. Se lleva a cabo un sondeo entre 75 personas elegidas al azar para estimar cuál es el grado de aceptación de la medida y el 60% se muestra a favor de la prohibición.

Primero se va a calcular la probabilidad que el ordenanza municipal sea rechazada usando el programa Minitab en lugar de las tablas (Nota: para rechazar las propuestas legislativas hacen falta como mínimo un 50% de los votos).

Para una muestra grande, la probabilidad de rechazo sigue una distribución aproximadamente normal con una media π = 0,6 y una desviación estándar SQR((pi(1 – pi)/ n) = SQR(( 0,6 * ( 1- 0,6)/75) = 0,0565

Para que la medida sea rechazada hay que determinar la probabilidad de que esta opción obtenga un valor inferior a 0,5 (menos del 50% de los votos)

P ( x <= 0,5) = P ( Z <= 0,5 – 0,6 / 0,0565 = P ( Z < - 1,7668 = 0,0386

Usando el minitab vemos que esta probabilidad es del 4%.

Cumulative Distribution Function
Normal with mean = 0,6 and standard deviation = 0,0566
x P( X <= x )
0,5 0,0386322










Segundo, Sin hacer ningún cálculo con el Minitab, razonáis como se vería afectada la probabilidad de rechazar el ordenanza municipal si en lugar de encuestar 75 personas se hubieran encuestado 150 y también el 60% se hubiera mostrado partidario del ordenanza municipal?


Si la encuesta se hubiera hecho a 150 personas en lugar de a 75, la media seguiría siendo 0,6 pero la desviación estándar sería más pequeña puesto que


SRQ ( 0,6 * (1 – 0,6) / 150 < SQR ( 0,6 * ( 1 – 0,6) / 75 = 0,0566

Por lo tanto, al ser más pequeño el denominador, el valor tipificado obtenido será más grande en valor absoluto pero cómo tendrá signo negativo la probabilidad a la izquierda de este valor será ahora más pequeña. Es decir, al tener una muestra más grande, nos fiamos más del resultado de la encuesta, por lo cual la probabilidad de que el resultado final contradiga la encuesta será menor.
 






jueves, 18 de abril de 2013

Parámetro que define un sistema ecuaciones como determinado o no



Dado el sistema, 



 
a) Para qué valores del parámetro el sistema es compatible determinado?

 Para ser un sistema compatible determinado el rango de la matriz de coeficientes tiene que coincidir con el rango de la matriz ampliada y coincidir con el número de incógnitas. Cómo que tenemos 3 incógnitas y tres ecuaciones, sólo hay que encontrar los valores del parámetro para los cuales el determinante de la matriz de coeficientes del sistema sea diferente de cero.

Calculamos el rango de la matriz de coeficientes haciendo su determinante,




Si  a al cuadrado - 16 = 0, entonces a = 4 y a = - 4 . Por lo tanto, el sistema es compatible determinado cuándo a es diferente a 4 y -4 . En cambio,  el determinante de la matriz es cero y el rango de la matriz de coeficientes es inferior a 3.


b) ¿Para qué valores del parámetro el sistema es incompatible? 


El sistema no es compatible determinado para a = 4 y a = - 4
 
 Veremos que pasa para a = 4


 
La matriz de coeficientes del sistema es, 




y la matriz ampliada es 





Buscamos una matriz de orden 3 con determinante diferente de cero, 





Así el rango de la matriz ampliada es 3, diferente del rango de la matriz de coeficientes. Por lo tanto, el sistema es incompatible para a = 4

Si analizamos que sucede para a = - 4, entonces
La matriz de coeficientes del sistema es, 





y la matriz ampliada es 





Buscamos una matriz de orden 3 con determinante diferente de cero, 





Por lo tanto, el rango de la matriz ampliada es 3, y por los razonamientos anteriores, el sistema también es incompatible para a = - 4.




c) ¿ Para qué valores del parámetro el sistema es compatible indeterminado? 


c) Para ningún valor del parámetro el sistema es compatible indeterminado, como se deduce de los apartados anteriores.  

 
d) Resolvéis el sistema para a = 2:




Y por Gauss,






Hemos llegado a:







Por tanto x = y = z = 1

Por Cramer:











miércoles, 17 de abril de 2013

Problema sobre distribución de media muestral


En  una entidad bancaria saben que el número de días de retraso en el pago de las cuotas de los créditos hipotecarios sigue una distribución de media 5 días y desviación estándar 30 días. Elegimos al azar una muestra de 225 clientes con crédito hipotecario.

a) Qué distribución de probabilidad sigue la media de la muestra de 225 clientes?

La distribución de la media de la muestra seguirá una ley normal, aunque la distribución de la población fuera no normal, puesto que la distribución de la media muestral basada en una medida n será aproximadamente normal y cuando n es más grande más normal es la distribución. Está claro, que si la distribución de la población es normal, la distribución de la media muestral también lo será.

Es decir. Con esta premisa podemos decir cuál es la distribución de la media muestral puesto que tenemos que la media de la distribución es 5 días y el error estándar de la muestra es el cociente entre la desviación estándar de la distribución y la raíz cuadrada de la medida muestral, es decir, N(30 / SQR (225)) = 2, o el que es el mismo _N(5,2).



b) Calcular la probabilidad que la media muestral oscile entro 8 y 10 días.

Es decir, el área que queda por debajo de la curva normal definida por los parámetros que caracterizan la distribución de la media muestral: 



; P ( 1,5 < Z < 2,5) à 0,93319 < Z < 0,99379

Es decir, la diferencia entre 0,99379 y 0,93319 es la probabilidad que la media oscile  entre 8 y 10 días.

Y esta es 0,0606. 


c) ¿Cuál es la medida muestral necesaria para garantizar que la probabilidad que la media muestral supere los 10 días sea del 9,68%?

Primero tenemos que buscar el valor de la variable estandarizada Z a las mesas y este es – 1,3.

Segundo, conocemos que la desviación de la media muestral o error estándar es el cociente entre la desviación típica de la distribución y la raíz de la medida de la muestra que buscamos


P ( _X>10) = P ((_X - 5) / (30 / Sqr(n)) > ( 10 - 5 / 30 /sqr(n)) = P (Z > srq(n) / 30 ) = 1 - P ( Z <= sqr (n) /30 = 0,0968

entonces,

P (Z <= 5 * sqr(n) / 30 ) = 1 - 0,0968 = 0,9032 --> sqr (n) / 30 = 1,3 

en donde n = ( 30 * 1,3 / 5) al cuadrado dando 60,84 que representa que 61 días será el tamaño muestral.

 

sábado, 13 de abril de 2013

Cuestiones sobre distribución muestral II



En esta entrada vamos a seguir con dos cuestiones tipo test sobre distribución muestral

Primero, el número de llamadas de teléfonos fijos a móviles al día en un país nórdico tiene una media de 3 y una desviación estándar de 14. Cuál es la probabilidad que la media de las llamadas de fijos a móviles a un municipio con 70 teléfonos fijos sea de 5 llamadas al día o más?

a) 88,4
b) 11,6
c) 100%
d) 2,79%

Segundo, en la tabla  siguiente se muestra la distribución de rentas brutas anuales de una población de 10000 habitantes por intervalos:

Rentas (miles €)
Núm. habitantes
Menos de 20
10%
Entre 20 i 40
40%
Entre 40 i 60
30%
Más de 60
20%


Si se quiere obtener una muestra de 450 personas mediante un muestreo estratificado, cuántos habitantes con rentas entre 20 y 40 mil euros anuales habría que entrevistar?

a) 30.
b) 180
c) 225
d) 135


Para la primera cuestión la solución: b)

Consideramos la variable aleatoria X=”número de llamadas de fijos a móviles al día”. Por el enunciado se sabe que X tiene una media = 3 =X μ y una desviación estándar = 14 =X σ . Se pide calcular una probabilidad sobre la variable aleatoria media muestral y sabemos que, por aplicación del TCL, la media de una muestra grande, n>30, obtenida de una distribución no normal sigue una distribución N(μ;σ/sqr( n) ). Como la medida de la muestra es n=70, la distribución que sigue es N(3;14/sqr( 70))= N(3;1,6733).

Entonces, la probabilidad buscada es del 11,6%:

P ( _X>= 5 ) = P ( (_X – 3 / 1,6733) >= ( 5- 3 ) / 1,6733)) = P ( Z >= 1,2) = 1 – P (Z < 1,2) = 1 – 0,88 = 0,116

Para la segunda solución: b)

El número de habitantes con rentas entre 20 y 40 mil euros anuales que habría que entrevistar es el 40 % de las 450:

40 / 100 * 450 = 180 habitantes.

Cuestiones sobre distribución muestral I



En esta entrada vamos a plantear dos cuestiones tipo test:


Primera, una empresa tiene unos costes variables totales (X) que se distribuyen normalmente, con media 5 y varianza 25. Sus costes fijos (C) se estiman en 3 y los ingresos (Y) se distribuyen también como una variable normal con media 10 y desviación típica 9. Cuál será la probabilidad que su beneficio (B) sea positivo? (Nota: el beneficio se obtiene restando los costes variables y fijos a los ingresos)


a) 0,5753  
b) 0,4247
c) 0,6054
d) 0,3946


Segunda, se ha de razonar cuál de las siguientes afirmaciones es falsa:


a) Por aplicación del Teorema Central del Límite (TCL), la distribución de la media muestral basada en una muestra de medida suficientemente grande será siempre aproximadamente normal.
b) La desviación estándar poblacional de una variable binaria es igual a  raiz cuadrada de pi * ( 1- pi)
.
c) La media muestral,
,_x, obtenida de una población que no se distribuye según una ley normal, no tiene que seguir necesariamente una ley normal.
d) La media muestral obtenida a partir de una variable binaria y con una medida muestral no está normalmente distribuida.

Para la primera cuestión la solución: a)

Si ingresos=Y, costes variables=X y beneficios=B, tenemos que B=Y-X-3. Se pide encontrar P(B > 0).

Para hacerlo, en primer lugar hay que determinar la distribución de la variable aleatoria beneficio (B):
E(B) = E(Y − X − 3) = E(Y ) − E(X )− 3 = 10 − 5 − 3 = 2
V (B) =V (Y − X − 3) =V (Y )+V (X ) = 81+ 25 = 106

Así, B N(2; 106). Por lo tanto, la probabilidad buscada es:

P(B>0) = P ( Z > ( 0 – 2 / SQR (106)) ; P  ( Z > - 0,19) = P ( Z < 0,19) = 0,5753

Para la segunda cuestión la solución
: d)

La respuesta a) es cierta puesto que el TCL dice que las medias muestrales a partir de cualquier distribución acontecen normalmente distribuidas a medida que aumenta la medida de la muestra.

La respuesta b) es cierta puesto que la desviación estándar de una variable binaria de media π es π (1 −π ) .

La respuesta c) es cierta puesto que por aplicación del TCL para que la media muestral de una distribución no normal siga una distribución normal hace falta que la medida de la muestra sea grande.

La respuesta d) es falsa puesto que cuando n>100, la media o proporción muestral de una variable binaria está normalmente distribuida.

Plantear un sistema de ecuaciones



Una empresa fabrica tres artículos, A, B y C, que vende en tres mercados diferentes a los que denominaremos “Mercado Norte”, “Mercado Sur” y “Mercado Centro”. Las unidades vendidas en un día de cada artículo a cada uno de los mercados, vienen dadas por la tabla siguiente:


Precio
Unidades vendidas mercado norte
Unidades vendidas mercado sur
Unidades vendidas mercado centro
Articulo A
x
4
0
6
Articulo B
y
3
4
2
Articulo C
z
2
1
0


Se pide:

a) Plantear el sistema de ecuaciones que determina el precio de venta de cada uno de los artículos (x,y,z), si sabemos que los ingresos por ventas diarias al Mercado Norte, Mercado Sur y Mercado Centro son 14€, 10€ y 10€ respectivamente.
a) Resolver el sistema de ecuaciones planteado en el apartado anterior.
b) Si el coste de producción unitario del artículo A es 0.5€, el coste del artículo B es de 1€, y el coste del artículo C asciende a 0.75€, cuál es el beneficio que obtiene la empresa en un día?  

Nota: Beneficios = Ingresos – Costes.

a)      El sistema de ecuaciones es:

4x + 3y + 2z = 14
4y + z = 10
6x + 2y = 10

b) Comprobamos si el sistema es compatible determinado haciendo el determinante de la matriz de coeficientes,









Como que es diferente de cero, el rango de la matriz y el de la matriz ampliada coinciden y, además, coinciden con el número de incógnitas. Por lo tanto, es compatible determinado y, dado que el determinante es diferente de cero, podemos aplicar Cramer para encontrar la solución. Así,















Por lo tanto, los precios de los artículos A,B y C son respectivamente de 1uno.m., 2 uno.m. y 2 uno.m.
Si resolvemos por Gauss, al primer paso multiplicando la primera fila por (-6/4) y sumando la tercera, y después multiplicando la segunda fila por (5/8) y sumando la tercera, obtenemos,









 Así tenemos,




Y, por lo tanto, obtenemos x = 1 , y = 2 y z = 2.

c)

Beneficio artículo A = (precio venta unitario - coste unitario) • número de artículos A = (1 - 0.5)•10 = 5

Beneficio artículo B = (precio venta unitario - coste unitario) • número de artículos B = (2 - 1)•9 = 9

Beneficio artículo C = (precio venta unitario - coste unitario) • número de artículos C = (2 - 0.75)•3 = 3.75 

Por lo tanto, el beneficio total es de 5 + 9 + 3.75 = 17.75 un.m.