From 384feaa1db2a76ed503aa3ea62260bda2edb106f Mon Sep 17 00:00:00 2001 From: Dfranzani Date: Sun, 18 Feb 2024 21:37:03 -0300 Subject: [PATCH] Formato --- docs/est2+inferencia.pdf | Bin 1218849 -> 1218912 bytes docs/est2+inferencia.tex | 2 +- docs/index.html | 2 +- docs/search_index.json | 2 +- docs/style.css | 4 ++-- 5 files changed, 5 insertions(+), 5 deletions(-) diff --git a/docs/est2+inferencia.pdf b/docs/est2+inferencia.pdf index 7f1ec0d74c42ba53a1d722f92965e3f654ddcc6b..9116a09461f9ad289eb2a040897ddb4e51338c09 100644 GIT binary patch delta 23467 zcmZU(b97|g6Zae2wmH$n>DacDiEUdQ+nCt4tw}Ny+qP}v&itNt-F4q}|Jc3Gx2jL~ zS*L1$PMz92zd?GtLAs6-6dylkv5&i*&oy=n?~(VE3)ve8e0!T?`fBtZPEt}qZ&U#V z@I$h)urqT6B?z=82!MX^{F5v!NeKeqT6?`gJxTwkIsd24vq6>V|7q6${Kq4pj_9DA zt=b!)R!G2dHBowEo#(3e7DD~I!%j0mxqz>h4{I$WQ^rie^P81tySATrNt{NZSFAe+ zQ){(hlgIT6XubY~_(fYl)TCwC+fA+6qf3j0TW>C>{nnzh*JaewV#=IZi#Encs({hA zrKH!3#G`M?dsuDsSaP2HwSE<2R!!QA2W9DT>T|%>q*vW`8>&4#X+t)9^MjSHK~4+h z7;(jK2W_DKVvRJAZ2~o0Kb^sd7WT|o%H5Ee)En=tdNSlI78-1(*0erE02RwyyJ(}g z4mh-9ol5)YYM<2^yX})rhfBb6YJr9MRv!NSLV||no?i0atK$Wxxkk4@@!B!$shpde zG*=+l`H9?>vM-4abN#4ODv)^==5nOh`||+21fv8o3!xJlsraI-E6#r_ZI6F;^6T?$ z1vt$lkaOD>dF}6g5_f8sxQ)t}V|sr!p`q8IbB8%cLeKBex-+DeLlq#naLY>^Ofp!m zV}aG(k+Rs+2-@Yi{}}nH_>ntWrfbf1xdHs%RaugnL^q228KTDf6h4BRvn5nH%>6mP zSFlezj3dV7;HNt{d@DAk-0zB8c+dYDiKqU{aSJiE+1a%0?R)b(4%LaCNP1zD<9-73w4%=5%zDT;L<`G( zR+uWX4(}eUo@aLozP7NQAm`E=?;hKg8|0Z2|pRuP)hP_v2T> zvd{M>EduzK5q8|XMPa%AZK%G1kt(3`I0+KtA{1lxVLPr?6)G$oaafjYD6Zh;vVoT2 z_D$@H6erY9sZ&tW*m%+5;+ZU?!Wqosqu~w^@c;ukLonF>S0k=Ftmw1B$OllVEL}~f zs$`-qJ9m;=n@Y=r%4C?@!l5)=`cflF!NiI721R4}IDQKA{%j*{9n$tAJ|0+z#XIEy zzaqI<)4usEaqw$4&1hJfdt55R1ClX99oo;YGlo7^^pi zqR$;eVXEZ1E8S4o?s$Nx`9}@ws*i-n;`KBSIhe*oLVMXG#pXCI6#y0Q{OUM=%E0dY z0_?SryDk7aEn`cpk1SqoV;==1lDw0h=c`mc?L)cAj3SoH4tu zRsiRh6T9{8iGQi}2WgIS;uRtxdFK-um6B9DwVoIZJxuQ!v{mmKjQbzOI9a~`k77fp z;OPwiGzZ{+I!*xml?>vq=1htgplfY20{=nx&&~OtTR0ZHo&BE%{CE1d-{2I%e>Kg2h`sI-Fj{X)1~mw|9_ym)B$sh_xJC(SX29~An04K z7GPwF{`uKh|93f7_b?&d|1|r5zem&n8%ERs_jkbm9SE&N4TvL9|NIDbfky1>UCbdj>2cUM(7(QA~@|+b1ojP(H*4;pX7Qs}c zSn5*PL)SZdE{07lUqFf$Hu+9dB3W+Pd+s0RoHM_wk12tljZc(_3z5hlC0#^-t**&j z0pC%LQjcZuvx#4%uOT1Q>o93Ozy=KO?=e!=bj?HoL8H7?LFySi+#yl4cR6&zR-!89 z)tEndq`?~};vcN>#<`9CJDrS`Lmdx$R#->Hy=JZy2y$+T)t~)6`Zk8gFWNKj*h-JE zU^Q=*q;iWNus#J)gG(*DA@}59L}vY(pPS#?%u@O^=Im{-);-M$!H~0AfZ#-u0%W?# zQ$xOE<}QWkAnVsAUr;Jb!dDZ3-)LYcq6Arztq6L3Z@(cS7?X7YacfC!j#(-5N52bA zo?Ts6y}hcavmBPly6PJZMO%qcccARb?mt|rj2F*&TUp@J-%Y8+7(G%R ziiZggeFg?}Mzgm5khW4GrJ`{mr9;fi-KV}rquF{beDn`heHseGC1diBR5PXl8}=To`-lfm+i zOZHZ0$Vo=-lTnZG+8@X&e|n75^ONya3eSX%f8MsfBn8S zK-&uKv%`un$J!$rP*~r6BKiSZ<6s)j+U;9ayUOwo=3+6!PKk#1Wn_Dm)|NlA{o9QD z^-D$SEH@Gp#3e*UcPbNmPh=4mg-o9 zh~ApPi!=@Q48>VIG6`j47N;>aPf;D2?i{Q`34KYjuLtf`I*$aJmT&&aoC|8p_v zqqO^i0$NYjQ4pXYEWq&vTVHlj;6Q;rU?+Vbw8UV_o6xgD*j|uSls=KRP2g*c9%&q?u{HMouFML654TN{;~b&sSl=1d^R906K~ZdJ zi5*7dBNHC8AzPGP=yrDBVFQJq#@{Y#u+p3ta@ zeAWv3D;`BR%w|UJD(NV^2>~co4_?HeV5BX`Bcw_kn}i2cZ}uBUoq4g6?Iwpq3ar~9 z3OOS*E3q+Vm{cd~(M;pfDj%4jFTMr~bMGElba99DiOD9CKK~uY;9alcbhwDSE{LIK zWD!-pK{IM7-3}jb*A0$v0n|r*uN13G1&4XOM4I`Ek;mr^e+z3l(*&lTp}ffrLFwa< zJmJcaMDA#H8?-Wq>+uH8J*Gn$!4uEvBJ&G0fTm<(?7oqF%|I7dn$=rO9^tq@_$LQo z*dyFS7nPg6dO!Hzx9D7c^I_3tf4DpR@R`w(x`{4zQr_Tq6<)UTJ#0+lmTa3!SF@_< z%v^~8KXf%e?95{OSqD5LeL(4#{(;jr@ADcV2jK=4Le~IEY`6pJM%B6jg-jXj-dYkj z`W{KT^?S@Of1KXNGzKOkfydzh<0OIIH8_U3XHxIV(Fj@e?J?k+nKHky?1f{b*yVO$ zuPuTAMr$h0moo0n(5>>6L}-nIOt-?d>kGg8)WmNjr^5vl=vv??9r~oT?UjoG$MKvQ zBJV2)@u1xZK5}9+QrCF=>2K(*!8?>QqN9oY!;8v^E-e3}gXqpFZFxqHngEV)(^mxtfBqn9f5_f zbKi^R(b}nz{|k_5@LFg{{!Mrrr0IrR_f2Xj*1!LC%`QKTEM)H}HJ1@ew0O?c`$s-k zmjy}v*&Tz#r|Y2=~mdP8a6=n-c{6Qcit$Duj8>c z&Z~z4Z5IocgQTWO%_ZE^qjA#Mybd=aow z`TchKgeLH788r@x=;nBdJg1QO=34J|6IFrZWzG&70q0`757}P!OoQa3B7h>ypW-Fd zJS5j)g2D*Tmn#4yn@N$FZLzCz;+mI?I3gN8v3DuEG?Ux-D`u@6yalv*=kn-P|9QTo zJJD*4t{f;?;gPUTn>g~z7*ge~1fU?D6udX48JP#|)r<>kJIa2w)2g7IzFcuMGiYo4 z_tI>(6Q-t(bD;fQ!@{S`AqZgJC`r&nLHaf5R`-acp5Pws>>>ntRH`S|$DbRCE>6x} zk1~UfSCtl`kJP%wMd@qP`h8v~FBMb&UtDUAu4FJJ z&F*7%c_u}XU-0lrqv#6QN7L{ z70B1*NRjFx{d}SZtNODD`bp8IX?-O?vW> z<#>+{ z$M+to(qO@F+j|hGpC7T7?dc4CDmX%D4E&jLmby4J7w%H;%LRe?PBq0!+LK3Ae?-dy z!}p1v+wYT78)%JLcVQxaLUnCvjG0E`@kSfB9ZQ_Fb<%R|D7?obc97fgMihLXowOO( z=wRLe%*avD7+Z?VnWByZYQ|t!CIKaw)F(U{26Nw+p*l72Tz%(zPMiy@VO>S8bw{tN z>P#Ue+8X+Eu2a89!i7aDs(Ywb0S$Lg134%1_3hVdTJ7f^2;Xh7o4IA_9-3~6s$B{$ z;p|_6d$n04Wq7n3B&3-e_Hl(B4dc;@R#VOyX{FbT6EQ4P=#8Vfy91uJcY$Age7Zf0 z4|H%Bwc}L+d#`huJ7OKNlb?9`O8S9fm zXfjf;MxL~o)6A#|3Esmj0g~=m*pvNQ2dB0HLFe#??fBF=DqI3&1;)$a{~igQhDw-0 zW-8<4YGnfWlmEO9Kr^D1f=(Gilu(Y51|FjdH!j3i{u{8EKZ3}({BY`M z>E35Cr-}#CVS)D;$oSOc5{HG6UULm)S!6hOjCwr5Nb8U$^K&Ms6gU)=TtwY$j$<*W zgBKd+?>xdXXc5baqA%kUliAcKx4BJe50XB2O~&K*M373|NeRV^Q9%jy+?@>FR6+@s z$HqWN$d*qzr5KDwF9OCr>|pQUjTH4M4G%e|dy?npZQp!UH62LUxed)1jJ+2|^N_g4 z&eddK&`0Z)XEc5B0L-zPQp$$}hgS*7MKhMRW2L+Is(;ul{-9*(FZdvAkR!E&Gpc#| z9#San2VU3pIX^#>(1+=2^7xLS{aX?gXH*}KxnB+zsO0#Aw2Fo|vk<8`KGoV1hK6jFQS9(6E?Vm(*W+co`PSjIvAIbN3%C1X*vYPkuVw?;vA)F zL=S;g{#z4oYniKIrhscfxJHA_gfl~j%$#U8vX-*nPULPYLZU1WG9p@E zRW>*GjMJ@P!CqBRHN^#?l5Ri%L03zLzn~uF$KI^IQ2d@lJI7))mRyd+lEagJsQZ*l z3!Gy~{%1G^xbt&gU7n;jFa>qVN+E=KwzIZ(!FS6>q&Vu8{0;^0Ubk)S%z;BBGtEj( z!GvtRaCfg>hPx^tlgeWdVw~H5jEMjxBljoMsv}yX7 zm=D0TG_UQT^ZlEBq`sKy7zQc^;zhvgh*M3aVJ$v7X#li3hI)PiW{8>rVHplWR`b$L zO=5~PBe+np@O}X9)B;#WA%i2=E7wAL_% zHKupiTV+0v5%Y98v>7=9EH%WaIPxuD5;?zZwA}VemQd0*0DNuE^mRYi-}^i2s`01f zGygd88@sNn=W+mZH>50VPp=OXuDH|Q@EMNvtScSJWf+0$kC-=nL|=%N;8ZyO zn%k{J*C=N~K*PD8uooOwYfo%|Y{ev$hx{!+FKS;+k^ucnpnLoKM;E>H2GaPKqqzF_ zx{ifWA$xJ^fQ>xM<{^<1Z2*06>3Q(O`#a5f>aqXJ(AlNKhYuftLJ4{X^%*+bo^IR2 zLDvzpiel31d)=@8kg)=9lvYbeM>&T+I2uZwW~kV zs_7Al@HhZc@24R^ekw^^$UX#u+67z>PnOR3#7{dNTKgmFE_~Lm`5n{l=bcX?w9q(f z5g2WBLO*h(ZTO=o>TD>v*pGsEBX~+tRZ8t-d(kK-(o^iK_+1cM*a*pV#V1-&*v>nK zg>_6WvVE2b-plj3IVu1*r!QVcgxk2ll9k7+ZA^Bf!xyOe&d-cgW>r*-R6bTzPGFx^ zkRVFv75^V16=}sKQFIj28A+9lmfsLw>}M7sZH$#fw~q@Slwpij*B9dgtdr4%#7Tu! z-e$lvb(8tVhMyrNHH1whZiN*;e~xJ>Mfp+PVanCe^Y9;>vf78Q2)sSr9b7!@x!7gu zboh9dShXE_d3G1oOu>EI@%5xJ@&O(iC-QaVWE9f>zzW4Oex#}F)Du`X(rDuJO5f~p z5$gDf`9o)Kyvrm=+1*O=alF1@IM`V!#{<l~MAjfsD>&5WW68p@K;Q{pZRHeP_xp z=TcHAvYz$YPRXUeyb7vtL5P*d)1e0=H)PMo?wkf;|S%8D}oC_(y(nh}j%F?J!2u zUIbBE*sRx<9L+^X;^pdc-<-cd01M@1|J~aqHdGoQJ3l|1vx}3dp)H)ps&2}R)vh2$ z=#_7zj+<7bSz@{picle_VW+Ou8;B)=Zax+1so0j^gpUA2Ro*paI^c-shzl2c?V$yr zn{<=gQ|-Q!K_EZTgPi)fxJ2rSJfy-ZE!QBhprQ0$J*CEphpnLY)X5!Y@_zqr{_%Kw zw=@To@vg~mxqU{9ZH=n{`gk*_q@E81lQ;t0MoV&C? z=8gTY75x=T9%Mxuy>UK4Bx^75tg&k(dibsj9Gg5YUY=p^ZEacZ_7~@P( zKTVOPr#?*?VPt#&pUiViufksczTn4|R=xrElB9AN$uJYLEC@&1BnPjH0$6e|7}`^X z&QCK*PrC;gQnKv1gK9SDm3~JED0h z$Wf72pb~?e62OxchC{}ka3@G`BfgK8E5|0F8z$G1L}$SiW_car01^l=bdkt968BR5 zI8ZS_-%^t}P=Ua{G95(oxRMp?ob{)ai6_hw=g7X$OH2_qRst6A6xAvNTd6-B39}yJ z=~8%==~moP?4pDm(>879vUpFjsj9`Yq&hNgD~fAsRW90QqBMB~MpLuGD#Jp|tcB?N zIqwelr_qE+J3ALQ54UCZzCeM|Jvyo$iqO0F`QX}C#U(hmfr{r3Xr*CawEq&Mmh_6rsm)0_DxI@Lio>ROQ+Q;GRd|{LZlFq=kONOIN?FQBnjc*cz2IS ze*vTQ(iGYI+0dhbx#Ows(S>Q(>tbXf-xFha@$svhS%EnZn+gh6?Zo{ef_m^n?Z(>J z)X-M#)!uZQCjZ4??d8c`VPy01IjoET&@Krxv7HgQb<8GgHCw!X14=mfO6F+n++`TFEnHegimiUE{hxO2;UP(!FkE1!hP2s`l?-uPE z`nsAobq!R0o}5)+jDG4+r>Q4Kv7@*uie-FqnUrE6o=U7Xm@xK)YJhS9#h^4KP*`E2 zNNJ8F2yZTwW+!Eei4N^RS&5&Ihj`A@)&D)_xHZ2&46u62Eprsbj@t<25uGD zRdm|p6F7)&h?8&o^cR1qK3UyEfH!`t=TTta9yVg}3uj3g1Br;nNRHxxyrso(Z8f7v*-bdak zoT-+#jh=F7_P2%BgFeJl9Zt0?yNhn7Z0>fM4G5*GiVlL{cc3Rjhe3-kT}SSph4PiR ztMlih=Z~Q^37|Ja293`~lm5cl4QpI<#d`Yml*ExLeb*KtQEQ*>(?q-4m}%bpxv|a* z$35~xL(OW^8%MYI72VR(gjhF0EA-c)!&L{9yX!<=zd`fum{?ni?SY-HQb&&kBco>M zUZe7ukB@qQb;Z}9qxGXqX{dHLoonE|4Y`H;Qy3P4RTZE}uOC&q$8^ zcZL_DsVJ4AJVg=tpmO-Rc=)*&5-u5{Nd!g)I_(`+ya|c|d_?JV>@WhF!U%PaBAQpE zd%PwSNj;V{$zzUzEeFaXET(K7hwv^f?r)WFFDefzO?=WS_7xT0B!d1qn4R(y7irfa z*qpi+VW11Q*%hsKI3@TZ^Iv~;6|HZokLve>dz|qq6f@eRKL%zY4m0<|+XW|0q~6l@ zh}kW|s)}RZ(kw?LCg`buD>h;%kms1x?b1@1wP}{)y4KJCQO1r+FTPTrBzb6>WxnI3 zbZ#)2XBc9?Gfr?}xa*EvG#UA*DL`04%R8Cd+7g7%L-5l%o9dW>jB) zOmP`9c&(fMR;KY4j~O|V7dOAD^YKL93D=FNl{m|>KrhE~SJUH7ep#tq*(GhBS#&ks z$Dhyo92L%HBl50W6{O5O=K}n96K_kG(;U*+oWf_Dw#OPTKr^QPLviiwTbU;xh&}~a(`9=Bj8*9hd#P(%}Gj7bjCkZk}(BG#o zoB1sz4G1tK52eZEw%Qi5!I9$#%*2^7{gC4bt_g&a1V1$pZTcszgAgtZo(~P2Pf1@0 zY_=x{V-TX1h$?a(N3gknjfm<~H6rVsErAzo9!C>^IU-~Nwi%uV&IpAU{XRWkxPP@+ zExAq`7h0B9Uhs%lMfCnJp!gZYwd0udvnQBzq>7`_{|fv9N8$? zfAKlt`x_sw|0_PpV|GD*dHv)Ql3HB>hu~MF9Go0VLi&(i6vY_fs9a*7I@VZ zMTUB^jl0FeTEFM2rdmU&^?vBx*htRPQgidTuHRLEZlF*d=j_PK zqnu}Kck1G;$D_mBYx7a}!ox`)81vw6eJSursZmug0dZ9uWJ>F(c3yKdKlii4xK5X(r`iSc`&rW08bNLe7R$keTC&PKHa`qe@aZgz`a_3;0WB!!*OI zQsmVT2`OTiDbUx6i|R=RbfM(S7=a6?Vo3I<(+D|~gm0U|!3OtOkVQl)<_1q;uuF2u zNbP_I<56T;%4!$Lpe3mTuL~l!#f)a*bZ12s9cD`lGazBuTxk-#ViLei6YG?Alx-FGk6%{@eR}hs3ls#2g z5S1J#DQUWrIE>-WGz z-yd8ng+HU<0iek{*er?ZH6z<+N?2wd5`qmqvu}#@Uq@cU^i~9F|{Z5 zqaKjf`Sgd8Z$-EBk~PQ3nK^03C#Pj>xW?+t<8t)dqp5Rv;fl%g_=F9g&tc*6{8zOA zL_h!I!d63XcMcz7tpb%8heDI&zSxD7 z$FE{ut(H+wI#vE`Njf8tc#r-ip)%t>(u_&ne_ss zVSQ!C)2TF>&kq{`>JM);0N5}hyI$-MI!F6|Rip6no_f}kNu*oL<*id!p*2-NFYtgqyviQn6HA0P{5Yn$~3I zI9>Q>@Sb96sP0XxSe6+$ciDn|=R->|#dMKjMRR$G&`gzrA&M@?YpI@uq&f?J>Ex`6O@bokblO);W9s?(zY)FruK_ z-(DQGyAR1V3P4sakiq;E(e%CSoZ2Sc$lhE}ReGC2)H*vv;qA&`pk0$$^J^=#e)VTq zw3Z%HGGR}4up1k7HFb7~!o>GGGcXO?^4iJR$j(+Uw0}G8J|EUazKn)#rh*f~OZGQX zgp(G8N)B*}CrzxgTs8q6jbH=vl6#2H2nI&P(?m$1b>+>L;{EB3^bPx|d|jRsXarc? zuN$$E4j?JNT*WfF-7~J6rcsJaFo{l(wECf}1a66fmBPlDo{uXNFftX%I9!@Pr(eLpi zR7JE}3uP8>m3#sBJsA%E-%IXo9WEQ!M6=d%Oc&2Ii!q)2#~0;F?8;H5+wATc%Mz4@YP^VI3P7HxH7eq0emyijg=)~DaOrs(N3U9rWSxO(?Qt5S`b?`*jBA@#~lYV}6-gDwof>zUKP$0f5E&=NooEZP(F z0=Fb%Pe!9{+W7&eGzX`|n(~du$}T^v3*p;v&}^_hR6!@^Xjyv@eFBz~C>%pXGVja@ z$qX&UMrr^{dNxwJg=e5>6pA+eovF)I8dG5>X5yu?N(cOo@=uXAlMuy{o4Gt2FI*T? zbr@6HGjq*CT2d75?D%}DIXr@SpsY!n&|bPBR18*-6*Zv=`wApfHdMp0i|{eqxWUXx za1jry<}0pSpNUgAMuGP?_M7p%xq?5i^^MW<7^dg2)T6hY)^d8o&yhINT9@*#JUc#<_plBi<$Q8JVkE(ZrOPEF`dM!QMli#f0r*m`F3}t81bs+%C(aPrH zcve?eY*+GV5Q+uMRRvM@^GCBOaq!EJmEKf_i0|H7-F{a@`dg2>KUV+DUu4a!jtd^K+r>^GrcBoA*;8#p@m zF+!0L9m;DtL6cxKtq8&>hP7cJx)r!KIg~WnZ#a}>ODYeJ5|2QZf#6GKjlM5R2aUoK zL*WSsJ?r;sL*W#N$vCWM9CQ~vuG)6+E{^qp2%cY_0~I^Xh6}Q=+(y@{zjOy67zTNm zRw82D70ncNB?ZEH9p@zFD_ypVPEXglmi@NgM`hWHf78hF_#EJ;@5-$ZmW`_l8zIwB7wEQ<>mFzIO^y+kb*)Y%06 zX(-}}!L%VnNq0~|AyKCVB}u^x)B`cG%8jfmC9BmsU2Kc(E*!08+$)>kLir!h+HoEenXXNj{DVSI)VXpSqq{RVx|O>tJD^-O462wkp<+0LNJx#)O51 zb05d)mWN3=)KgkS%sI}d>%Q4?ZbVtAi*nKCP|GeJoiuR8wMq0Mw`M7O zfZ|Z8Wj(;dg07d+!UMNnJaMn<*R7pYuS7U?SuB#%IMXuznGqwk8UI`StVx_hKB;68 zZ{Eg$WDIZKiet=T91$6b1DL@Q0` z|Gfd1n=iA5qk?TEH18|u(UC-`bV|w8xIgc^fDJ5GFr@KVouUn(1i442&9WCg z>RPB}9ib+Yx<6(lBuxl2cIFxA0zMt8l-ReKI*q0!#~Wv(RF7HjSfG20dn<*eQIgJ3 z;SDz!^(<_w3+!v^JJI$wN9>jbmK??8LHM%p^pD>p7Z8k=Wp#^KN@D6`HBM0F)V&PS z3kTggFGW9}C#f6}L9BTOP%FOqR?29>+pve7_&pavEN){@D@(~S*J&pM@B?xd(OO!5 z{1R)o1F^;r0105jZ}Y1#+g(*@8=KsD4487R%xVv}ls` z>nSEO)x1`I&Pw=Rg7V09Y?fV)`h;0^FFyl<`X_0zBKskzt8WG@1qR>Y zN@qlD;r)z(mOv=h6EYV1Vx=Z6c;a0LO4WW4oT*?{S`Jkxs+tnDHGL_>!kqqAZDbeL zcgun`w{3(E7~(e?TV1BPRw#N|l~L@JmNajVUaT_5w_kUK1~}2LqazzWL4uaDD*=rN zU+4j8Xc0f3pSL$B5Jt({-fgMTXed4gjP|33?Xg8_XMn6hkK$Ar{zdMjbr|Uux1v8u z)jA_aMKt+*9>jyzW+q&k+d84j$EcOv7FZE^0-6;8F`HOCbpuP|{Mm(d=PaHP`eY=U zKlHk5$F=qBiU)2N@zj#7^5JXD&g+s$rnqf>eTv-rvcd1m~iAm3}7M`yyg(+LG#!> z0?XgOoeyk_{oT}Mamvn!=xgDwc0iq3y#IGonw&Lx%BMh;H^`r@bwAOeU&NTOKR9c* zgvd|Ig3mW~Qy2Zz0k@7<3-}s(Q3ZraMP$1nOX|ScqN&^AF=L<~(4#0Rpiy0F)&0?& zn&tpgcnZOb5%vBJj0&&~7IsDW$)8&=90WCDGGuJD_9a7a=j?~bU5@S^kYe0Mu#0Ow zAO*F0iS~5X8pe#YY|}p=-3mRMUq_U?i#^%519qvlzcoA@vha6{LzwQ)Wp!csv@uBvTw zsr_U0Ha|%h7$PhYYMojf;jkpw7Ya}=y-~}Jc$}wp9wKJh9>^z8o&185u$^w$Ti^X7 z)R~kH-@x!qGG%GOs?q^Sp6xOb?0^R@kxAg%udlpgwq?W)9~HZtf%#2KckYw&Sz#s% zNZ-iNkygVL#m57q=^(6JX_4W~C9#EIa7e>E9fJ!02e-DF<7Ik;Nyqzm*8V z%e>EPObl@R&H2leSNzFht876L^z>-lRQ5n5iy(LNy6H4Kj;<9M_S!*Yj*6ohF%2ll z+wr)0FcyQ4ZlU^a9dWA+O>Bz=3wK3;dG}+-4N{ffFT6(K0azWi+yG{4>;{?djskD_@wlt)kD9-`UL-VxndO}%U##oe7-9U~ zb#j#vg)Z6mOl*oC;`8QHDoYWE;lo2l-tr-+F1hDN!!emK%#+(L5^m* zVdPZM_s;Qg+YDSkZhB}V!e=XHjel`USS%xc0QQ+s#LUvKM}Lh|l46yolh|(x>2jd~ zt#}32eP5s$pqF;0p7Mk50N!7X%nky!(d%PFeQI#%b}L#xRXb!l%6cmFHrsn?Nl|ap1;c=BW;2cWQ~n>-7ji>7kZv19bY)G`#A{)%5@kF`ix5m( zUEDXOP{nyZ5dqk!f$opj%B>dKYP+;ba#~dTu=`)|(#*eali8VSXukG5@%&zLISYR^ zL<@n6@(!P`%O3%}qqd4;3BcDKL#?g(A(Lfb`v?PqklCWRJ(!pUhzEhN0)f|jJo*x> zv~2KU1OgJu?l8+0DPfO+*=!w=sdNcL+Gah1X~B_1b96)`?sZtR3VZN)-4l%E zKSv%v#7sqlj2OacP*s7KYA71DB+aN-A@ z>&b_RVlDvG*?x*eEfW6gwvrbH?@wCRNeii`--=}#Vgp#T=$-VjusJy^wVBhz*||+O zf|q}9XYM;@Iu(i-b=pR&$wgN%&*aI*Je()U?L`~@;bd&5qS|N!o-d=|5tG6P`b63| z#4|`Mqca2xdbzN0aE?4v3ClE)v2$pt*h|aF<0N6e(&FIWNYb%Uwj3M0$Z}>ZQpQk$ zM@>V(SCwk6Yo!HHxws0Mgou0dNZx!*#I|a8EB)16;o2b zDx#?#!=45?+1@M)0H?DCH|cXfE5p038cPP5u7cKAyo*5uPEWKq^u2_Zty&aevxzGP z|617xbmI(}byzi~83^wsr(TjIa0vUu_@Q3Fq-BvJFH2Vc0!_{b zGlo=_Q2~iB=Hxd>0X}W)+xT_9J2^A=im^F`%b6#&>I+O!+fNGI_GZ2qsqLcY`t<5l zO*`*OjMR-AF`K??r8e+O24Yzq5aA~XH3Atml=D)>>}5SKi4WsCP_fg()t*8!(VZ# zwCa&7o9k}r(9(F8mT0rYqu-s$qW1)=5C$KoyR$>om~)CyTCFuzG1Ua;l51ISti7|< zVrhBdeq*fQ!KKr71vm9{!-L)1*d4`SY3;HOjJ8|a&hR^X(ZbhBkX4hpbmXSx+jgl@ zSd^zOcFR5_T5Ob0F4)K%bKBX~`qTHgYcQ}Q{pb+>^s8@vrR4_~ zaCzQ5LnWxBxW=;GT3he!>f80?(yAqUmm$a=mu$!Wwt+Zhp=5tI4t+Yw#9u zgSAC^-7$wHunF+|a>o0IRm~)0TaR?{t*AO;QB8M^jK9ly51~a4ZNrI@geZxluT^a? zqqxKzn<0^=$CTCt6qT1Xh0~OkNZoorf#b&{2{Y?MV;Kx3iHR4`n_M{fF6VgL(4zYT zVnuJyigSY)oIgyy!AiP^&VJ9@_@mL-RE@hDoRqjAr~}FLN6+-d!8BWy2j5jwbE7Zc zq|s@zTjEw}X(B`W-#zUTXbu|r!IAymPDJD-`aB>;&=G6hqNq56nUbAsv*ynRv=HQs zw{fZ?MD^s_JB=*M_iRE=vGDYTNpEp%Gb3xPkqSCnY^#yl;M;ia(Nuk!8xSq=_Rvb2 zDmlb>`+jEF5)uoljU0X*7Ucj=HoHT%tNVQ!6h~Tmrs=HS4zZBaMkNjD>=v1?A4YN{;VUDaW0nK&xSTmV#Pl%JN5(y;W)Ndmr}RE^Yy>Pv+vEc`uK1 zsv}!l<5L=AnOFSd0zQhPx-^(g%A5K3G>&=9(&ab~xnr#D8pTA1ZOhokLB1TG-pw63 ztqtG#wRLJ9#Q?qQR)xHs2`5hNnw*AnRNTV#)EUasnH$X~4!%=VL;C8yK>IAWACvnP z+XZllYL>o4Q>}0OnO*H#dVcL`Tf8rOw_6&yOaeZyg)c|wh0*Fl2S9#b?dxuB#+=;R zLxr3#WFi3XpBowK?AYX&MrEL%cFFF;(aY|0V0J0x@P|ip#zB$wr6`Yhy02q)QKaW^LK1fV+V;O%)_*4jP;AL?+D6NcX%r=Xsy`m>H{Vy5XlJ9WawFlSg47sPr$B7`LUx->a89!Bpw)^*Ev zq`RMW+YFy~kVOUInSfq83uaA!)R$&x( zQMB7gwqMM&K?g|9Y@5)9F$EOE%7A6>fFV!4ON!P9`@6WZ6)lW2LE+>#=MyEzmK4e! z5V0{TdMi;~_iOFtV}8JxT2}}{Gr=Igse2eC4ZTwEE*rK_*9lio1|}ZR0XK$iTf23CkQgxIDUunadb9YFI2aK*U20^#c-K}fkz1VJ-f#s%k4(DYE$ zK#s7>;vrou$&a;DnIVYcVXpm^{5h5SbwFnnORrPRfYruwG0f~elKb#Ap%@V!Ijrm( zaAb`JCM4vxAP(AQ^}*p<2)9+Dp<0Pz{l5fF+NefXa}Q|f3K^Y~f8c%BvF2ka&UT6@ z1PekLb7k*fTyl%(_ky*mV;i|U&1o!}7!Mp5iijF69(Eo}38C}aYI=iFXYlsChpX?H zlxIaw2d44!{~kpr`rG7EQ9#X^thChPOZa~Zx$dW?yQeEf5TqG;M+l%45s}_RdFWC^ zdXpNJ5)dO0%14wcO@dSr5DnfDKPf4@6(W_Rx0 zvvc-bNyXH&S?nu~1w83zo>9y^MqXSQUDi}~zbWd<)Lq8Ke?dNHRa7m>Ql25ri?c2} zIN_6@Xk+6U7KbKj!b={;=}WlcS2Ozdm)tm4uX6N*-?Gf{K0L<~)g8!xyj0W%p;Qqy z9R580I@6Ng4y0^-uPED+*>Usu9K@=eliL}-CE@eX!U9k4_%z-u4z_ zvnY4CDtq7MvQPp@P}G*0mq#InEr($_&EIj(_X173?oQDiY5!Mq4D8<8+B)%c_4 z5su_W6`d_W03JRaxkaF8--B>HTDAhV`8_$zyD;hjYDK_CV zeU!y+99H$l`vuzQoNc^0+&IuGYSfQQ3@!YCRq%rqkgY1Enl^qWUGJlkA~i7Vc_Pm_ z`=#6Ii2O&uHIAg1x2b8bGlHQV)8ovMO2U5M)pG}*T#7N0#j#5xmqVU1v4<=v|7QH0 z+PmfDgP$Joz_H1cb0IDKib!LvLU0CUcHcj(@7sdwvqruKYd zG8h*nnmiZs(&F{GCc%V4r1|k|kV%*d741_ZA+{FyQo&pE=ucb|lnFQ7Ez*=E)3KR7 z$-8g^}+0@(iL*q^6MuYYM%C3nFiaOCh33xqYOjH(nn`KLSp>`_B-OJ(1GtI zfd-~g#}_k4UGF^TA5a%yN;0J1u;<=)`yQC#p&k1 z|F{6qL#ed2-r^n|w>TZI^~lE>^n+FEand|+0`DvW;Ee|juLR+eA48lpy-LNruF%y1 zov7Gw?cR3Rm>4qtQIE4nU5`Ox6{hs#TIqqbm439`&r%FjC8XZqW1i-!ylsrj&T;E7 zSpBf>ST1nC?qsuIWasbMce1PULH;LZ5Ww(||4BFWaZwCFJ6t=QLM>XB5&+W{9l+R1SPcZOGkN1aWCnPGC?i^bQTpWC#R`+H}&M%6Ch#(?uE z7IUMsc!Z$6i-*bs^gpWti8guD`B_EUSq{(A!wK308s%|iu3LVni(F3aH= zhG8icoG0fGxp|}4aXhWsgxkq#AOI(gh-DWqR=74i{)AL1+3 ze@_Qqikzz(*^=!uGEC6=^SzGkxYmsq$nI@b7hmngmyOxHJ+)I|=bwh;TzX7izA7i# zWB+ZvvMtLhK(COtwE^U}Vr*IqJkG>%h$MDbYUy3NyysnDqI<-j2Y-8EadoS-BD3kJ z<`ct#tXCA@RCmgC=HFb2I)`CGIg;F$gt}on%14{UE;whjr?TJ}iu0zo ziXm6>DoVAAGdf*0_E7aG=uQ6=SM=j>KlMdH^1CFilW3=|=U0KKmsf8c{N<_25l5-c z?mT@qk+7pb+Xy>N5qafbegyP`{`(r!@h5msxEQx(mhUIGn2E;urVS0RP|dG`tUZ@# zoR{cw=-;}J#A8kC)vSsbI9j!Nb!WrGa>Vz?By9?Nga|16-}6V4`5546?9U=TV7xvw0clxJX`%mPrFT-cz>1SR0O?6BY&rs4T}wD7>nwf71N)saK-D) zJ`&4OUaW)YW#8e>?vIofr*G3X-sjv_is`bF-;^CUr}u6+v~N0?``AQ$Bw9ZH*S%NA zaH&=Jl}_~|ksO6nFtJM?0RNV;;^;0N1KQ!rKS}7%CM`w%fDQ9#^G9%7gjjOUN>jMW z{v(q$FZH#9Z-yEi3~jdxtbK}y!NW}K!`FtX2E$E_TZVfKM{oX5vb>!H61k~)%}*o1 zH$dxJfWNQ5y0-dtUq3aU08Q_!-s-A;8tUE#djH>v{OTl-3lPdbn~T~pIAJz>>dBMB z!I&M+BgG6l#{){?05KZB`kEqzIFoJ6qYW`eYo`@gpjJPPsg=wtV!mhtsPn(-9D9GYZjq)l30eTXlXQ0^oW-|_bk~6B{$3)>H%$6>M<(y8 zmUQn2VO$uaYvwKKAlP#Q`%r||wNY0OS7^=};cjvKvn`1S@jV%sD~>o5paJP*(nIGDs4T z-s=Nzq;_8wwr|kf`*L?9?WCbsE7x*EuQE(xw3_vvPQcO)v4lb`q2wi7v7~`8=FCAm zEs@WIskGFSp&%NbDeNXjN%$7I0Iu{qh4=HAD{6vjTs-s0ayX}}488hUu}>S!8w#=> z9KmCM2K}=3{^f*?(&FE>L;ZbR9Ipc?1Q3+4z1IZKhf1JPXYtoN0)fDb07)5k(X{Q% z+Oo8Jie;FpzF_L)Kha+UK6~3GaJDP_?_onx&H^DPX;c5TxfdIBE4#!GwSk-pssClRoX*>_jIQ1B}YpKzQ_CMh|*L)EeCnbf zOdWccYPA};_LRD>yI*lbCNUFRZ>KFUoI& zOZq4A$LsHLyBzv3M{Pwk1fT~TYLlz*#~*xfIyOJtix+kC+@&U5*2}f%jo-+YE5U<@ zr5X!!2KbEC{GAtH=l1g4-$8V<@o{I{ac9+_NkM6E4N7a;u1?jjM2p;;?ufqS50Ec6c7eN%OxGCNv z7_}1(rF%IZ_eyS8e2r-LlxACY1UiR3#c6JAU}^GnsY{LJLdH+|`p$XsIkE&ccd%~n z&1&vQ&LAbk3hZEpsFqQ+m}{HHx#r^d!hY#BRf?D^z+hp#S6okRYgs?D7{YQe&Ves+ zkBL0P_c+5Q(QZI#(Z3O%h?zyDRN0Zr`k^VObVaj=X|L7B;JCMIJj4$C?~}Au%GYH3 zX%q`y;QA+AQd4GSNJ1E1z@Zs8+>|NM3Z6j7foHKh_>jPRQTAjpVgO!3$R{eCyn`<} z7)Jo_suO4srZG5P;*7Z2)3>)yx@Sf>u2Hzi_ypxwu2D4r6E9(TP#u z?aJntt|)KN-k@iJ(k3@O=)``#x1gi-;3kvu*7I09QxC%(hd9ZeD>02Z`hoAH|CgQZkphTrTlchfyt5itDDh?{hoT30rKonpI5QlUW1P2Fxm+#M@+y!rT{2bitE4 zCUskAz@F8SDXH*VOHDPZEVHmtO9GV&z0XQ2wWO=#$1FejFOp( z3q9P9kDgQL!lcym6HWo>VJAMF5wtLFeM!0Ohk0EM<4{7Rq|-m+WZO9MeX@-!`Jw^; zZ3)c9|8U{jN3$k%p9d|Jh8>V=0B8L`Gbmde8hy!|TNmtu*0aPBOy-`xZr}qb1+7bt zsRd#^MPTxsA>m1x*(=%kif-kK3G<*szgk({FwM<=eNYrB9BQ~_4ewd>(}%s`2|0<0 zmp$4(vx#~RIwU~5>f+|V>}odRc6okn=6v0v-yiYTdttgQl(!tF7cVbMUK~)XGk#;S zt2d9^3w;qQ@e--~UP(IxvIB6G4D3cSsNiK&JNQZrWji*)f9+lK%w8v8lqNcRCDzna z4ZM5~VPqN5$$EpV=C;7X;4e_@mtCqr#f@tBS zU6#ccy+cfv3yrPecnlIU5`CPqocp|U`q!;T2gPRFWA>i<#m#Un!JVvw_Nk75HnYE{ zO#n+GB7>2)EM^upysk?0e=!h>u=k zwBWdJxT^#_)CX<_Mc+O)RA>gX1p08M^V83lwoa+^ZXe?_D78Z^n$>~6;{pAvp!b$5Lyc)qb+|-*dD*lQaq=YwS=Fz7)Y$GSHaL2)>1E$= zPmon^;BOhkfsn!y%b@#PsI5APXiKbIe8N%Qy2w&H!2AQ^@`FqFUi8MLcu%jWqY<*n zO{wS#3bylDk%*r8kCFFBoq9Y@6YJ3^`Xs;a9|>o=wXubaHoHfQ9LsTjok(}I>ygzr zcPF0SyZC1PTJ=Pn1-849yUNFFLq7hSWi0?uo$~q?Y?RGqCc?CCF#6Z8{#ltqs)0j$ z3ReN95!ePNqK_hz2SKn_vs#wvO_49I=n#|eSJ}FVL3INUGIIOYIF*FsD?-7Ud3{+~ z@U@kiza?HOpGsVU+}s#}SRZqZ-%CPbit$k1?m%sFI|S=O(#{Mf-N{0^v$1SClbBsa zZEXh4LA58%&DK@T7btwi3SX+|esxhzfW}*N{=H5crBajn3OI{({ym=;&FIQzZHiKH zMmV@Y1RDGM$9r{HJhK|m;9jcHl)Y4`qFk7DK8!)Y;%Z=V1PktD$%QORs>WP;+@vxr z3z~zEyHcwEV`Yu6o$Q~>U!tRxT}%;5U&x|)uU=M~ZGVZg#O16zG%#pdY)8QY=Zyos z*y3sn+$_wgmfH~i>4N~ob+$MW-w^=>1L%15ie=ZDXmYoCecsJBa>-Ju{ zqujvJ)m!E0L%}PMZKV>KMf75ab?gO|W&f^cI_3W&(e{CKQLrEqS|0aAaCVKe{nRnkZZpQO0{$5uknVZ2b5}7Q>-I$br>keUKN}1`sVfa`~7|({SSN_8Sv5{>PZsx zU>Z)@Ri1End>{rWPMWlXOz57Xg`hh(*7z1Kwwu-+^;$kE?GTe(<~{vmK#?lk)8}-+ zvWSm0iDV|8>|ccOW7QXAh?lUs)t;sk$eK2J?8VwIC6WkI^BzZOg=d&@BY(@V#tfIP zk04g~Ko%BZ1&$gjn4nW-M*@k{#RCjrD3TS=)A9`r0BKuhN%(W)_eul*Y@vRx_@{je|JJtud53)7=}@W4UU#-Y8EGZVWifCdxKVamMQXOZf!-b)ndU+7)Sf`G;rzGeC0Spt z$JCe7q!2||-B9^W>8v4FaAz3z=1^>#BzGvs&P;LLL;KeL7BCF?%hwd7PrEXcTPXnp ztW5R$sWWFp5!^!;kPs7~QDm(B!wb|7*bPuGH%NSMjz?maToA+9wQW6fUgG)43pF_? zUwcF=(zjE%*;5AYaeeK0y}3-L_iS^T0i3wD0D|Rxw=qmIhNKrEOHh{_5{hOIy^fuMyaTN|DooQ@{lAB2fjJLFu z8##$P>yY`3N+u$WvY;xIOt>^&rCwV1*s(ZM%^Xw>A-E$Xu)C^h;8fSOgeYwENVJcN zRTag6_!G*nffoY(2~YGBjMd1gdG>A(StskR_odrCKNl?q zaPx*rTi^8fcsd%K!uBM~*S7jj&N|a&D`( zq^=LsTh2r{^7EV)(F9rgYN7q7HzN^Nx$oFr0Ygd5@WSry8;LtTC_p>v_%@-I!8u4% z{H0SyS7Arrzl@zl)+CCNs|%9h&DIqT^nCY?r)gnqSBCtZ2OX(@eYNYQ3XQr!Y3Bca z4Ju$eQ{zmvfRyCzbB94#D5pPik?&t;pRit92YT88F5mJ4D!htR9A_jZ9~AgWQ0!x@ zua#0|iILwaYm8V`7c-g!>`KNLXKeJl1x`v`fk{wvN{1>D_5mu>)Q1DZ9bp=qrk`H9 zE-H-lS&{vnjjwT-`Uw0k>-m#CHshHQIQvkW!a@V`BvRvcgOfT~zGE!6BI?XuR8wg0 z!vCm~9oj^uUoIMZobFHE6MJ?mOh_W2rWs4Uy{k2%^YDZV8F38S)8<0u)V{xBs{ixh zifE{e`Sss#GuMQhhz79LvYN9e8m+0_us$^S9hTZ^VXk3M+W)2wrgAnhYlfm>;%)q` z%TEBZRFZ9P?0ST(c&UzDX?dne?3D>#iuL~-V80@$8?{*mJJpiU% zc7%zO9I+3>xG9Ct4a_4`_IEBD_;6E;jeBJbQTYc9l%r3yj+F}9rMJK754MWW5#6M7 z8w`j?5_ZU~g!PXa3|KF3AKOLJ_eJ-I6*QK&TTbiHE7bFrYS>n#f6C`#y>2c#+|Qu? zO72;1UW#yE6#%=>OugqNmdq4(hU-6l`tvY8u3NFJ_ml#bg|Le# z`7#>KfNj?fu<=R_4`o0PMYS;t;-%f=sT%X9*oYAvUI81i@UOc~8M)P!i?_z^&;H9$ zKbdy~ZX2Xfs|tJ6s(SfK2Yr#ywE6#H$4J*ph7^%o@IS9Ts7JN5A8;lBy387rvfm(f zTKXx$0|_sDV9Xf*+uo(YG8>;fvgQ3Yf!b#moW*4t6_T!sFwKA{-^xXtxk>lLaHymi zMp0iqjRA=n0XJ{cpk$A$7kC>)1MaD8WSlf`S6L!=&qD*O*Z<5?1WQt#^m8Pl_X|K5*|e{+%gX*|W5WJF delta 23387 zcmY(oV{~TC^EEuNZQHhOV`AI3uh>o|nb@|SOl;e>?c|xcfA9O@zt*X<)~;QrKb)@K z-BrC)FP&E}T}uXpGo4i#^dKznZ`L>9^JCt37?%#-OLIE}yY#r9`U#6<(&J zaMmJ|U7;AOy;HBjdidJ;Rz_bjYo(c5V8*W{2iTTBb3d$4i?*f=neEK_Wqyynoh!wL zEmW4g5B>vvG9Pv4tJP0?3d%zzE@QNCjjvN)CdqILpk1W zSV(&*q4IP4>LotTX~gLLEB2$iK)pwHdJPJ@i(a4CduZ5r z2>?}F!qFx37~n8CKs~PeH7H5aO7VU5nu_pS`8T@*^94RiSNvb!G?VKYXZik*9hqHUTtjH@;-OA_98i+Gg}UN;albe0U%Es zU)KM*36`AU`K1%pLIY^nmqTZ1>Q~-X|H7T|??P`l)7ZJ81c@O*5yuz_XAEYPm9ZIT zd}Tg|+h_`p!$&nc3n)*Z%~phaD*QM;FPq4|byqAv{>I%4;s{GiM1AGATg30@wQmWd z``#HdN7@zgWfOlb7&fRN98d&`2EY_k5NE3fPOD4$v6)GoI4PwMt`jqs*^f5kAk&b5 zVIDJzP0Zk&F*td8mZWs;8kRQRDiV$Lu#j)IFoP%e%v`0X(qdA@kBYfy;;Q6ZTfQj38O^=B07czBK+zzHSWev7>$o2!hl$<8{U38 z6B5lHZqOb1-LO1lNAH;>Eu_}-SA2te&bE>IZ#tX3{0FoZkV2*F3h~2aH+?np8@M=X znq3&_Y>K)FR@SJ;{0{OtkD837;qoayuk{w{_0HJ7cl=H{X)S_7{Kk>@CE{O({6Y)_ z>|^(4nV*V&{61p(7xliSUBY*UyvYMU*w{d9e0?>;-* zAd8nFK=~~^`6SA6>(~S1X{)h0zFJpXvZspfp}YAHNl@G}dbd~0$I&A41w#%W-NGnF zLHUl+tLyc`ZGMm*gMR0!YB$2Uzz+S9v&nKBKwOTOc-#@^#O{079)SF8K}ug3r#Xo& zFI#}4BI~;)Hki~HvJa#JL{IFlNk+nL^|FND|BHPu+yy?0B4o-7#T zIC?#HLG}0|l&k!})j8STFQdSBdiDVS5SQ&d`8y+TYGj`YK9s7A@*Wv;I%$XK{#6I; z+S?7j!@I%5ruyJp9#QDlMXG^ch}5+88>HZsh%vP{3m7F#=LV=n=LVSjKN;ivpKc8z zfuzy>(=pEfWGzMjXgRln>`?d@%gmViHfuJf{{^rzCM5_^x1hGciLn2N z+5W?!*Km0B|1jJC_&Gdy9!x+*ZcLLj|H!wJg8Ro^`I*__C&ns*oTHP9+}cHnn0x&R zzQe}+V4=-TMhN%`gbX$tKCcGO#q+%sU)51qS7=T5M@PCqcFW?~yU^p6?rO4g>*Vs% z;qao*tl8-CxAuZA7tOZo#!j+=^+S;F!u93g3 zg;>f65P5)kS7=3I^aYqwJsDspEvZ@Y0Ym)q)PSgBb$5Zr_<6*q9=s4z)j5 zmO*sB%=+7P=!g5^P$BI8gl~g+a?C^ib`B@+p+Myg&~0ExLfX1B$FZgSG#zs7K|vzF z%sJf$fEZF?-V0_Z12MGl)9Tjx)p3$KsHS*(g|_v6iW?N4+Y|uK8}BFDj-MU(o-%zR zPVu94ck~OcxH@Dj!#SJ`lrWr=Gr89h7}e<~y=d^+fZ{KH9VF(>>gfXCb0`l4z{`=YA(U94RnmGVaL z70%vW=NagS)!wS%8VKpY9CWs}+Q_6WZc??vr=Q6&E-J+xb%dYUJeb8z?fjA4=Q=EN z7+dhnN8?Fk%&fEWaysOB>ARlARifL;B->-}nP1*cCjxq6t=$Vh?ytcMl93X*JHq4l z4qil1z)dj>Bzf^n4r*e5HPOY1;7#8nM`)&-KaX8PxLy}XYE}kU7BN>w#%d-pmZRMe zC1=!Eb<}(tR`yJ6s;m|}d80k8HX~10YTLbDzc+(7ds~;$Y}i#;D&9(tfNv&L)?W4Y z!V&@b;Fa`?obF8$drU^E1sUGP`1y37ZZ?A%{GCpno@;?t&a=~&!y*FdAmo~3 zu@gdHKvlzx-GZ}wv%spmJQjTV@`w#0{wVZ)qMj=X(s;+2!)!7R1$`UwvOZXBX##pf zt`7O`% z`k$<^{ilGb67b$+{}hFt`9FmbvV~v$r=Ohcske1dG%ZpY@KJRCc#i+^AfxaKYX5kS z|M39?2y7Jpc+UUvhvEn!vHxMt|HeyOM6f6Rhq+k(!yGRN_h$cLuK%#6K4Oe75NFHr z1|lpts33BOb<6V}A~XIid-XhrPBxK5wP1O*?aFFzLNS1uO zBho4LgMEjryOljbeNlE_P|>-b&Z>t;~^Z9 zt|3B$MfG`Wk?Fifs|t#}&soP|h(&y~`>4!Hv^o&=`J~yXxfvM8QPDlTE>^Mv??Xh` z1+QL=qe~&1WR4j?ItU-%%o|||bP1~D%PDX5p}F|RBq4fS!SonQ$qCsP>Wy0M{yVKc zrioMA^To*U%A^RMqanEu26yWbUVDBM?S{?Gi?R-dp!s4@el$(n+yO*MB_fZm*{y&w zjOvhHu>BF9vGE%ZrI$P0;4^Y(pJZhm2-Mp>?BrX#1P&iC@F}wHS~>0-{#k4sR1l^=l5;UjUpuu|V9Npn1I3^g$ z0saOur^52tO+;R{DF{%ZjXC~>o7i7Qh8SWZ)f24T-v}mRW^XJ}aX!E#>st+q(LoZGWh((qC zXzgxPK&Ru`3&ouoaRQ@u`>mN~xJhDyB2+#SVP!EE?WtobsFowDD$~5UmgCqHzOlP) z$EOl-Z|lnR=L5s|CD*vbm&oDAnnzakXQ8o#py8)&%Zx}u-|hXl0tQI_+-ZGRm11Up zSx_%TuwpHb-fi#DKJIkn4rJ$s?uzl_TVz}RV>i7ytu0pO1IBhZ4Z9W<=Wc38I-#XZn ze3y?y25%@dCKFkLB@?lEO^3zf!HPT*WCrc;QetL35f7Wvt1c9QLh(IyR-#a!E<|L2 z7=K3rS~5ES0YKKNYq^-^2N~1eSX}Gd=>^hu_Q1RhEw7t)!42u)bibV=Hw$@p zY`jG^{EDQRZ|gEyxFwS`Cegp|?pvP4h>vpDHkKQ;Ick||7Fy<;)*k?HjBGnoqeg+< zaPY#@Jl$h0I93~fmv9DF?Cu@66}sKC5b0IyDEt7$Ogc_O)K`pKxktqc#{Z5`Fzg;v z?`?u!abqrUL3wGcgO)|@{7jZ`7>*mgcF}&|%)8CXzf;)sMG$_QlDZz&Y-L#$kee>4 zI6Rk_K291Is2qw~94!D~R2+4p?<@G(1Z~p9wDVhSKXA=91-BEu&>y<1t<(pS=x7=$ zyvSgRg@}kz((qC*^)NcR_GTQ-)Nt4>ueY4O!GASJY2g+B^3w8*Q{z^04{7n~)2G8K zEW)E(B`Lzxyo1eaWt4l@+1OjTuMalh$I(C>-aGs6bByh*N_d7&KZ^!~M`@ zh4U6l_10>afQgh<_XuL0tNmLWJ(#7Ua!!zqpY+b}1B9gKlGa#Y8!hSK`bGYr^Ldi&m@{t z3d5uj0pXdnaVexz37V_i$Z}Ay%(0 zZKh@Z!RvpJPw%?$$tSr0e!O&A3AtYhpbyc>hak2!7C!ycpdU&9I``=#sl;I1WBO-p zwZYQQ+9_R{<|=n9K%-p@{Ce+ztE5X1kM?zLAAXC;GTPd+iYXR?S9xhP1fS{w^rd&? z7KZ%f&xh`vOxE!iI>lnY_}iIL)(h?h!L$@Z-CWtv+!PUvpWr<*5%mlOU4l}ufH3d8 zD5rkASi})stP3z{8_pFN-AF_?CS1x@<^`B!8_Lxp6Om3mhjy{(Yky?!+~6tG5SOYj zDyk}!hQ}JBYM5@3eFxap0M4ti7-j1HVM)d0TjRodW1tL4)8W20F={4s;3yR%T2S<| zOlG^N%f=v|VR0oeQ?>mdlvPVA|jw5rJ}G4H1EpM_P4Fg&Yo2csj~qi3>tZ2zIt*4Go>c^r~qv zmlWmous=}9G{OBNsK-K{P)u`Ru9w^>F{hI)vFc36R3NaXvt;k9-~VC&*4RJCV}slzUNLECf9FP;&Q^$C@xT}-!%w6B0KKc`bzOxJ@C4?m@v+Fj^{0*wHJcFk zS$HztAEdg`WJCJLy3pL`q&A-yuowYa-il*a1_?0HlsMI8C{5JrU=kn;Njhp(U| zU21+!IA3s4_i&1nRI3HL=5X?Qd&)1BrK;mmf+P>FQS26CJV0~hC3GIm$xZq?8Q=kY zh8~9wBjZnF1u;s-Ory^z&M!OdSAEj?MAX$x{^rLTdVrmuq3+63jCskV5m!zfw_Sxo zhJXUab^7gLSgiaSJG_&>U0C5NJaAou{)~*maK)`S>UD9$Vh^^E^t&IoK*kg_(gi|5 z-S126r_e|bEW&i}&$pv?*pn`>$<~!Ln@tE6Xd%1z$QS&$Z}4j)a@v0_?iRco#B(7) z-eL;ZQq{r}Na3wZ0Jg|NnBV)U?n*x})Q8h|$N1s(v8j?38}qk~w`T7Mc9AuVh=3;4 z1$@;UK7wY|!3m_oD%Ae#tJH6XS)hCOYl3&@uQ$*3hpZW1P5s;~{Jv`YWs*2eIJmMJ z1rS;n9rQ(K%sd*``3BZU%==?jw&*9os9HyRPye{nv#oWlbc>DaI8A36xiS7s0KVpq zDOSq<1MliGBPLNV^k!fx`2CoMSEl+=K=t>ar>Nz#_!nfyh$sJe5aAJ)ascX(Vfsd&M2%c)N7d zjlmLuj02O)4@(R3wYrbYxtrsb)5*k;cMP1A6o=GVJ|xssUKS({fRc3(BjWJ(C#vTK zrdW)cI%3{DbYFYST5Mg5iUP#~rn2uzOU@C4uLfa&{uQ8Yd~;PQ`=}o8_h;FAeQv;F zRVC}@n^Nik{X*lM6IaEWlg3Dj*l|mL-F2|b>zm}H2bz~J zzp33H>he7PO*E!%fI~L=^SYoe{du-n!r*Vdwx$-L?NuxFM+~p@Ykn88_Fr(?SxJ2x zs0GUEXOi#}b$ctk$HZOrH7CWQQd%RSl_P0t6Ztk;bz=2z=EqU%Mf8A>?8B>bQg__# z7&x*}V8k%G8$oYMUqx`7k^NjaN`K}bws4+`Z?Qz#f#^MSN+)2+{>n33GecmegfE^W zEPpbHAYN-j2t^T)`2NIoibX&Y)x#t4Z3LuL;{6;d(sLF%mhylV=Ca~z8jOyzeA&oQ zn={T=sWD?{`2L{}Qr7mrf4jtrLa9)h-P*cvUW+&oC2rjbCrxmvd^i0r=VS!{t&E z&kBYB--`D4)MIAXQT7Xux7RMX2&9_SjOTkY+~vuuWZ9A+Qmm~Mys6YHzP1c|g_>O% zz@E6YNDR+TBx)3VqQhMFQ%+S%QS6TO3Snj zV)`ZEnIhY?rsK_i@iDFh5VgKvpp-pDjFymTfi>DHIdoGPz?_Xb*_JAFaVmO|Hc51; zDM+()s5r_^Dbr?7l+S}S+rX48A~S*v6gE)@1D|G&G5gzf%^8@gJ(`!41POi>Ix)y8 z0VFwYBxJ$~OO6mLf^n=&IW_^sFqwfcIuo)W)9VP6D*+c(7oNC1)sr0w9cVo@o*fAQ z*eca|Fpn!~K$6OZsS@u|^NR~)P#!XXcU98eY%S@Cq7uRTdPS|)vh>4{D1 zd3$?TTBGaEGqz7d-c9;;|1lFB*P`eRZS}5t`;IWMLVTDWix39+=FgZhKMCJDkirq=N13 zES^{+jLo$rj(7L4ks-KU*~5!0I?Rmjri*Ka32F7tZkw*8g7v54>=pC@Ir>{+-OY8K z+pyc0pT`nt*0Xa+G6K~A5~$Hmn&;(v(a$M-h&nw8;oxiM`4$Q6eyrO#zjsq+2d;`2mb@HV}A5);!Cv{!1mkS4* zuVp(;eEXwArR1TslD;Hxsfct?vQnnQQZho9Sy?p7$K(NxGQkr-SsJSqwuz##mZ!AG zAxOA)eLGMcH%dhfZ&3n;X5h*=NO%`xZ`79m4jG-`O@5k2mUlh(PpCC7<(YXjNH3^4 z)sdfKxeG~#f!PQ2D+$7P*gVX#ii(nYBE5`6EI|{jIutrV=fNF2Jv1g&br2xTm0>+b z8bF#jCT8)u0oF+pL7Y&&G9DrF+7~^6K~*(_&`tTEhU(gi@V~}*QhkuiHwYZ~N5_@) z!5`RjCI{O*4L(rcm2`@W8(eT695GXCK0ZNcOI{lPH=~_gNE86(|Fh(ib)yOxQ3d}k z`Ak!+a`7Z|={$ll^yZFn7x1S=t2MM@>Lvb%?V2Nml*RShG`0HKndTD+UH_|E*@3DL;S3AGXC* z#|DG7Q=KoGH!9w>=v~9#qBIKH3gD3d;~^tS7V>1TdTk52!cdKQ$hu-Z5v&BLWE7~= z@H$lD4kY4^Y>`k&5KZEcBhj%=FjB06dEq^(MiS`6-F~@v0TR;CqFbu zb;o_K3)nQBdMYUUUHePuw;vuzW);*I?~AFgeFgOJzWDD`=Ue~_G2VKfy6bWcAJ+oL zCbS#>%N9)DzuCg_f3hV}$T~<6G35FylCL>Aw_=tQ5wrq{R!-XpxXsQb5!&%r4A;T7 z`Y|1si_q?R76*&H`$ppk^d@ZICzGz~9N|<GPSPWFZ@Cd!20Z=pQ@SL$}uxCTNcr(fERN2Au$a>OTe0N z4o{sPk8o>2WgFZPkzQgu&+K{Qv#k|#Om}#yh}NCF=k+^HQz67Im*d1KsaIutx?NZK z2&FHP`DF|Z`niuzok;taJN`?2*3@DR^Uqcvf_^@G`uzwWf`cGr#UE?_N3sE+fRJ2B z)PNM(06y)2%BdqAf14??`Hdr;0Q6i`6IU!sFx%h42+2V^ME(Vg2G}CMXVUClxu$m5 zg&z^^NJK+VxP>48WbaM^SBNkWZHTi|*cll*_gwgpJy{x?Is0IvTt zImrt41&oM;*FMk$9p%)FFA6kblB}R~%JbFI4emynsAZT3@gm)yf!mE?V#IR@(=T0V z5qS3J^=_XNdjfu}F^^@dAw0`}#asNeyyM zyq+ey&)e+_l04ZH=I6@}U!B1e5j&o_wuE5PEQ-+7h-rX;_>%DWRJ2^?nLDN#cu!yz zB7|heN-4!iHsSz2nRwwsU`tWt1Qs}AbJ4AHc8I; z-;JWFq~w6A9Wj*NsDVPX_QHr;~1suvg1D5@Nmyg(Q5W#aJu0 z^2JiM{-~h=R#$ajh2)Lbx8s+q(|NHX^Z1jS=TiLF7joAHC%KDkL}Odg9^yy%gq$tl`04>sAtQrPBZFt1 zY$evyaE@T2+4%KiKa+2ZgGSb(M%MTR!9>lLP>%BiGa*STbQ$Zp6~uuO6CfeReYLnw zT(|^7a7T*b`*9P4Aj1N+sU2>J&lDZ*!Nm1~m3n>AF+CHaMVXc9nUR$WfD3>H82YBE z6+WD-&TnuC$orpebP+>Xqo-bet z?Xlf%n1?F!h6ft=m|#fa@Y-=oh-K3&gZl=jvXz0(ZHWr3+8+(EIYMQ964nT>}AvS zT-Mr4MCqq4{%oVTsSiSAl_atTRG)*$$Jvc4Da(Gc2Q zKDcsk)9W+p*h+84*v)8gmFnVbE_QUOQ&&&ooGD`yq7|E8;!FCjnO4OJ9_&8TD`$zg zv2ODA`}Etmd|q17C6Jg0{Q9&l&LPOqhzN~cd3QXQlsvj@@6`3;wx67h93)00_90N# z_i{%`GBrkcVC?pGg=<^N95`s8{LHvpbM0{h0`)TSj!iwlIiVrm&_Nyp3N#Lo_&A}NG6mIR31RfMO#8f zgoPUJjV~s|M5QzYNgB`s4{P z3lS7Z6eWa%c(#B9=_;K`BqBfR=#1!t1&h5clqVl^MZHiqs}RCX<^!$C>Qx+1w#&It zW~lyQi&V1e4{ycJm>ZNn?VoM=^00w`sxZZ=wI9=}AO3c>!I=BC_A*OQ(#Yo0qnUL% zMEU&=0+G21l^P(5qybnp>uN;>)K$zyRxh*fb>}-Z`z@eZoAr@Oo2hG zzuhdLr`P>W``*5q{akI`Z2EosF^pG}WBUB@WTlCEu?fUfqYtQpc^Sy?d3HVBw4BGC z>a}Wu3_L_s(|^07@tAwR?|5go>S-sk-oy1JE#VKW;}3`Lk&Qs1S2DalNJI`4sePm zLawD+5d|8HKn3s`dkozQ@*W^5rAH5F3Kc1^-2u?v;pvJDe)540GFOfopsXeX3kmZ# zPQD%t4;fS|=I@Y1fRZ3BH0S1nD-+UETj&srump+|%d(DBLBlGD=34RznJn7yVad}3 zi>ghmC8|w<(_EgUQ3xM`dloI~N#&a8N#z~rjpm~24PP23UJ)J`1aPU9*vW-wMhBou2F>xzxts9TojPHh zdYm(&Z%zpt!lCZ}!j;}dgE@553r&ql{=J=yn6|${!}Ql5m`wWM$(g)B6PY}*rFt^G z`H~oeaC?bYU9HQ}8TOzxFT=wh>AG)+;N@*MO!@W>Q>B7)rqN3a;-X8@H@-jM_Zi1b>2*n}^ala2BAeAM< zK%VQ6`2KRG9w*klez9hz64gJWD#1}MGrttn;U1UgbaqiKhx50@$*@Ab`(CWN2omdN zc+WYUEEDtd62SfP0c>A)G)DpYmNzy0*cZ=F3&NwzH$zt9%&%2wJJ)e@o@Y1RE{lFv zsOB#0J*&L&!z(=2S9dhLv-iBSE!bJCRd{h7N_-!^oV+WzJ71Re{jFr%ARSfJJG}MP z>?qeOVAOUWOsrI870_Fozpgtp6WzL10ON-6aelIYOC0gEl8vN*y&1sI&QK#_V@e`r zi^&$y{9>ehGh$Wtg^4^mPb!so2r{H?R#A77WMyX%EMhp52vjX(D$o3R;rySH?F@WH z%shC?vv=ST=tPZ}M>40`%=*&qB&3@~#V#0qMJ_PAiAchl(K*ZNjcv66IP2l;R{+iHZd&kzDQ;wr6Ky-J*;kxTUp3yR(eepZ6XzIw*WEM zz-9DBZC;v@^|wyRCEs&*p$BmjB%xCJPMNyQSffjX=FFYf@M$8B`Q{r}`jlJ*W{JZN4?@(S9#TPd-^VqO7#`Oc7by(sLC*7t3p-gOTo^}^?^#snj zwz`05u}u|_q;ECbRS3f;y(a=w8DgF5=bG);{q^@|Yncv@wYgWon|6Cie|Nmrf{XCo z*HTh=8prFE8&>J&%1?@valvqh&Ltgica#RzO}tY>?spfqwxR67i}=fr(W|xRo`pm_ zQPjdR28z7uGpqIoQ?cqsbLf=WmqH`WXa(%}s_(&HeNFpiZ&aJf^!h^&l*-JH$)0n$ z9`KPuBMZ)oK+4&GBV<)%#c0f=JJx9-a3;9Dbnr&;Utr-p{;2LA;EoXFE;BUo;9dSR z3Z}VWMzS;mxw3WWJcss#41xrUn=$@vgtwYi&v*$uCP3cgkTtr8QkG^wC`aHfJwz+oOE%)5gSnLp*l zT&4e*HadDR9-_W~4WSb25onGQiZZ#^k*p^Zk^3yma?s@BChb9DMZ1gKqwM2@&*uI6 zcTWxWFfShyE?~Hegt*}GRLgHl=i5TJo=eW!A+8$HcYsQ8G#r+^zIDViyqnpvoB~>D zOrC~M0zD6&pluf{QK6Ty^TyO2@Pt;XEdMK8ue~Po2%j_W1F!hzkHZ8^hQHiUv4O}+ zj{~s!SN%-AsBfp8X?`q6QF{F`I4D>bdj9kXdm(wrZ$N9CkkGwZ$9ss5!w-yVxs~!3 z%$8y&E&c=;gdJj#R?03hY`H_T6Hj`*)OROpx%)BPQ`6Ogqii@#8 zz7Q^_L6p2i+S%cfuwz~g8ft&gB4$KQ4x<~{8}_cOYmhcWM-8zXM`%ztqsa`{*V?27 zD_bSiO4*fWYv5P^X?pP=hK?g)CeSRdRDAkXQUf?9Y766)-4f}PwIQ`j{5p`o<9cg3 zV?x|96Vfs64J)94GVx$PnKDEYkR7Rrv^nH*iJfdOh!<;5uy@{jOuI(y8B5w;J*>tz zur>r!);6+mu^bENs!ZpC(f`%Yyhof)!Y~fTUP0~)$H>TQY2OZ^(|8VF%T@>ZM~iJu zN)Q0{Aze+4y0s1d%niT!-M8m^z#iSheo}}n`epq{c5lVJrV(ENf?rEtfU1 zo7|c%_s|!<;;@x4zux(($i<*%E z>Ji(r*mL(&gr{f`Is{UC#D(m40t)+i6_JEL9;)6aVTBoGffy}Md><9HL=hT?0u?kFOJmc{(#rh`TNS1 zc8oN{HX}}aR`S+cfE7t;`%NgWcOK9ci|qymMKx_>Fv-NSFpFx;+mkXSssZM6Ew7r| z5M*nAVs%~g9yfGZYEaP(qTOs3y(JFe@JB$aa~<4JNWfJrlMIQLfp+t!0S#><6Abe< zyQSr&3x>`Rw*ih+mh)P`e%K0y1uyZDoCwOyK?zG9tXEcm1_=%nMa3*V@DyP6yL3zJ zy8-vLIHk6nc(kX0u_ee{qs#FD2phe?O?Qy$o zbXe44pNk{k=?_ybFtvE?Ke>SJ1QRZV^S}{OZNHlnCu8yNK3kVw;ZO~l*oL^#UxC7cwrHC)|lJK4a*jn6zc!AyQ&csWj8=uO7qsPv6Kl9ZS>unKYh_jcUtqV z^EetF{JH-Y|8@pT=Nx9ICxxx;&b%3p#V`9w=_otW?^s94=PsK{?e`{bMl|c)NTQ^c zq`wB~cgsoZzfxpjf0Gs_+*c+_4bYgNP}VVG4K+#4Tl`(JU~~YC)dVl*)pVXXsiZbp1`9`~<(7!l*)-1Cis8mTOz- zrT=K#$F+wRx@kjF^RB2-ak;{CEj+&5f4V8^jG>}lt|aB{X55`&W0z}Vp{dIq%NuiX7qK-D7U|{O7je%ccaY4S&&N#IA#b~ zJqh#PNlz-xyrfQ+VbKUS;>QfCK($H!Kt??`SesEiI4V!?@^K1%CUAwq?lwgj?qmeP zUifzd-~AdWQJxU31Kd>-R`dxgyA$NQ0gv*t>0+Lo^pF59Z`gfqLC3(ZofY^2Ke9=A zbKRnl93s|aHCiwR4z3k1*6`rwEK#Kz*>&62<|=dbBp-iuxO~}TOM?5-OI1Q<+`gsH z8`vAmTpFsUi1dtuM^;V9No=oLKlI<{1>7&wMfrt^Ia*|FQ0^6~fbximVelWRtd=TC zSQDU19lQfzUKySIbWXHkU<6wK{1NzmFhkThuD2k^f=XO(W=xyhY$KS1Kmgf=q+wmm z`jO66sB+~0^Py#@DnCp%6PTosKxm-)@;m_}W(Y+QQ9ps86!b}1?$E9_ONb+!msJ6I z*RpM&bHK8cQ1N&K)w3Co6U!qm9uyb8d1o`oq2~Z_j_INPnR_#SAao?;6Yh-HMV$;F ziCC04kRX<2an`@7Q#7+YrrY;?W9T|&fVrrfzS!1ZqODTyflE1(O50CBOZX*h4_6cB zfu8Y9!T1t!#Q)NGWqdT$i?FUROF^HZ=U%%wYasPo{E)v-4$<<^<&-d#&W&I!+sob> zRm6%ruiFSf(i?prJxikxEX`oJ!NwpF(N$Sk*x5L+rCOoFt!;gAXzG3WGI5$*ZJFprUX+7 z8f$GJ3m?`w-9IifMF~D%Dqd2VftZ2mlf-NH)6PZGrX{AXJVJ?$96PzJE}O63GLxzD zWr%Efpb#e&4@VfVPht@euaE!--xwlgl@Erb7$-k;M2@vB>L8_7Iz(=LCs#HKWn3>T z07gWDZy8cNfR0C-b1MF`y>Qlq5GkE7;E^;x?@bt>IUbjDmgGKw5N-+-P~JV64W2F13=Uoo&D2{DRS0Yg{wa&P$ZD0ZwuHrYBab*b z)5ndo;1sxZlcb6$KR=>ox@&=5!5412r~$$-bG$S+hSglp?vL)$5?d)W-7X8wnEv<& z#;UsxsPhy+gOh1*p^6jp06YvCKI6dd*^aTlBCBePjwEZ5c{hhgI4AxCF@Qmfr%!eY zF)XG5s@n!vsg%X$bOnx0kdZ>!sqI$F2O_2uBQ>B*0rxkEAiQ?{QN|9jEy$%XDvj8> zD2WwHmpr04#0nvNs9`DcC5fzUG4#%cAo5Pn=+-;{Wr{rwPb5hSGOlqheE=89rj+SQ zrI(ZW{$|SIF?~b{|#v zGTA$`RdXyBXMFPqV=ce{8Tm!Ow#4G__6z}g-7>t};@3J4Q%~fLg)y^^eC=65G%rA9YStcwxd={PhFm7olE4_)X_LFh}HX-Dp~ z7hWRDD>)`og-?)DrhaN2uaQ^;OKTxk<1;WzoRDgpSrU0LYIt5vv}vkwe6;1iIZde&*-BPSsXMLReyh~$8uB9s5X1nN1GkKm*mT*)CEtR zb+ck+Vufn6a=jeTT<(ue!TKpcZ?ojVZghoAe&|tB$qHKozPR=YWbWe+s2%|*4ng8e1>!9ea2|uuL}k`X zpGukjUYO=G?eNInUm0qF@MDK+q{f;bYU@c0)i336ur%av2A08tI>l4o?XEQw?W&%09X&mc#05J!6s4MHWQuj@JB)5eQd{L|)eEZbIv&R>LgNlj1W|et!?1#1}U? zPafVyQMqSH0EM9bfzIzRcB(@%=k5foxJUs7xN9cD*fM}M#jjRW_h1~98mUr8_DWGc z(DZnS_|y$BB1`8b!S-}lPnE3AadhgHWJ}C0g}q{PdPAs@&PX?dMeP7Gi6KTRgMwHc z8`zlny7Ysjk^LZOPRS*?Yy)Iya6#{PglAsm?M|d0t0_(SZ+NX4-V5zXkTl*S%E=(r z6cqS|g)>^UdO>tv>K36pXSdv@69p6;0@LifL$o-+f+GzE3MoJEQJRp`W#6ArhM%}Z zkX`|GLi7GWNARnX6_|*R7xPxAP(XJZ%FPd+2V)ZO?*N^_e9y!t#QSPY3~-l~5=n_` zQgRhwV3)oC&?Vb6pprZ(j{p@W&TZikTJcnNY~6F_(9kfcfg8pG%q>wU*TL{mUa%Te zYcy+sRdm^{SiZgkTcPB^{lkI>Nw{oaLO^sgQ0V;LATlvI(?|m{7P%BT6bJ}iKbO+c z7pX)VmTP*!#*Y84*103q-O@c~g5O^Nh%5>YkSaI6NKziuHAALPqTRKHbgjCC zv0}jn1BAch4t`bM5aWe4VyFHIo%3hN6%lVt8okTL>Mu&djIxKXN-zy>G{LH?!-TD* z{C@$=88hZZ#zr9o&QZ)cDY1g4P?j3fVHku+0u87q&=4Es)#_F32h~J9tJhVxu1W_) z#LTP_cCA(M;Pn8>yC zwT!jQYa{5|N4r{vTBg^jTLOXS4w;%ZxRIMnXZ1Y(U1#?+maR^VsT{oEje11uk2XQzGs-48SU?t(H{* zYm(s&JjSRh0p)J9uYJ*N@Hk>H~OQuMSl zOw&0C0V*(2k7$i4kD1H?!#N}E;6xP{83TV1v&am<$n(myqP`Y4mw*!HG-O-z8sl0gPtQ%Nj`f)`X`tssILt_Iko;0D^l7w{f@fsk)tkuoxc z0%WA3wzzdgZwEw`jM5RL4oDBkS{)cLEtY?6 z6ub;iBR6nd!h8eFZ>=9VVNm>yzvsjIvH1I1R&v>D0nu1ivG2Ae;=bF!v9=|72S&Nz4 zhFX^VB$m8{v}LO$xk!7e^lUL-j^2Fz&r*&EUOeSJAE?pe>Ge#W9zXy2@#}vle|vfI z+v4+duH(^fv-7W)(<^p=^X+;$`}|`5X(5Mt=NH$@t8WjE&ldlgJsiEdI-6Zx%+DXZ zIGfFv7t3!C!RgDF%h_ihhN(x7g!|Lk_372cm*wKBdi>DtNlho)#`7UewIT+ez3 zjz=}a7G#fS7nd{no~s<@(5N$>VLH>J_{vp#`sk=N{n7K$PxI5o8Qgy{+Gr~#JDWm` z1&>(k(e>NKyZHrr&v+6UZ<3=QG9Ul-{-g&^O!05vPbMo%v&mUj3!o0ZzgZo{Y z{7wQK^j(0H_FbBQ&$=}6lmDHi=_vnzjV@n@>N_n`Hyd;lM4^)phePt=8`&J36!(G2 z91f;;&)>f}KG}ajb}{gMz$ok_#ommfEjOB1J04(gFkpO7 zc5K}(HsOz7{_^TyRi2m2d(3v?PI?^oOOIo+8+g&NU9{{bUT`;v7YDp3{tlGCi?jKL zTu0xK>kNZtz=oTciJj~?9+DmR(?1+CeKE!#4w<*_PX6)huYY?vU0%%j)zQ`bWV-zQ zK0{61NtA!%of2iI2J__LHlU-GGsF(E45yOek5APhn{gx2#ts7Ke^_!0K%Hzk9+EBJ z%;#_*r5+%K!-4eV-OJanKdxip{bf3FCt*(d|FTx)x>hBLJ>9jcFVWGrTDJyFxrw0E zNtM$fsd7L4gEw6DmuB0@xy8}(PjBBofB&>iyV5s(#-6m3B&Rzi$#FPIPFs6)FMD+U zvN^}^{<2}nfLnm+B*y8G#CU+gp@^}*4>4`*`!9bR{lJ&eJrNX_jD`{#LNjJDWil}} zWjHf5I5IIbW@0lrH(@YhVm35lF=01jG(J2tW-(L(dV#0tq2UN@n z9dkf2XPw=>+N(QfZfhr8?cQye+nU*%-KpEDtG(K}r{CW%|Ges3pWm;Wrk`K`Iy#Qy z{PdISRLOBNFx_=3A9t=(Prz|F87I1q6XiG}U)KohI045YSP_=GL7!J(o8neWS`6v5}WB7{?#0fpMWGu-e>T#GY zPV8Q59Z&0HacY)XGJ)hd^+bNV1vsB%5>CO%I8~fl+iclsEc=o=2dCo<)NwltXQO|P zig`E}^{?dO0$hlBxJaD%yY{yh^S9nmFJTK8;X+)Bi*W@mqvuj_ntp3*SjHOOQ7^|8 z;V4=cm1f3Z3rSBcZNk0qBzkmj#UgR?%B_EO8?AbzZx?6vTFZBk>ruaxJ+KN_inDpW_1Q%q zzc_oZS+bi%XNEoE9B*RzUUHou_TheUE={x61GMV=a8R6EA1psau5-mxlF6p(V#jbjCP=CE~n#V67)<)j8x8p2jnHR-8|NX+6);Q)iX);(UMnqvaRK zn~L*w#jJIaq`5fXIF?)@(OKxSIDg$~c`11tasJ-Mo7+dcw)_fS70GRH$tUz|CsL4N z$u+!z*YPIa!rOR9Wbq4c%?CExQg=m8{>kclsI$s_e1H$J9QAmAEOKy;x1I;jY}qFw z4=-B%lx@@5@|nobaxK?mUypy{7x)TaqaJZ@@tw%?Z@l$?Rq_A6#}6XkPxcZ?2)Fv% zF^a-}D}h8re*70}b;-L?`^0tkSRO&%le&_)(SNnPGI^r7wIVF3LXu1!iBaMsQnlaH~E6K25B8c9l}_wF7ANK)~A04eFlr0`FBfd zlB84D;^-^D)g*D^X3w{twdpyOx{kOxzqPzB`EcrbSYO-)jjXi+ts|-9v7xy6)vUD< zt)s;)Othpi$r$P;;_i&MyeWA$bu)1fXIkEze1f>AKDVR=$wYB4Pqm~a$z*YFb+n`v z$yDmr*hbv)-&t#0TBm=D`|5-x?MQOO{n<~Jv?rMYXQR@ioF76M-*4l&CCDb|&6EO*UVY0aY_Z#cq zoBqqF`-m@;Zh2qqk2>m7#8){yLyE8FbkAC8)-#ngtPo$rZkB%xAjzj5h&loXV;T-Y z9b*}&qi7iF$jKC6tNpgl5v+5S`1;0LqT^>Yj>0VQb=~J}Tk2mt2mIQ4j$zq#)MHV{ z%s8BY1D|zoPv{as`#?Yy}we>&vR`n>p6{O3&pqRoh8$82Ik;Q z@oi4=mMYD)KC^$scV)EIvsuF?@!f7}$sCfc;(K$$lDRk^=V7k+9(l8RMAwROqT^>F z>S$SnizT94b?dW)HE*NVF|br3(j04Djw^8m=1WBHb>3geIOsWawe?)ZdUjIlEU^X) za4qWoUymDcgG7vJW@{*94Z9^`{vt~@;TGJCTd@dro40@C4vCl=KAI%5v|^9xmh6(q zE0LDy6~aD=d_2LDJ-83|;(m#|^(${ZZ_j$Z+h#rWIw9Qp`4USG;$b|5MpUz`cg|UI z7SH23ynuff@e*FfQi&=J&z}-g@+({R3SO0%lg};Dv%hZVHHo>n+4Ae;$0VlwxFt96 z7T(0$5_7YbxBic(JU`oFJ@2rr{*QO@p2U1v@mt@g^_0Z?ceEvC_z)jpxy1Z#yLVo$ zT5+U2!pHbT{Lx94>lK3ThiBq%kZt*Me2FjcmH2;SKl9ev{G;`Gjc>%?qTG_VtnGsM z2iLdc9e%*@m4kc0TSIbqpGfelb6!21YqM}J;vezRYQ1K-Ozp!6tR(*I#@0u#6RuEK z5&wesmPcY$jKXN~=cIant0>QN+gR&ajWv8C{u95nBnAWM$DsK4XLw89|J<|ene_~@ z>@|P!f4be0Sge87v8MQ+SMrwn;%m<@-&)UFEPInW4r^l_@&Cv7)<>@jZd2D2|9A5& zuTOrTx`Fur7O*^?`~h`CY=n&^;4HH~P3ZH8x+yl3Ky;q9>XpD_2{f#1NegU+EwQx( zYJ^9)1lkAjf2?O4mVGLLga?-BHNZ0o44Qv$NjvO-?XjZ-di~K`PnI_l0%MA-r=I0s zQg_BK5}1@`tqHWgrtXT}u)73i-LyV>W`9fFQv!LDEKlUxEd00fXIYX&;!^j*WC?6Y zvew?TR-*2MeX$?*#}o-{TWS4M>0em_2R^f80Ev#nff6W*uzV1CH1%K!Tx?-^8o7Ut zy&)2~e!}u}@*s7F1j9+R#RVQ~uqOJY0;6aES!7CVG2d<3BtL|I>QvGYTE;%W$~_ zcbv3VeQMD`f`>~jSxM4Kf+as#l26iEf+s81srUFg@>fgn+-1wxkawppz_ow4PJ*Sa ztn5USlcUOY3kW$!UM;O}K^R4E0tl zA~{RF9e3bP@^g3|FOcuzZ(XOpjHP%5ucD49-JXlo+W!X0CF+}~zujfld4ng4dQDPF z9f6gw3b|gBTqTLbD6ERnSPf%X=S^xo(|tmnfV%&$QTN0olIzsHFquTRsyFsQJx}R1 zhHn3D{?;v8r{Z+X!5M!z6KA2$qIan0pw66kSlY-is9&)U2a>#|PQ#%rn@)fJ2H%nl!x1=`b#9=) zALGc!lDB24cjObu^{Vnc^)l>9@_{YUd1C~1_-yrk1D@R-W2_c?cl6=>9SXYW!}s`s zo(}4fm4+ADhJM(ep85+4jw7i=T~7Z9lFHPTQ2SJ&o`92Z3V9?(kxZpNhZpb?mZBc% zcTh)cRqA_KnIwOjE$NFo8mm$F#{ncdmImPv97^uT00zm2<0u@>9;kt}unu;|M3&MS zyASHVilt7)fh0Pg>#skAqz3hF+=F|`Yho>ueYhVF;6XfuhuMZE*qo)}s9RxMlG@bm zu_K9Ye;4dZQkOav2cd3ZJ*7&aMISx&cW;S0OX#m3OQJJI z4b)#mXOCJ~o1`uEWY+l@b?mjn_SgYC()t{AR(Xwj{JzHz>`8sstjB35)~_?X{uZ67 z^|xq9qQ8G*V{AsEXPlPU26cP%x9&#L0d@U)?#RI5I10zmI)kNjR-A=%NP1Au!(5V{ z)Onail1Qy{!b0i;WtTqI)(MiXD#WFWPU{6-`? z3+Xs-f=$T>V;brlrDMA}w!lv?8FfGC|K5+K(y3EXXPyk|G|V8;^He5|B+)a}4V;8J zOJ}0ahq?!Ha3;>ixi}y7S6<9gdcM1j8%ah|Z$bSXb&l2R{M{s@sqdj)Cp;$C5j6(K zl0Sb#J!`+>S7?m^45H4%HCQT}TIW?ge#cSQMV;lwQ^%wJQhMfUhY6_1k)B)ijMg1{ zViM}8?u$CE2H+r;(ix*Y4kwvHJrYNeOr;);`oB-39)o(dkWD@vb5M`gnY8NvG7&rA zGF*-;a3$uml-_-;!qp_Rsn=iuiQY}DMLmC;=sm&_Jc`H2=b_#;l%U=z=)J%>Jdb*v zuUF}vSW53Q%22N`7f?UMMHCFJi==h9fLiF&Tov!Q+! z6VFmhsT-jlr}{NQ3v5lIdsS!S6p|Ix`c=tbOebH7`6QV*606Yl7Z!^?u0R6r6eAkMkfLhOAI+tD}UyJK-J^4-4Yprz5z@az{GqISZHc;!G z=1G!`)Oru7XZ%9eIUXmFY@#kh-P&mK&A5dm26Iry^K4pmoqFY6z5JRYUA9}B(<5S1v6V%bD&n1#j&vbf? zr`N+#Bzi{Et69Cm(d#`w>Uh@CyC3xma4{|+(Ps{N9irD8`piMk>L=S4~af4(Pt_8Y~&#M2`oV!52x_7gd&=R?@)h2F<6r~ z=HWd#5A{xYKIY;|T!;%$zaYxPMYtT7pdO)mRO)fJ74>>RkF`~}8rR@@T#M^)6YAaB zMl3`f8(Z)^?nNCNMYs*O;||=3yKxT|<38Mv2ke2!0!#2Dp2gF6 z2G8LIyo`EJcL}ecKKHoF^SXZ_JZaZi@hR%l41H>G5A~UYK1q0p_wfmqvj%-mqW8$p z@CCj{y@`8{mMeWg3#|J^jn42sP8`X3x@*KxBT6)3+k5%NvLlt`e1)A)b9lPVt*Wu zX*dvvq3-_-9EF*v-vErmEF6paetZ(@`}Zk01ND9S8k~=dFc%l%a$Jl{aW(4KbRST^ zCEI{&QNMZ9@8Y(je)Cp@dr-e;(=XQay{*1YK7#tCnSL{-Z;DUj3DmE}?xKF>br#R# zRn%|2^vf=NKdWzAZ{U9|e2)+D9+u$~)Uo;;-{A{N__^bJld`XqMwSKcTM*Me0r z0;^#pR>cs;U;ta9epyr<>tbzei1n}mw!lW%1e;+`Y>Tb1BeugX*aH)=8xF=^*auUv zFAkDWXYajFD4~~USMLpJsK*V@#HXIgah|=scYL9K)G4<;2Y7$)e?x=6@=Wh$`)9m_ zhPJSJsD!dot)3LFFIYWHLQ@)8JvCexSe+@MO{G@nNN97s)x#xp^sd#jBvf3HkC4!v zT~^Nx*FRc4QbI33wK`WquM(^tC7~||TAdfJZ&*EALjSwW>Lua&*H&jqY}6{Nmxt?r zvwDog4jgNBzQiF8inDsG#7

Presentación

diff --git a/docs/search_index.json b/docs/search_index.json index 3cfba53..9fd06eb 100644 --- a/docs/search_index.json +++ b/docs/search_index.json @@ -1 +1 @@ -[["index.html", "Estadística II & Inferencia Estadística Presentación", " Estadística II & Inferencia Estadística Daniel Franzani Actualizado al 17-02-2024 Presentación El curso de Estadística II & Inferencia Estadística, es el segundo curso estadístico de una serie de dos. Estos cursos tienen un enfoque práctico con un fuerte énfasis en la capacidad inferir a partir de conjuntos datos mediante la aplicación de distintas técnicas estadísticas. Este segundo documento, se concentra en pruebas de hipótesis, modelos de regresión lineal simple y múltiple, haciendo uso del programa estadístico R. Enlace al documento del primer curso de Estadística: Estadística I & Estadística Descriptiva. "],["modalidad.html", "Modalidad", " Modalidad La modalidad de trabajo consta de los siguientes elementos: El documento web cuenta con el desarrollo de todos los tópicos de curso, además de ejemplificaciones y ejercicios. En su mayoría, los ejemplos y ejercicios presentes en el documento fueron extraídos de la bibliografía obligatoria, sin embargo, a algunos de estos se ha incorporado el uso de R como programa de análisis estadístico. El desarrollo de los ejercicios por parte del estudiante se recomienda que sea en Google Colab R. Esta plataforma cuenta con una opción de configuración interna para R (desde Google Drive: Nuevo -> Más -> Google Collaboratory, dentro del archivo: Entorno de ejecución -> Cambiar tipo de entorno de ejecución -> Tipo de entorno de ejcución -> R -> Guardar). En el siguiente enlace se puede acceder a un documento con una configuración preestablecida para este lenguaje. El archivo generado se guardará automáticamente en la cuenta de Gmail predeterminada; otra opción en caso de no querer modificar su cuenta predeterminada (si es que debiese hacerlo) es descargar el archivo y cargarlo manualmente en la carpeta de Drive que estime conveniente. Los aspectos relacionados con el uso de R serán abordados en el Taller Introductorio. Se cuenta con talleres de práctica, lo cuales, cuentan con ejercicios propuestos para desarrollar en clases y ejercicios para el trabajo independiente del estudiante. El curso cuenta con bibliografía obligatoria y complementaria: (Obligatoria) “Estadística para Administración y Economía” (Anderson et al., 2008) (Obligatoria,) “Probabilidad y Estadística para Ingeniería y Ciencias” (Devore, 2008) (Complementaria) “R Programming for Data Science” (Peng, 2016) (Complementaria) “The R Software: Fundamentals of Programming and Statistical Analysis” (Micheaux et al., 2013) (Complementaria) “ggplot2: Elegant Graphics for Data Analysis” (Wickham, 2009) Además, se añaden citas que refuerzan el contenido presentando, las cuales se encuentra en detalle al final de cada sección. Las bases de datos a utilizar en el curso se encuentran disponibles en un repositorio web público. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Micheaux, P. L. de, Drouilhet, R., & Liquet, B. (2013). R and its documentation. In The r software: Fundamentals of programming and statistical analysis (pp. 141–150). Springer New York. https://doi.org/10.1007/978-1-4614-9020-3_6 Peng, R. D. (2016). R programming for data science. Leanpub. https://bookdown.org/rdpeng/rprogdatascience/ Wickham, H. (2009). Ggplot2: Elegant graphics for data analysis. Springer. "],["talleres-de-práctica.html", "Talleres de práctica", " Talleres de práctica A continuación, se muestra una lista de los talleres disponibles: Taller de práctica 1 Taller de práctica 2 Taller de práctica 3 Taller de práctica 4 Taller de práctica 5 Taller de práctica 6 Taller de práctica 7 Taller de práctica 8 Taller de práctica 9 Taller de práctica Evaluación 1 Taller de práctica Evaluación 2 Taller de práctica Examen "],["intervalos-de-confianza.html", "Unidad 1 Intervalos de confianza 1.1 Concepto 1.2 Intervalo de confianza para la media 1.3 Intervalo de confianza para la diferencia de medias 1.4 Intervalo de confianza para la comparación de varianzas", " Unidad 1 Intervalos de confianza Las bases de datos que se trabajarán en esta unidad son las siguientes: Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") Control cuotas: Contiene los datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Plan Vital y Provida. Las columnas de la base de datos son las siguientes: Plan.Vital: contiene los valores cuota en pesos de la AFP Plan Vital de un APV de fondo A. Provida: contiene lo valores cuota en pesos de la AFP Provida de un APV de fondo A. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/control%2Bcuotas.csv") 1.1 Concepto La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media de los chilenos, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el valor del reajuste del IPC del próximo año) pero no nos indica el error que se comete en dicha estimación. (Devore, 2008, página 254) Lo razonable, en la práctica, es adjuntar junto a la estimación puntual del parámetro, un margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza. Un intervalo de confianza para un parámetro con un nivel de confianza de \\(1-\\alpha\\) (el cual debe elegir el investigador), es un intervalo de extremos aleatorios \\((L,U)\\) que con probabilidad \\(1-\\alpha\\) contiene al parámetro. \\[ P(\\text{Parámetro} \\in (L,U)) = 1-\\alpha \\] En la estimación por intervalos de confianza partimos de una muestra \\(x_1,\\ldots,x_n\\), de lo cuales obtenemos un un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del \\(90\\%\\), la estatura media de los chilenos (parámetro poblacional) está contenida por el intervalo \\((1.80, 1.84)\\) metros, o , la probabilidad de que el intervalo \\((1.80,1.84)\\) contenga al valor real de la estatura media de los chilenos en metros es de \\(0.9\\). 1.1.1 Elaboración Cuando trabajamos con bases de datos (o cualquier conjunto de datos), se supone que las observaciones muestrales reales \\(x_1,\\ldots , x_n\\) son el resultado de una muestra aleatoria \\(X_1,\\ldots , X_n\\) tomada de una distribución normal con valor medio \\(\\mu\\) y desviación estándar \\(\\sigma\\). Los resultados de la última unidad del curso de Estadística I (Distribución de la media) implican que independientemente del tamaño de la muestra (\\(n\\)), la media muestral \\(\\bar{X}\\) está normalmente distribuida con valor esperado \\(\\mu\\) y desviación estándar \\(\\sigma/\\sqrt{n}\\). Si se estandariza el promedio se obtiene la variable normal estándar \\[\\begin{equation} Z = \\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\sim N(\\mu = 0,\\sigma^2=1) \\tag{1.1} \\end{equation}\\] Luego, en caso de estar interesado en construir un intervalo (bilateral) de confianza para la media con una determinada confianza, se debe plantear de la siguiente forma: \\[\\begin{equation} P\\left( Z_{\\alpha/2} < Z < Z_{1-\\alpha/2}\\right) = 1-\\alpha \\tag{1.2} \\end{equation}\\] En la expresión (1.2), \\(Z_{\\alpha/2}\\) y \\(Z_{1-\\alpha/2}\\) son los puntos de cortes en el eje \\(X\\) alrededor del 0, para los cuales, el área bajo la curva (probabilidad) de la función de densidad de la distribución normal estándar es igual a \\(1-\\alpha\\), tal como se muestra en la figura 1.1. En este sentido, para la figura planteada, los puntos de corte se traducen en las siguientes expresiones. \\[Z_{\\alpha/2} = x : P(Z \\leq x) = \\alpha/2\\] \\[Z_{1-\\alpha/2} = x : P(Z \\leq x) = 1-\\alpha/2\\] Figura 1.1: Curva Z, Normal Estándar Luego, reemplazando el valor de \\(Z\\) por (1.1) en la ecuación (1.2), y despejando el valor \\(\\mu\\) al interior de la probabilidad, se obtiene la siguiente expresión. \\[\\begin{equation} P\\left( \\overline{X} + Z_{\\alpha/2}\\frac{\\sigma}{\\sqrt{n}} < \\mu < \\overline{X} + Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}}\\right) = 1-\\alpha \\tag{1.3} \\end{equation}\\] o \\[\\begin{equation} P\\left( \\overline{X} - Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}} < \\mu < \\overline{X} + Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}}\\right) = 1-\\alpha \\tag{1.4} \\end{equation}\\] La desigualdad dentro de la probabilidad es el intervalo de confianza construido para la media poblacional, mientras que, el término a la derecha de la igualdad corresponde a la confianza trabajada por el investigador (\\(1-\\alpha\\)). En la sección 2 se dará a conocer en mayor profundidad el concepto de confianza y significancia (\\(\\alpha\\)). La forma de construir un intervalo de confianza para un determinado parámetro es distinta en todos los casos, en particular, debido a la suposiciones con las que se trabaja. Por ejemplo, para expresión desarrollada en (1.3) es necesario suponer que se conoce la varianza poblacional de los datos, algo que puedo o no ocurrir en la realidad. Por último, cabe mencionar, que existen otros tipos de intervalos, si bien el que se ha mostrado hasta el momento es un intervalo que tiene tanto una cota inferior como superior, existen otros tipos de intervalos que son solo tienen una cota (o superior o inferior). A continuación, se dan a conocer intervalos de confianza para estimar la media poblacional, la diferencia de medias poblacionales y la comparación de varianzas, omitiendo los procesos de construcción. 1.2 Intervalo de confianza para la media 1.2.1 Intervalo de confianza para la media de una distribución normal y varianza poblacional conocida Tabla 1.1: Intervalos de confianza para la media de una distribución normal y varianza poblacional conocida Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu < b) = 1-\\alpha\\) \\(\\left(\\bar{x} \\pm Z_{1-\\alpha/2}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\) Acotado por la derecha \\(P(\\mu < b)=1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} + Z_{1-\\alpha}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu)=1-\\alpha\\) \\(\\left(\\bar{x} - Z_{1-\\alpha}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}, \\infty\\right)\\) Ejemplo 1.1 Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal que se seleccionaron de una proceso de llenado con el propósito de verificar el peso promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es una variable aleatoria normal con una desviación estándar \\(\\sigma = 5g\\), obtener el intervalo de confianza al 99% para la media de llenado de este proceso. Nota: \\(\\bar{x} = 503.75\\) Dado que, no se especifica el tipo de intervalo, y que se está interesado es el estudiar la media del llenado de las cajas de cereal, corresponde elaborar un intervalo de confianza bilateral: \\[\\left(\\bar{x} \\pm Z_{1-\\alpha/2}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\] No existe un comando de R (nativo) para elaborar este intervalo, por lo que, la construcción debe ser manual, tal como se muestra a continuación. peso = c(506,508,499,503,504,510,497,512, 514,505,493,496,506,502,509,496) promedio = mean(peso) L = promedio - qnorm(1-0.01/2)*5/sqrt(length(peso)) U = promedio + qnorm(1-0.01/2)*5/sqrt(length(peso)) c(L,U) ## [1] 500.5302 506.9698 El resultado indica que, la probabilidad de que el intervalo \\((500.5, 506.9)\\) (en gramos) contenga el valor de la media de llenado de las cajas es de 0.99. Ejercicio 1.1 Obtener los intervalos con las confianzas al 90% y 95% asociados al ejemplo 1.1. Comente las diferencias e interprete. 1.2.2 Intervalo de confianza para la media de una distribución normal y varianza poblacional desconocida Tabla 1.2: Intervalos de confianza para la media de una distribución normal y varianza poblacional desconocida Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu < b) = 1-\\alpha\\) \\(\\left(\\bar{x} \\pm t_{1-\\alpha/2,n-1}\\displaystyle\\frac{S}{\\sqrt{n}} \\right)\\) Acotado por la derecha \\(P(\\mu < b)=1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} + t_{1-\\alpha,n-1}\\displaystyle\\frac{S}{\\sqrt{n}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu)=1-\\alpha\\) \\(\\left(\\bar{x} - t_{1-\\alpha,n-1}\\displaystyle\\frac{S}{\\sqrt{n}}, \\infty\\right)\\) Ejemplo 1.2 Para resolver el ejemplo 1.1 considerando varianza poblacional desconocida, es posible utilizar el comando t.test() para obtener el intervalo de confianza. \\[\\left(\\bar{x} \\pm t_{1-\\alpha/2,n-1}\\displaystyle\\frac{S}{\\sqrt{n}} \\right)\\] peso = c(506,508,499,503,504,510,497,512, 514,505,493,496,506,502,509,496) t.test(x = peso, conf.level = 0.99, alternative = "two.sided") ## ## One Sample t-test ## ## data: peso ## t = 324.89, df = 15, p-value < 2.2e-16 ## alternative hypothesis: true mean is not equal to 0 ## 99 percent confidence interval: ## 499.181 508.319 ## sample estimates: ## mean of x ## 503.75 En este sentido, se tiene una probabilidad de 0.99 de que el intervalo \\((499.1, 508.3)\\) contenga el valor de la media de llenado de las cajas de cereal. Ejercicio 1.2 Utilizando la base de datos del Imacec: Elabore un intervalo de confianza para estudiar el valor promedio del Imacec en el sector de Minería en los años 2019 y 2021, asumiendo que el Imacec de Minería es una variable aleatoria que distribuye normal. Utilice una confianza de 91%. Interprete. Elabore un intervalo de confianza para estudiar si, el valor promedio del Imacec en el sector de Industria en los años 2019 y 2021 es mayor a 100, asumiendo que el Imacec de Industria es una variable aleatoria que distribuye normal. Utilice una confianza de 91%. Interprete. 1.3 Intervalo de confianza para la diferencia de medias 1.3.1 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales conocidas Tabla 1.3: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales conocidas Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm Z_{1-\\alpha/2}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + Z_{1-\\alpha}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - Z_{1-\\alpha}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}, \\infty\\right)\\) Ejemplo 1.3 La base de datos dolar.csv contiene los datos asociados al tipo de cambio del dólar. Las columnas de la base de datos son las siguientes: Mes: mes de medición. Dia: día de medición. Valor: tipo de cambio del dólar a pesos (clp). Elabore un intervalo de confianza para estudiar la diferencia del valor promedio del dólar entre los meses de junio y julio, asumiendo distribución normal de los datos en ambas poblaciones, y varianzas poblacionales de 1250 y 580 para cada mes respectivamente. Al conocer las varianzas poblacionales, y querer estudiar la diferencia, corresponde elaborar el siguiente intervalo de confianza. Asumiendo una confianza del 95%. \\[\\left(\\bar{x} - \\bar{y} \\pm Z_{1-\\alpha/2}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\] No existe un comando en R que permita generar este intervalo de confianza, por lo que corresponde construirlo manualmente, tal como se muestra a continuación. # Se carga la base datos, la cual, se usará en ejemplos posteriores. df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/dolar.csv") junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] L = mean(junio) - mean(julio) - qnorm(1-0.05/2)* sqrt(1250/length(junio) + 580/length(julio)) U = mean(junio) - mean(julio) + qnorm(1-0.05/2)* sqrt(1250/length(junio) + 580/length(julio)) c(L,U) ## [1] -103.85536 -65.70453 El resultado indica que, la probabilidad de que el intervalo \\((-103.8, -65.7)\\) (en pesos) contenga al valor real de la diferencia entre ambas medias es de 0.95. 1.3.2 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales desconocidas e iguales Tabla 1.4: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales desconocidas e iguales Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + t_{1-\\alpha,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - t_{1-\\alpha,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}, \\infty\\right)\\) donde, \\[k = n_X + n_Y-2\\] \\[S_p^2 = \\frac{(n_X-1)S_X^2 + (n_Y-1)S_Y^2}{n_X+n_Y-2}\\] Ejemplo 1.4 Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo promedio que les toma a los estudiantes el trámite de inscripción. En cada universidad se anotaron los tiempo de inscripción para 30 alumnos seleccionados al azar. Las medias y las desviaciones estándar muestrales son las siguientes: \\[\\begin{equation} \\notag \\begin{matrix} \\bar{x}_1 = 50.2 & \\bar{x}_2=52.9\\\\ S_1 = 4.8 & S_2 = 5.4 \\end{matrix} \\end{equation}\\] Si se supone que el muestreo se llevó a cabo sobre dos poblaciones distribuidas normales e independientes con varianzas iguales , obtener el intervalo de confianza estimado del 90% para la diferencia entre las medias del tiempo de inscripción para las dos universidades. Con base en este evidencia, ¿se estaría inclinando a concluir que existe una diferencia real entre los tiempos medios para cada universidad? Para responder a la pregunta, es necesario construir un intervalo de confianza para la diferencia de medias y, verificar si el cero está incluido dentro de este. El desarrollo del intervalo debe ser manual, ya que, no se cuenta con una base de datos, sino que directamente con los promedios y desviaciones estándar de las muestras. \\[\\begin{equation} \\notag \\begin{split} &\\left(\\bar{x}_1 - \\bar{x}_2 \\pm t_{1-\\alpha/2,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_{X_1}} + \\displaystyle\\frac{1}{n_{X_2}}}\\right) = \\left(-6.208;0.808 \\right)\\\\ S_p^2 &= \\frac{(n_{X_1}-1)S_{X_1}^2 + (n_{X_2}-1)S_{X_2}^2}{n_{X_1}+n_{X_2}-2} = \\frac{29\\cdot 4.8^2 + 29\\cdot 5.4^2}{58} = 26.1\\\\ k &= n_{X_1} + n_{X_2}-2 = 58 \\text{, } t_{0.995, 58} = 2.66\\\\ \\end{split} \\end{equation}\\] Como el intervalo contiene al cero, no existe suficiente evidencia para indicar que existe una diferencia real entre los tiempos medios para cada universidad, con un 90% de confianza. Ejercicio 1.3 La base de datos Control cuotas contiene los datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Plan Vital y Provida. Se está interesado en saber si el valor promedio de las cuotas de Plan Vital superan al de Provida por más de 30000 pesos, para ello, elabore un intervalo de confianza, considerando una confianza del 90%. Asuma, que el valor cuota es una variable aleatoria que distribuye normal en ambas poblaciones (independientes), y que las varianzas poblacionales son desconocidas e iguales. 1.3.3 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales desconocidas y distintas Tabla 1.5: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales desconocidas y distintas Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + t_{1-\\alpha,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - t_{1-\\alpha,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}, \\infty\\right)\\) dónde \\(k\\) es el entero más cercano a \\[\\frac{(S_X^2/n_X + S_Y^2/n_Y)^2}{(S_X^2/n_X)^2/(n_X-1) + (S_Y^2/n_Y)^2/(n_Y-1)}\\] Ejemplo 1.5 Resuelva el ejemplo 1.3 asumiendo varianzas poblacionales desconocidas y diferentes. Al asumir que las varianzas poblacionales son desconocidas y diferentes, corresponde elaborar el siguiente intervalo. \\[\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\] La ejecución en R es mediante el comando t.test() considerando el argumento var.equal = F, el cual, indica que las varianzas poblacionales son desconocidas y distintas (por defecto el valor de este argumento es F, es decir, se asume que las varianzas poblacionales son desconocidas y distintas). Además, se asume una confianza del 95%. junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] t.test(x = junio, y = julio, conf.level = 0.95, var.equal = F) ## ## Welch Two Sample t-test ## ## data: junio and julio ## t = -8.793, df = 33.349, p-value = 3.338e-10 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -104.38837 -65.17152 ## sample estimates: ## mean of x mean of y ## 857.7695 942.5494 El resultado indica que, la probabilidad de que el intervalo \\((-104.3, -65.17)\\) (en pesos) contenga al valor real de la diferencia entre ambas medias es de 0.95. Ejercicio 1.4 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar si, la media del Imacec del sector de minería es menor que el del sector de industria en el periodo 2019-2020. Asuma que, las distribuciones poblacionales son normales e indendientes, y que las varianzas poblacionales son desconocidas y distintas. Utilice una confianza del 96%. Interprete. 1.4 Intervalo de confianza para la comparación de varianzas En este caso, se estará interesado el siguiente intervalo, ya que, es el fundamental para determinar la igualdad de las varianzas. \\[\\begin{equation} \\notag \\begin{split} P\\left(a<\\frac{\\sigma_Y^2}{\\sigma_X^2}<b\\right) = 1-\\alpha &\\Rightarrow \\left( F_1\\frac{S_Y^2}{S_X^2},F_2\\frac{S_Y^2}{S_X^2} \\right)\\\\ & F_1 = \\frac{1}{f_{1-\\alpha/2,n_Y-1,n_X-1}}\\\\ & F_2 = f_{1-\\alpha/2,n_X-1,n_Y-1} \\end{split} \\end{equation}\\] Ejemplo 1.6 Utilizando la base de datos dolar.csv, elabore un intervalo de confianza para el cociente de la variabilidad del valor del dólar entre los meses de junio y julio, asumiendo que las distribuciones poblacionales son normales e independientes Para estudiar o comparar varianzas, corresponde elaborar el único intervalo especificado en esta sección. \\[\\left( F_1\\frac{S_Y^2}{S_X^2},F_2\\frac{S_Y^2}{S_X^2} \\right)\\] La ejecución en R, considerando una confianza del 95% es la siguiente. junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] var.test(x = junio, y = julio, conf.level = 0.95) ## ## F test to compare two variances ## ## data: junio and julio ## F = 2.2409, num df = 19, denom df = 17, p-value = 0.1004 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 95 percent confidence interval: ## 0.8510277 5.7522904 ## sample estimates: ## ratio of variances ## 2.240867 Dado que, la probabilidad asociada a este intervalo de confianza contiene al cociente de las varianzas poblacionales, para determinar si existe o no diferencia entre estos parámetros se debe verificar si el 1 está dentro o no del intervalo. En caso de que el 1 esté dentro del intervalo, entonces, se asume que las varianzas poblacionales son iguales. En este sentido, el intervalo asociado al ejemplo es \\((0.8, 5.7)\\), el cual, contiene al 1. Por lo tanto, se asume que las varianzas del valor del dólar de ambos meses es igual, con un 95% de confianza. Ejercicio 1.5 Considerando el ejercicio 1.3, elabore un intervalo de confianza para la comparación de varianzas de ambas poblaciones. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 93.2%. Interprete. Ejercicio 1.6 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para comparar la variabilidad (varianza) del valor del Imacec entre ambos sectores. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 90%. Interprete. Ejercicio 1.7 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar la diferencia la media del Imacec de ambos sectores. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 92%. Interprete. Ejercicio 1.8 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar si, el promedio del Imacec de minería es mayor al de industria por al más de 2 unidades. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 97%. Interprete. Referencias Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. "],["PH.html", "Unidad 2 Pruebas de hipótesis 2.1 Concepto 2.2 Pruebas de hipótesis para la media 2.3 Pruebas de hipótesis para la diferencia de medias 2.4 Prueba de hipótesis para comparación de varianzas 2.5 Prueba de hipótesis para la diferencia de proporciones", " Unidad 2 Pruebas de hipótesis En general, las bases de datos que se trabajarán en esta sección son las siguientes: Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") ICC: Contiene registros del Índice de Confianza del Consumidor (ICC). Este indicador de confianza del consumidor proporciona una indicación de la evolución futura del consumo y el ahorro de los hogares. Un indicador por encima de 100 señala un aumento en la confianza de los consumidores hacia la situación económica futura, como consecuencia de la cual son menos propensos a ahorrar y más inclinados a gastar dinero en compras importantes en los próximos 12 meses. Los valores por debajo de 100 indican una actitud pesimista hacia la evolución futura de la economía, lo que posiblemente resulte en una tendencia a ahorrar más y consumir menos. Las variables que contiene la base de datos son las siguientes: Locacion: lugar en donde se mide el ICC (FRA = Francia, POL = Polonia, OECD = OCDE, ESP = España, BEL = Bélgica, ITA = Italia, DEU = Alemania). Mes: corresponde al mes en el que se realiza la medición del índice. Ano: corresponde al año en el que se realiza la medición del índice. ICC: valor del índice de confianza del consumidor. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/consumidor.csv") 2.1 Concepto Una hipótesis estadística o simplemente hipótesis es una pretensión o aseveración sobre el valor de un solo parámetro (característica de la población o característica de una distribución de la población) o sobre los valores de varios parámetros (Devore, 2008, página 285) (Anderson et al., 2008, página 340). En cualquier cualquier problema de prueba de hipótesis, existen dos hipótesis contradictorias consideradas, la hipótesis nula y la alternativa. La hipótesis nula denotada por \\(H_0\\), es la pretensión de que inicialmente se supone cierta (la pretensión de “creencia previa”). La hipótesis alternativa denotada por \\(H_1\\) (o \\(H_a\\)), es la aseveración contradictoria a \\(H_0\\). La hipótesis nula será rechazada en favor de la hipótesis alternativa solo si la evidencia muestral sugiere que \\(H_0\\) es falsa. Si la muestra no contradice fuertemente a \\(H_0\\), se continuará creyendo en la verdad de la hipótesis nula. Las dos posibles conclusiones derivadas de un análisis de prueba de hipótesis son entonces rechazar \\(H_0\\) o no rechazar \\(H_0\\). 2.1.1 Elaboración En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y alternativa. Se debe tener cuidado en estructurar la hipótesis apropiadamente de manera que la conclusión de la prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar las decisiones desea. A partir de la situación, las pruebas de hipótesis pueden tomar tres formas (tabla 2.1), las cuales se diferencian en el desigualdad o igualdad empleada en la hipótesis alternativa. Tabla 2.1: Planteamiento de las pruebas de hipótesis Caso 1 Caso 2 Caso 3 \\(H_0: \\theta = \\theta_0\\) \\(H_0: \\theta = \\theta_0\\) \\(H_0: \\theta = \\theta_0\\) \\(H_1: \\theta \\neq \\theta_0\\) \\(H_1: \\theta > \\theta_0\\) \\(H_1:\\theta < \\theta_0\\) En diversas ocasiones, \\(H_1\\) se conoce como la “hipótesis del investigador”, puesto que es la pretensión que al investigador en realidad le gustaría validar. La palabra nulo “significa sin valor”, lo que sugiere que \\(H_0\\) es identificada como la hipótesis de ningún cambio. Ejemplo 2.1 Considérese, que el 10% de todas las tarjetas de circuito producidas por un cierto fabricante durante un periodo de tiempo reciente estaban defectuosas. Un ingeniero ha sugerido un cambio en el proceso de producción en la creencia de que dará por resultado una proporción reducida del proceso cambiado. La hipótesis alternativa (posición del investigador) es \\(H_1: p <0.10\\), la pretensión de que la modificación del procesos redujo la proporción de las tarjetas defectuosas. Una opción natural para \\(H_0\\) en esta situación es la pretensión contraria a la establecida en \\(H_1\\), es decir, \\(p\\geq 0.1\\). En su lugar se considera \\(H_0: p = 0.1\\) contra \\(H_1: p < 0.1\\), tal como se expuso en la tabla anterior. Ejercicio 2.1 El gerente de Danvers-Hilton Resort afirma que la cantidad media que gastan los huéspedes en un fin de semana es menos de \\(\\$600\\) dólares. Un miembro del equipo de contadores observó que en los últimos meses habían aumentado tales cantidades. El contador emplea una muestra de cuentas de fin de semana para probar la afirmación del gerente. ¿Qué forma de hipótesis deberá usar para probar la afirmación del gerente? Explique. Caso 1 Caso 2 Caso 3 \\(H_0: \\mu = 600\\) \\(H_0: \\mu = 600\\) \\(H_0: \\mu = 600\\) \\(H_1: \\mu \\neq 600\\) \\(H_1: \\mu > 600\\) \\(H_1:\\mu < 600\\) ¿Cuál es la conclusión apropiada cuando no se puede rechazar la hipótesis nula \\(H_0\\)? ¿Cuál es la conclusión apropiada cuando se puede rechazar la hipótesis nula \\(H_0\\)? Ejercicio 2.2 El gerente de un negocio de venta de automóviles está pensando en un nuevo plan de bonificaciones, con objeto de incrementar el volumen de ventas. Al presente, el volumen medio de ventas es 14 automóviles por mes. El gerente desea realizar un estudio para ver si el plan de bonificaciones incrementa el volumen de ventas. Para recolectar los datos, una muestra de vendedores venderá durante un mes bajo el nuevo plan de bonificaciones. Dé las hipótesis nula y alternativa más adecuadas para este estudio. Comente la conclusión resultante en el caso en que \\(H_0\\) no pueda rechazarse. Comente la conclusión que se obtendrá si \\(H_0\\) puede rechazarse. Ejercicio 2.3 Debido a los costos y al tiempo de adaptación de la producción, un director de fabricación antes de implantar un nuevo método de fabricación, debe convencer al gerente de que ese nuevo método de fabricación reducirá los costos. El costo medio del actual método de producción es \\(\\$220\\) por hora. En un estudio se medirá el costo del nuevo método durante un periodo muestral de producción, Dé las hipótesis nula y alternativa más adecuadas para este estudio. Haga un comentario sobre la conclusión cuando \\(H_0\\) no pueda rechazarse. Dé un comentario sobre la conclusión cuando \\(H_0\\) pueda rechazarse. 2.1.2 Errores tipo I y II Las hipótesis nula y alternativa son afirmaciones opuestas acerca de la población. Una de las dos, ya sea la hipótesis nula o la alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de hipótesis lleve a la aceptación de \\(H_0\\) cuando \\(H_0\\) sea verdadera y al rechazo de \\(H_0\\) cuando \\(H_1\\) sea verdadera. Por desgracia, las conclusiones correctas no siempre son posibles. Como la prueba de hipótesis se basa en una información muestral debe tenerse en cuenta que existe la posibilidad de error. Los dos tipos de errores que se pueden cometer son: Error tipo I: Rechazar \\(H_0\\) cuando \\(H_0\\) es verdadera. Error tipo II: No rechazar \\(H_0\\) cuando \\(H_0\\) es falsa. Es posible el error que se desea cometer, es decir, es posible establecer la probabilidad de cometer un error tipo I o II, pero no ambos. El nivel de significancia es la probabilidad de cometer un error tipo I cuando la hipótesis nula es verdadera. Para denotar el nivel de significancia se usa la letra griega \\(\\alpha\\), y los valores que se suelen usar para \\(\\alpha\\) con 0.05 y 0.01. Ejemplo 2.2 Walter Williams, columnista y profesor de economía en la universidad George Mason indica que siempre existe la posibilidad de cometer un error tipo I o un error tipo II al tomar una decisión (The Cincinnati Enquirer, 14 de agosto de 2005). Hace notar que la Food and Drug Administration corre el riesgo de cometer estos errores en sus procedimientos para la aprobación de medicamentos. Cuando comete un error tipo I, la FDA no aprueba un medicamento que es seguro y efectivo. Al cometer un error tipo II, la FDA aprueba un medicamento que presenta efectos secundarios imprevistos. Sin importar la decisión que se tome, la probabilidad de cometer un error costoso no se puede eliminar. Ejercicio 2.4 Nielsen informó que los hombres jóvenes estadounidenses ven diariamente 56.2 minutos de televisión en las horas de mayor audiencia (The Wall Street Journal Europe, 18 de noviembre de 2003). Un investigador cree que en Alemania, los hombres jóvenes ven más tiempo la televisión en las horas de mayor audiencia. Este investigador toma una muestra de hombres jóvenes alemanes y registra el tiempo que ven televisión en un día. Los resultados muestrales se usan para probar las siguientes hipótesis nula y alternativa. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu = 56.2\\\\ H_1&: \\mu > 56.2\\\\ \\end{split} \\end{equation}\\] En esta situación, ¿cuál es el error tipo I? ¿Qué consecuencia tiene cometer este error? En esta situación, ¿cuál es el error tipo II? ¿Qué consecuencia tiene cometer este error? Ejercicio 2.5 Suponga que se va a implantar un nuevo método de producción si mediante una prueba de hipótesis se confirma la conclusión de que el nuevo método de producción reduce el costo medio de operación por hora. Dé las hipótesis nula y alternativa adecuadas si el costo medio de producción actual por hora es \\(\\$220\\). En esta situación, ¿cuál es el error tipo I? ¿Qué consecuencia tiene cometer este error? En esta situación, ¿cuál es el error tipo II? ¿Qué consecuencia tiene cometer este error? 2.1.3 Procedimiento de prueba Un procedimiento de prueba es un regla, basada en datos muestrales, para decidir si rechazar \\(H_0\\). Este proceso consta de dos elementos: Estadístico de prueba: Función de los datos muestrales en los cuales ha de basarse la decisión. Región de rechazo: Conjunto de todos los valores estadísticos de prueba por los cuales \\(H_0\\) será rechazada. Para decidir si \\(H_0\\) es finalmente rechazada es posible ocupar dos métodos. Método del valor p Un valor-p es una probabilidad que porta a una medida de evidencia suministrada por la muestra contra la hipótesis nula. Valores pequeños indican una evidencia mayor contra la hipótesis nula. Además de representar un probabilidad, el valor-p puede ser vista como una porción de área bajo la curva. La figura 2.1 muestra la relación entre los distintos elementos ya mencionados. La curva corresponde a la función de probabilidad de los datos. Los valores centrales son aquellos que son más probables de observar (parte más alta de la curva), mientras que los valores extremos (derecha e izquierda) son los menos probables de observar. El punto de color rojo corresponde al estadístico de prueba, función que nos dará un valor con el que seremos capaces de rechazar o no \\(H_0\\). Finalmente el área de color verde corresponde al área bajo la curva desde el estadístico observado hacia la izquierda (en este caso). Figura 2.1: Estadístico de prueba para un prueba altenativa con signo \\(>\\) La tabla 2.2, da cuenta de la relación que existe entre las pruebas de hipótesis y la ubicación del valor-p en el gráfico presentado. Tabla 2.2: Hipótesis alternativa, valor-p y estadístico de prueba Signo de comparación en \\(H_1\\) Referencia Ubicación del estadístico de prueba y valor-p \\(>\\) Unilateral derecha A la derecha del gráfico \\(<\\) Unilateral izquierda A la izquierda del gráfico \\(\\neq\\) Bilateral A ambos lados del gráfico La regla de rechazo usando el valor-p es \\[\\text{Rechazar } H_0 \\text{ si el valor-p } \\leq \\alpha\\] En la figura 2.2, se puede observar los tres casos posibles para las distintas hipótesis alternativas, en las cuales se ejemplifica un valor-p en cada uno de los casos. De izquierda a derecha, las hipótesis alternativas correspondientes son unilateral izquierda, unilateral derecha, y bilateral. Figura 2.2: Valores -p por tipo de hipótesis alternativa La decisión de si en cada uno de los casos se rechaza o no la hipótesis nula, depende del valor elegido para la significancia. En la figura 2.3 se muestra la comparativa entre el valor-p y \\(\\alpha\\) para el caso de una hipótesis alternativa unilateral derecha; el área sombreada de color rojo corresponde al valor de \\(\\alpha\\) (área de rechazo), mientras que el área sombreada de color gris corresponde al valor-p definido por el estadístico de prueba. Figura 2.3: Comparativa del valor-p y el área de rechazo para una prueba unilateral derecha Cabe recordar que, el valor de alfa (valor del área roja en la figura 2.3) estará dado por el investigador (subjetivo), mientras que el valor del área gris se debe determinar a partir de los datos de la muestra (estadístico de prueba). Método del valor crítico Este método consiste en comparar el estadístico de prueba con un número fijo llamado valor crítico. El valor crítico es un punto de referencia para determinar si el valor del estadístico de prueba es lo suficientemente pequeño para rechazar la hipótesis nula. El valor crítico corresponde a la coordenada del eje horizontal que define el área llamada \\(\\alpha\\) (fijado por el investigador), y está ubicada en el mismo sector que el valor-p.  El intervalo de números generado a partir del valor crítico es lo denominado región de rechazo. En la figura 2.4, se observa que una hipótesis nula es rechazada cuando el valor-p es menor o igual a \\(\\alpha\\), lo cual, es equivalente a decir que (gráfico de la izquierda), el estadístico de prueba (1.4) es mayor o igual al valor crítico (0.8), a esto se le denomina “caer en la región de rechazo”. El razonamiento de rechazo utilizando el valor crítico depende de la zona en la que se ubica alfa y el valor-p. Figura 2.4: Método del valor crítico para una hipótesis unilateral derecha Los lineamientos de cómo construir un estadístico de prueba, determinar el varlo crítico y el valor-p asociados a una prueba de hipótesis, se darán a conocer a partir de la sección 2.2. 2.1.4 Intervalos de confianza Existe un relación directa entre las pruebas de hipótesis y los intervalos de confianza, ya que estos pueden ser utilizados para rechazar o no \\(H_0\\). La tabla 2.3, da cuenta de del tipo de intervalo de confianza que se debe elaborar para cada tipo de prueba de hipótesis. Tabla 2.3: Hipótesis alternativa e Intervalo de confianza Signo de comparación en \\(H_1\\) Tipo de intervalo de confianza \\(>\\) \\((a,\\infty )\\) \\(<\\) \\((-\\infty ,b)\\) \\(\\neq\\) \\((a,b)\\) A lo largo de las distintas pruebas, se abordarán los distintos métodos de prueba, incluyendo el uso de intervalos de confianza. 2.2 Pruebas de hipótesis para la media Esta sección se centra en el planteamiento y prueba de hipótesis relacionadas a la parámetro de media. Para cada uno de estos casos, se detalla el procedimiento en R y los distintos métodos de prueba para la decisión de rechazo de \\(H_0\\). En particular, las pruebas para este parámetro requieren que la distribución poblacional de la variable de estudio es normal, lo cual, se asumirá en los enunciados de los ejercicios y/o ejemplos según corresponda. 2.2.1 Pruebas de hipótesis para la media de una distribución normal con varianza poblacional conocida Aun cuando la suposición de que el valor de \\(\\sigma^2\\) es conocido, rara vez se cumple en la práctica. Este caso proporciona un buen punto de partida debido a la facilidad con que los procedimientos generales y sus propiedades pueden ser desarrollados. La hipótesis nula en los tres casos propondrá que \\(\\mu\\) tiene un valor numérico particular, el valor nulo, el cual será denotado por \\(\\mu_0\\). El estadístico de prueba y los valores críticos de comparación están dados en la tabla 2.4. Tabla 2.4: Criterios de rechazo para la prueba de una media con varianza poblacional conocida Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu = \\mu_0\\) \\(Z_0 = \\displaystyle\\frac{\\bar{x}-\\mu_0}{\\sigma/\\sqrt{n}}\\) \\(H_1: \\mu \\neq \\mu_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: \\mu \\gt \\mu_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: \\mu \\lt \\mu_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) Ejemplo 2.3 El índice Rockwell de dureza para acero se determina al presionar una punta de diamante en el acero y medir la profundidad de la penetración, el cual tiene un varianza de medición de 6. Para 50 especímenes de una aleación de acero, el índice Rockwell de dureza promedió 62. El fabricante dice que esta aleación tiene un índice de dureza promedio menor a 64. Asumiendo que el índice de dureza sigue una distribución normal, ¿hay suficiente evidencia para refutar lo dicho por el fabricante con un nivel de significancia de 1%? Al plantear la prueba de hipótesis se debe tener en cuenta que la hipótesis del investigador ha de estar reflejada en \\(H_1\\), tal como se muestra a continuación. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu = 64\\\\ H_1&: \\mu < 64 \\end{split} \\end{equation}\\] Luego, se desarrolla la expresión del estadístico de prueba, para conocer su valor numérico. \\[\\begin{equation} \\notag Z_0 = \\frac{\\bar{x} - \\mu_0}{\\sigma/\\sqrt{n}} = \\displaystyle\\frac{62 - 64}{\\sqrt{6}/\\sqrt{50}} = -5.774 \\end{equation}\\] Ocupando el método del valor crítico, escribimos el criterios de rechazo correspondiente. Sin embargo, aún está la tarea de determinar el valor crítico. \\[\\begin{equation} \\notag \\begin{split} Z_0 &\\leq Z_{\\alpha}\\\\ -5.774 &\\leq Z_{0.01}\\\\ \\end{split} \\end{equation}\\] Para determinar el valor de \\(Z_{0.01}\\) (tal como menciona en los cursos de Estadística I y Estadística descriptiva), el comando a ocupar qnorm(p = 0.01) ## [1] -2.326348 Es claro que \\(-5.774\\) es menor a \\(-2.32\\), es decir, que al cumplirse la condición de rechazo, esto implica que se rechaza \\(H_0\\). Por lo tanto, existe suficiente evidencia estadística para rechazar la hipótesis nula, es decir, se apoya la postura del fabricante respecto a un indice de dureza promedio menor a 64, con una significancia del 1% (o confianza del 99%). En caso de que deseemos utilizar el método del valor-p, es necesario apoyarnos en R para realizar el calculo de este. El comando necesario para calcular el valor depende la prueba que estemos llevando a cabo, por lo que en el siguiente documento podrán encontrar un resumen para las distintas pruebas. pnorm(-5.774) ## [1] 3.870572e-09 El valor-p obtenido es evidentemente menor a la significancia (0.01), obteniéndose la misma conclusión antes expuesta. Respecto al intervalo de confianza, es posible determinarlo dada la siguiente expresión. \\[\\begin{equation} \\left(-\\infty, \\bar{x} + Z_{1-\\alpha}\\frac{\\sigma}{\\sqrt{n}}\\right) \\end{equation}\\] Reemplazando los valores dados en el enunciado se tiene \\[\\begin{equation} \\notag \\left(-\\infty, 62 + Z_{0.99}\\frac{\\sqrt{6}}{\\sqrt{50}}\\right) = (-\\infty, 62.8) \\end{equation}\\] Al observar el intervalo de confianza, se debe observar si el valor de \\(\\mu_0\\) está dentro o fuera de este. En este caso, \\(\\mu_0 = 64\\) no se encuentra dentro del intervalo. Por lo tanto, se rechaza la hipótesis nula, obteniéndose la misma conclusión antes obtenida. Al igual que el valor-p, la forma en la que se debe usar el intervalo de confianza varía dependiendo del tipo de prueba de hipótesis que se realiza, por lo que en el siguiente documento podrán encontrar un resumen para las distintas pruebas, dicho documento incluye los distintos comando en R para obtener los resultados de una prueba de hipótesis de manera automática. Para este tipo de pruebas, no hay comandos en R que permitan hacer el trabajo de manera automática. Esto es debido a lo expuesto en un principio: difícilmente se conoce la varianza poblacional en la práctica. Ejercicio 2.6 Sea el estadístico de prueba \\(Z_0\\) con una distribución normal estándar cuando \\(H_0\\) es verdadera. Dé el nivel de significación en cada una de las siguientes situaciones: \\(H_1: \\mu > \\mu_0\\), región de rechazo \\(Z_0\\geq 1.88\\). \\(H_1: \\mu < \\mu_0\\), región de rechazo \\(Z_0\\leq -2.75\\). \\(H_1: \\mu \\neq \\mu_0\\), región de rechazo \\(Z_0\\geq 2.88\\) o \\(Z_0\\leq -2.88\\). Ejercicio 2.7 Un fabricante de cajas de cartón afirma que sus cajas tienen un peso promedio de 5 kg. Para verificar esta afirmación, un cliente selecciona al azar 25 cajas y encuentra que el peso promedio es de 4.8 kg con una desviación estándar conocida de 0.5 kg. ¿Hay suficiente evidencia para rechazar la afirmación del fabricante al nivel de significancia del 5%? Ejercicio 2.8 Se sabe que la duración de las baterías sigue una distribución normal con media 290 horas y varianza poblacional conocida de 64 horas. Bajo una nueva fórmula de fabricación, se tomó una muestra aleatoria de 36 dispositivos móviles y se registró una duración media muestral de 280 horas. Utilizando un nivel de significancia del 5%, ¿se puede concluir con suficiente evidencia estadística que la duración media de las baterías ha mejorado significativamente después de aplicar una nueva fórmula en su fabricación? Ejercicio 2.9 Un cirujano afirma que sus pacientes se recuperan en un promedio de 5 días después de una cirugía. Para probar su afirmación, un internista toma una muestra aleatoria de 20 pacientes y encuentra que la duración promedio de recuperación es de 6 días, con una desviación estándar conocida de 1.5 días. ¿Hay suficiente evidencia para rechazar la afirmación del cirujano al nivel de significancia del 10%? Ejercicio 2.10 Se cree que la cantidad promedio de cafeína en una taza de café es de 100 mg. Para probar esta hipótesis, se toma una muestra aleatoria de 50 tazas de café y se encuentra que la cantidad promedio de cafeína es de 105 mg, con una desviación estándar conocida de 15 mg. ¿Hay suficiente evidencia para rechazar la hipótesis nula al nivel de significancia del 5%? Ejercicio 2.11 Se desea evaluar si la altura promedio de una población de girasoles es de 150 cm. Para ello, se selecciona una muestra aleatoria de 30 girasoles y se encuentra que la altura promedio es de 155 cm, con una desviación estándar conocida de 5 cm. ¿Hay suficiente evidencia para rechazar la hipótesis nula al nivel de significancia del 1%? 2.2.2 Prueba de hipótesis para la media de una distribución normal con varianza poblacional desconocida De igual manera a lo expuesto en el primer caso, los pasos a seguir para probar una hipótesis son los mismos, y se mantendrá así para cualquier caso. Plantear las hipótesis nula y alternativa Identificar o establecer el nivel de significancia. Identificar los datos muestrales y poblacionales con los que se cuenta. Utilizar alguna de las reglas de decisión (Estadístico de prueba, valor-p o intervalo de confianza). Concluir En la situación de una prueba de hipótesis de la media, en la cual lo datos distribuyen normal y la varianza poblacional es desconocida, los criterios de rechazo son similares a los vistos anteriormente, sin embargo, cambia la distribución del estadístico de prueba, tal como se muestra en la tabla 2.5. Tabla 2.5: Criterios de rechazo para la prueba de una media con varianza poblacional desconocida Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu = \\mu_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x}-\\mu_0}{S/\\sqrt{n}}\\) \\(H_1: \\mu \\neq \\mu_0\\) \\(|t_0| \\geq t_{1-\\alpha/2, n-1}\\) \\(H_1: \\mu \\gt \\mu_0\\) \\(t_0 \\geq t_{1-\\alpha,n-1}\\) \\(H_1: \\mu \\lt \\mu_0\\) \\(t_0 \\leq t_{\\alpha,n-1}\\) donde \\(n\\) corresponde al tamaño de la muestra. Ejemplo 2.4 Utilizando la base de datos Imacec, establezca si hay suficiente evidencia estadística para afirmar que, el valor promedio del Imacec de cada sector por separado es mayor a 98.54167 (denote este valor por \\(\\mu_0\\)). Establezca las hipótesis respectivas, estadísticos y criterios de rechazo, utilizando una significancia del 10%. Asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. En este caso al contar con una base de datos (y para este tipo de prueba), podemos hacer uso directamente de R para obtener el estadístico de prueba, valor-p e intervalo de confianza asociado. # Carga de la base de datos df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") Iniciamos con la prueba de hipótesis para el sector de minería. \\(\\mu:\\) Imacec de Minería en el periodo 01/2018 - 06/2022. \\[\\begin{equation} \\notag \\begin{split} H_0: \\mu = 98.54167\\\\ H_1: \\mu > 98.54167 \\end{split} \\end{equation}\\] Luego, haciendo uso de R obtenemos los elementos necesario para rechazar o no \\(H_0\\). # Minería t.test( # Prueba de hipótesis para el estadístico con distribución t-student x = df$Mineria, # Valores del Imacec de Minería alternative = "greater", # Signo de desigualdad de la hipótesis alternativa mu = 98.54167, # Valor del Mu_0 conf.level = 0.9 # Confianza = 1 - alfa ) ## ## One Sample t-test ## ## data: df$Mineria ## t = -1.2773, df = 53, p-value = 0.8965 ## alternative hypothesis: true mean is greater than 98.54167 ## 90 percent confidence interval: ## 96.21024 Inf ## sample estimates: ## mean of x ## 97.38519 El estadístico reportado es \\(t = -1.27373\\) con un valor-p de 0.8965, el cual, al ser mayor a la significancia de 0.1, implica que no existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que, el valor promedio del Imacec del sector de Minería no es mayor a 98.54167. Utilizando el intervalo de confianza \\((96.21, \\infty)\\), se observa que el valor de \\(\\mu_0 = 98.54\\) se encuentra dentro del intervalo, por ende, no existe suficiente evidencia estadística para rechazar \\(H_0\\), obteniéndose la misma conclusión que al usar el valor-p. La prueba de hipótesis para el sector de industria es la siguiente. \\(\\mu:\\) Imacec de Industria en el periodo 01/2018 - 06/2022. \\[\\begin{equation} \\notag \\begin{split} H_0: \\mu = 98.54167\\\\ H_1: \\mu > 98.54167 \\end{split} \\end{equation}\\] # Industria t.test( # Prueba de hipótesis para el estadístico con distribución t-student x = df$Industria, # Valores del Imacec de Industria alternative = "greater", # Signo de desigualdad de la hipótesis alternativa mu = 98.54167, # Valor del Mu_0 conf.level = 0.9 # Confianza = 1 - alfa ) ## ## One Sample t-test ## ## data: df$Industria ## t = 1.3678, df = 53, p-value = 0.08857 ## alternative hypothesis: true mean is greater than 98.54167 ## 90 percent confidence interval: ## 98.60095 Inf ## sample estimates: ## mean of x ## 99.69815 El estadístico reportado es \\(t = 1.3678\\) con un valor-p de 0.08857, el cual, al ser menor a la significancia de 0.1, implica que existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que, el valor promedio del Imacec del sector de Industria es mayor a 98.54167. Utilizando el intervalo de confianza \\((98.6, \\infty)\\), se observa que el valor de \\(\\mu_0 = 98.54\\) no se encuentra dentro del intervalo, por ende, existe suficiente evidencia estadística para rechazar \\(H_0\\), obteniéndose la misma conclusión que al usar el valor-p. Ejercicio 2.12 Utilizando la base de datos Imacec, establezca si hay suficiente evidencia estadística para afirmar que, el valor promedio del Imacec de cada sector durante el año 2022 es mayor 96.89167. Establezca las hipótesis, estadísticos y criterios de rechazo. Utilice una significancia del 7%. Además, asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. Ejercicio 2.13 El control de emisión de residuos ha sido un tema que ha cobrado gran importancia en los últimos 20 años debido a los efectos del calentamiento global. Uno de los tantos residuos que contamina el aire es el Metano (CH4). Para estudiar este fenómeno haremos uso de la base metano.csv, la cual contiene los siguientes datos: Año: año en el que se realiza la medición de emisión de CH4. Mes: mes del año en el que se realiza la medición de emisión de CH4. CH4: concentración de CH4 (partes por miles de millones) en un muestra de aire. Establezca si hay suficiente evidencia estadística para afirmar lo siguiente: La concentración promedio de metano es distinta a 1700 partes por miles de millones. La concentración promedio de metano del año 2021 es superior a 1780 partes por miles de millones. La concentración promedio de metano del periodo en el periodo de años 2019 - 2022 (inclusive) es inferior a 1750 partes por miles de millones. Establezca las hipótesis respectivas, estadísticos y criterios de rechazo, utilice una significancia del 7%. Asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. Ejercicio 2.14 Utilizando la base de datos ICC, estudio si hay suficiente evidencia estadística para afirmar los siguiente. El promedio del ICC es distinto a 100 puntos. El promedio del ICC en Francia es menor a 105 puntos. El promedio del ICC en Alemania es mayor a 107 puntos. Establezca las hipótesis, estadísticos y criterios de rechazo. Utilice una significancia del 12%. Además, asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. 2.3 Pruebas de hipótesis para la diferencia de medias En esta sección se continúa con el estudio de la inferencia estadística, específicamente para la diferencia entre dos medias poblacionales. Por ejemplo, quizá desee obtener una estimación por intervalo para la diferencia entre el salario inicial medio de la población de hombres y el salario inicial medio de la población de mujeres (Anderson et al., 2008, página 395). Para este tipo de pruebas, se requiere que las distribuciones poblacionales de las variables sean normales e independientes, lo cual, se asumirá en los enunciados de ejemplos y/o ejercicios según corresponda. 2.3.1 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales conocidas El primero de los tres casos corresponde al de varianzas poblacionales conocidas. La tabla 2.6 da cuenta del estadístico de prueba asociado las respectivas hipótesis, además de los criterios asociados al valor crítico correspondiente. Tabla 2.6: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales conocidas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(Z_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{\\sqrt{\\sigma^2_X/n_X + \\sigma^2_Y/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) Ejemplo 2.5 En dos ciudades se llevó acabo una encuesta sobre el costo de la vida, en relación al gasto promedio en alimentación en familias constituidas por cuatro personas. De cada ciudad se seleccionó aleatoriamente una muestra de 20 familias y se observaron sus gastos semanales en alimentación. Las medias muestrales y desviaciones estándar poblacionales fueron las siguientes: \\[\\begin{equation} \\notag \\begin{split} \\bar{x} = 135, & \\text{ } \\sigma_X = 15\\\\ \\bar{y} = 122, & \\text{ } \\sigma_Y = 10 \\end{split} \\end{equation}\\] Si se supone que se muestrearon dos poblaciones independientes con distribución normal cada una, analizar si existe una diferencia real entre ambas medias. Considere una confianza del 95%. Las hipótesis a plantear son las siguientes. \\(\\mu_X:\\) gasto medio semanal en alimentación en la ciudad X. \\(\\mu_Y:\\) gasto medio semanal en alimentación en la ciudad Y. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 0\\\\ H_1&: \\mu_{X} - \\mu_{Y} \\neq 0\\\\ \\end{split} \\end{equation}\\] Al igual que en la prueba para una media cuando se conoce la varianza poblacional, esta prueba no tiene una implementación directa en R, por lo que construiremos manualmente los métodos de rechazo. x.barra = 135 y.barra = 122 sigma.x = 15 sigma.y = 10 nx = 20 ny = 20 alfa = 0.05 delta0 = 0 Calculamos el estadístico de prueba. z0 = (x.barra - y.barra - delta0)/sqrt(sigma.x^2/nx+sigma.y^2/ny) z0 ## [1] 3.224903 El valor-p asociado al estadístico de prueba es valor.p = 2*(1-pnorm(abs(z0))) valor.p ## [1] 0.001260153 Luego, este valor es menor a la significancia del 5%, por lo que existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia para apoyar la afirmación de que existe diferencia entre los gastos de alimentación promedio entre las familias de ambas ciudades. Por otro lado, usando el método de valor crítico se obtiene que abs(z0) >= qnorm(1-alfa/2) ## [1] TRUE el valor absoluto del estadístico de prueba es mayor al valor crítico, obteniéndose la misma interpretación que al utilizar el valor-p. Ejercicio 2.15 La base control+cuotas.csv contiene datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Paln Vital y Provida, específicamente de un fondo A de un APV. Se está interesado en saber si, el valor promedio de las cuotas de Plan Vital superan al de Provida por más de 30000 pesos. Considere una confianza del 99%. Plantee y pruebe una hipótesis para la diferencia de medias, considerando \\(\\sigma^2_{\\text{Provida}} = 1165833\\) y \\(\\sigma^2_{\\text{Plan Vital}} = 3393141\\). Utilice el método del valor-p e intervalo de confianza. 2.3.2 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales desconocidas e iguales Para el segundo caso, las varianzas poblacionales son desconocidas, sin embargo, los valores de estas varianzas poblacionales pueden ser iguales o distintos. La tabla 2.7 refleja el estadístico de prueba y los criterios de rechazo asociados al método del valor crítico, para el caso en que los valores de las varianzas poblacionaes desconocidas son iguales. Tabla 2.7: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales desconocidas e iguales Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{S_p\\sqrt{1/n_X + 1/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|t_0| \\geq t_{1-\\alpha/2,k}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(t_0 \\geq t_{1-\\alpha,k}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(t_0 \\leq t_{\\alpha,k}\\) Donde los valores de \\(k\\) y \\(S_p\\) son los siguientes. \\[\\begin{equation} \\notag k = n_X + n_Y-2 \\end{equation}\\] \\[\\begin{equation} \\notag S_p^2 = \\frac{(n_X-1)S_X^2 + (n_Y-1)S_Y^2}{n_X+n_Y-2} \\end{equation}\\] Ejemplo 2.6 Considere la base de datos ICC. Se está interesado en saber si el valor promedio del ICC en Alemania menos el de Francia es menor a 1.1. Elabore una prueba de hipótesis para analizar este interés con un 90% de confianza. Concluya utilizando el valor – p. Además, que las varianzas poblaciones son iguales. \\(\\mu_X:\\) media del ICC de Alemania. \\(\\mu_Y:\\) media del ICC de Francia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 1.1\\\\ H_1&: \\mu_{X} - \\mu_{Y} < 1.1\\\\ \\end{split} \\end{equation}\\] # Cargue previamente la base guardándola con el nombre "datos" ICC_Alemania = datos$ICC[datos$Locacion == "DEU"] # Valores del ICC de Alemania ICC_Francia = datos$ICC[datos$Locacion == "FRA"] # Valores del ICC de Francia t.test(x = ICC_Alemania, y = ICC_Francia, conf.level = 0.9, # Confianza alternative = "less", # Signo según la hipótesis alternativa mu = 1.1, # Valor de delta0 var.equal = T) # Comando que indica que las varianzas son iguales ## ## Two Sample t-test ## ## data: ICC_Alemania and ICC_Francia ## t = 0.10482, df = 132, p-value = 0.5417 ## alternative hypothesis: true difference in means is less than 1.1 ## 90 percent confidence interval: ## -Inf 1.404981 ## sample estimates: ## mean of x mean of y ## 100.74328 99.62033 Con un valor – p de 0.5417 mayor a 0.1, no existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que, no se asume que la diferencia del ICC promedio entre Alemania y Francia sea menor a 1.1 puntos. Similar a las pruebas de una media, para rechazar \\(H_0\\) mediante el intervalo de confianza se debe verificar que el valor de \\(\\delta_0\\) se encuentra fuera del intervalo. En este caso, se aprecia que el \\(\\delta_0\\) de 1.1 está contenido por el intervalo de confianza, por lo que no se rechazaría \\(H_0\\), lo cual va en línea con lo anteriormente concluido. Ejercicio 2.16 Utilizando la base de datos ICC, plantee y pruebe un hipótesis, para verificar si para el año 2019 existe una diferencia mayor a 1.2 entre el ICC promedio de Polonia e Italia, con una confianza del 93%. Utilice el método del intervalo de confianza. Además, asuma que las varianzas poblacionales son desconocidas e iguales. Ejercicio 2.17 Los desastres naturales pueden ocurrir en cualquier lugar y, cuando estos se dan lugares donde la población es densa, pueden afectar a diversos componentes de la sociedad, entre ellos la economía, ya que los daños pueden traducirse en pérdida o destrucción de bienes de capital, niveles de ahorro, incremento de precios, entre otros efectos. Para estudiar este fenómeno, utilizaremos la base de datos terremotos.csv, la cual contiene datos sobre los terremotos ocurridos a nivel mundial entre los años 1900 y 2014. Las columnas de la base de datos son: Año: año de ocurrencia del terremoto. Latitud: grados decimales de la coordenada de latitud (valores negativos para latitudes del sur). Longitud: grados decimales de la coordenada de longitud (valores negativos para longitudes occidentales). Profundidad: profundidad del evento en kilómetros. Magnitud: magnitud del evento (la escala no es fija, ya que, a través de los años, la escala a cambiado según el método de medición. Sin embargo, todos las magnitudes son comparables, indicando que a mayor magnitud, mayor es la intensidad en movimiento/fuerza del terremoto). A continuación elabore las siguiente pruebas. Establezca una prueba de hipótesis con un 93% de confianza para estudiar si, existe diferencia entre los promedios de las profundidades de los terremotos ocurridos en los años 1976 y 1986. Asuma varianzas poblacionales desconocidas e iguales. Establezca una prueba de hipótesis con un 97% de confianza para estudiar si, el promedio las magnitudes de los terremotos en los años 1900 y 1922 es mayor al de los años 2010 y 2014, por más de 0.5 unidades de medida. Asuma varianzas poblacionales desconocidas e iguales. 2.3.3 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales desconocidas y distintas El último de los casos, las varianzas poblacionales son desconocidas y distintas. El detalle del estadístico de prueba y los criterios del método del valor crítico asociados se encuentran en la tabla 2.8. Tabla 2.8: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales desconocidas y distintas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{\\sqrt{S^2_X/n_X + S^2_Y/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|t_0| \\geq t_{1-\\alpha/2,k}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(t_0 \\geq t_{1-\\alpha,k}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(t_0 \\leq t_{\\alpha,k}\\) dónde \\(k\\) es el entero más cercano a \\[\\begin{equation} \\notag \\frac{(S_X^2/n_X + S_Y^2/n_Y)^2}{(S_X^2/n_X)^2/(n_X-1) + (S_Y^2/n_Y)^2/(n_Y-1)} \\end{equation}\\] Ejemplo 2.7 Utilizando la base de datos del ICC, establecer una prueba de hipótesis para verificar si el ICC promedio de Italia es mayor al de Francia, con una significancia del 3%. Asumiendo que las varianzas poblacionales son desconocidas y distintas. Las hipótesis a plantear son las siguientes. \\(\\mu_X:\\) media del ICC de Italia \\(\\mu_Y:\\) media del ICC de Francia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 0\\\\ H_1&: \\mu_{X} - \\mu_{Y} > 0\\\\ \\end{split} \\end{equation}\\] Luego, la prueba se ejecuta con el siguiente código. # Cargue previamente la base guardándola con el nombre "datos" ICC_Italia = datos$ICC[datos$Locacion == "ITA"] # Valores del ICC de Italia ICC_Francia = datos$ICC[datos$Locacion == "FRA"] # Valores del ICC de Francia t.test(x = ICC_Italia, y = ICC_Francia, conf.level = 0.97, # Confianza alternative = "greater", # Signo según la hipótesis alternativa mu = 0, # Valor de delta0 var.equal = F) # Comando que indica que las varianzas son distintas ## ## Welch Two Sample t-test ## ## data: ICC_Italia and ICC_Francia ## t = 4.0794, df = 131.74, p-value = 3.886e-05 ## alternative hypothesis: true difference in means is greater than 0 ## 97 percent confidence interval: ## 0.4887855 Inf ## sample estimates: ## mean of x mean of y ## 100.53403 99.62033 Con un valor-p menor a la significancia del (3%), existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia estadística para apoyar la afirmación de que el ICC promedio de Italia es mayor al de Francia. Observando el intervalo de confianza se verifica que \\(\\delta_0\\) no se encuentra dentro del intervalo, por lo que se rechaza \\(H_0\\), obteniéndose la misma conclusión antes mencionada. Ejercicio 2.18 La energía renovable es esencial para reducir las emisiones de carbono y mitigar el cambio climático. Además, la energía renovable mejora la salud pública, crea nuevos puestos de trabajo, garantiza la seguridad energética a través de la diversificación y estabiliza los precios de la energía. La importancia de alejarse de los combustibles fósiles y acercarse a las fuentes renovables no puede subestimarse. Como tal, este conjunto de datos (energia.csv) rastrea el crecimiento del sector renovable del Reino Unido desde 1990 hasta 2020. Las columnas de la base de datos son las siguientes: Ano: año de medición. Renovables.Residuos: Energía procedente de fuentes renovables y de residuos. Consumo.Total: Consumo total de energía de combustibles primarios y equivalentes. Hidroelectrica: Consumo de energía producido por hidroeléctricas. Viento.Olas: Consumo de energía producido por vientos, olas y mareas. Solar Consumo de energía producido por paneles fotovoltaicos. Geo: Consumo de energía producido por acuíferos geotérmicos. Vertedero: Consumo de energía producido por gases de vertedero. Gas: Consumo de energía producido por gases de aguas residuales. La unidad de energía utilizada en este conjunto de datos es la megatonelada equivalente de petróleo (mtep). A continuación elabore las siguiente pruebas. Elabore una prueba de hipótesis con una confianza del 97% para estudiar si, existe diferencia entre el promedio de energía consumida mediante gases de aguas residuales y la consumida mediante hidroeléctricas. Asuma que las varianzas poblacionales son desconocidas y distintas. Elabore una prueba de hipótesis con una confianza del 98% para estudiar si, la diferencia del promedio de la energía consumida por gases de vertederos es mayor a la consumida por paneles fotovoltaicos. Asuma que las varianzas poblacionales son desconocidas y distintas. Elabore un intervalo de confianza al 99% para estudiar si, el promedio del consumo total de energía durante el periodo 2004 - 2020 es menor al del periodo 1990 - 2003 por más de 40 unidades. Asuma que las varianzas poblacionales son desconocidas y distintas. 2.4 Prueba de hipótesis para comparación de varianzas En esta sección se extiende el estudio a las varianzas poblacionales, con al finalidad de estableces si estas son iguales o distintas. Para ello, se requiere que las distribuciones poblacionales de las variables de estudios sean normales e independientes, lo cual, se asumirá en los enunciados de los ejemplos y/o ejercicios según corresponda. Tabla 2.9: Criterios de rechazo para la prueba de comparación de varianzas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\sigma_X^2 = \\sigma_Y^2\\) \\(f_0 = S_X^2/S_Y^2\\) \\(H_1: \\sigma_X^2 \\neq \\sigma_Y^2\\) \\(f_0 \\geq f_{1-\\alpha/2,n_X-1,n_Y-1} \\vee\\) \\(f_0 \\leq f_{\\alpha/2,n_X-1,n_Y-1}\\) \\(H_1: \\sigma_X^2 \\gt \\sigma_Y^2\\) \\(f_0 \\geq f_{1-\\alpha,n_X-1,n_Y-1}\\) \\(H_1: \\sigma_X^2 \\lt \\sigma_Y^2\\) \\(f_0 \\leq f_{\\alpha,n_X-1,n_Y-1}\\) Gracias a esta prueba, es posible determinar de antemano si las varianzas poblacionales son iguales o distintas asumiendo que son desconocidas, lo cual, permite elegir posteriormente que tipo de pruebas para la diferencia de medias se debe realizar. Ejemplo 2.8 Utilizando la base de datos del ICC, establecer una prueba de hipótesis para verificar si el ICC promedio de España es distinto al de Polonia, con una significancia del 4%. Asumiendo muestras independientes. En primer lugar se establece la prueba de hipótesis para la igualdad de varianzas. \\(\\sigma^2_X:\\) varianza del ICC de España. \\(\\sigma^2_Y:\\) varianza del ICC de Polonia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\sigma^2_{X} = \\sigma^2_{Y}\\\\ H_1&: \\sigma^2_{X} \\neq \\sigma^2_{Y}\\\\ \\end{split} \\end{equation}\\] El código para realizar esta prueba es el siguiente. # Cargue previamente la base guardándola con el nombre "datos" ICC_Espana = datos$ICC[datos$Locacion == "ESP"] # Valores del ICC de España ICC_Polonia = datos$ICC[datos$Locacion == "POL"] # Valores del ICC de Polonia var.test( x = ICC_Espana, y = ICC_Polonia, alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.96 # Confianza ) ## ## F test to compare two variances ## ## data: ICC_Espana and ICC_Polonia ## F = 3.5354, num df = 66, denom df = 66, p-value = 7.241e-07 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 96 percent confidence interval: ## 2.122496 5.888850 ## sample estimates: ## ratio of variances ## 3.535401 Con un valor-p menor a la significancia, se asume que las varianzas poblacionales son distintas, es decir, se rechaza \\(H_0\\). Por lo tanto, se procede a realizar un prueba para la diferencia de medias, asumiendo que las varianzas poblacionales son desconocidas y distintas. Para utilizar el intervalo de confianza como método de rechazo, se debe verificar que el 1 no está contenido por el intervalo de confianza para rechazar \\(H_0\\). Las hipótesis para la diferencia de medias son las siguientes. \\(\\mu_X:\\) media del ICC de España. \\(\\mu_Y:\\) media del ICC de Polonia. \\[\\begin{equation} \\begin{split} H_0&: \\mu_{\\text{X}} - \\mu_{\\text{Y}} = 0\\\\ H_1&: \\mu_{\\text{X}} - \\mu_{\\text{Y}} \\neq 0\\\\ \\end{split} \\end{equation}\\] t.test( x = ICC_Espana, y = ICC_Polonia, alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.96, # Confianza mu = 0, # delta0 var.equal = F # Varianzas poblacionales distintas ) ## ## Welch Two Sample t-test ## ## data: ICC_Espana and ICC_Polonia ## t = -1.4661, df = 100.57, p-value = 0.1458 ## alternative hypothesis: true difference in means is not equal to 0 ## 96 percent confidence interval: ## -1.4752851 0.2556696 ## sample estimates: ## mean of x mean of y ## 100.3420 100.9518 Con un valor-p de 0.14 mayor a la significancia (4%), no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, no existe suficiente evidencia estadística para apoyar la afirmación de que el ICC entre ambos países es distinto. De igual manera, al observar el intervalo de confianza, se verifica que el valor de \\(\\delta_0\\) se encuentra del intervalo, obteniéndose la misma conslusión antes dada. Ejercicio 2.19 La contaminación del aire representa un importante riesgo medioambiental para la salud. Mediante la disminución de los niveles de contaminación del aire los países pueden reducir la carga de morbilidad derivada de accidentes cerebrovasculares, cánceres de pulmón y neumopatías crónicas y agudas, entre ellas el asma. Cuanto más bajos sean los niveles de contaminación del aire mejor será la salud cardiovascular y respiratoria de la población, tanto a largo como a corto plazo. Por lo anteriormente mencionado, utilizaremos una base de datos propia de R (airquality) para estudiar la calidad del aire. Esta base de datos contiene mediciones diarias de la calidad del aire en Nueva York, de mayo a septiembre de 1973. Las columnas son las siguientes: Ozone: Ozono medio en partes por billón. Solar.R: Radiación solar en Langleys (unidad de medida de la radiación solar). Wind: Velocidad promedio del viento en millas por hora. Temp: Temperatura máxima diaria en grados Fahrenheit. Month: Mes de medición. Day: Día de medición. Elimine los datos faltantes de la base de datos con el comando na.omit(). A continuación: Plantee y pruebe una hipótesis para estudiar la diferencia entre el promedio de concentración de Ozono en los primeros 15 días del mes y el promedio de concentración de Ozono en el resto de los días del mes. Utilice una confianza del 92%. Interprete los intervalos de confianza y valores - p de todas las pruebas a utilizar. Ejercicio 2.20 La base de datos CO2 (incroporrada en R) contiene datos de un experimento sobre la tolerancia al frío de la especie de pasto Echinochloa crus-galli. Las columnas son las siguientes: Plant: Identificador del tipo de planta. Type: Lugar de origen de la planta. Treatment: indica si la planta fue refrigerada (chilled) o no (nonchilled). conc: Concentraciones ambientales de dióxido de carbono (mL/L). uptake: Tasas de absorción de dióxido de carbono (\\(umol/m^2\\) seg) de las plantas. A continuación, plantee y pruebe una hipótesis para estudiar si, la diferencia entre el promedio de la tasa de absorción de dióxido de carbono de las dos zonas medidas está a favor de Mississippi. Utilice una confianza del 96%. Haga uso de todos los métodos de rechazo. Interprete. 2.5 Prueba de hipótesis para la diferencia de proporciones Después de presentar métodos para comparar las medidas de dos poblaciones diferentes, ahora se presta atención a la comparación de dos proporciones de población. Las proporciones se plantear de la siguiente manera (Devore, 2008, página 353). \\[\\begin{equation} \\notag \\begin{split} p_1 &= \\text{la proporción de éxitos en la población 1}\\\\ p_2 &= \\text{la proporción de éxitos en la población 2}\\\\ \\end{split} \\end{equation}\\] La prueba de hipótesis que permite comparar la diferencia entre estás proporciones, asumiendo que las distribuciones poblacionales de las variables son binomiales e independientes, es la siguiente Tabla 2.10: Criterios de rechazo para la prueba de diferencia de proporciones Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: p_X - p_Y = \\delta_0\\) \\(Z_0 = \\displaystyle\\frac{\\widehat{p}_X-\\widehat{p}_Y-\\delta_0}{\\sqrt{\\widehat{p}\\widehat{q}\\left( \\frac{1}{n_X} + \\frac{1}{n_Y} \\right)}}\\) \\(H_1: p_X - p_Y \\neq \\delta_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: p_X - p_Y \\gt \\delta_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: p_X - p_Y \\lt \\delta_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) donde \\[\\begin{equation} \\notag \\begin{split} \\widehat{p} &= \\frac{n_X\\widehat{p}_X}{n_X+n_Y} + \\frac{n_Y\\widehat{p}_Y}{n_X+n_Y}\\\\ \\widehat{q} & = 1 - \\widehat{p} \\end{split} \\end{equation}\\] Existen otros estadísticos de prueba que se pueden elaborar para este tipo de hipótesis, en particular el que usa R es el estadístico \\(\\chi^2\\). Este estadístico requiere que los datos estén dispuestos en una tabla, tal como se muestra a continuación. Tabla 2.11: Tabla de contingencia en la prueba de hipótesis para la diferencia de proporciones Grupo 1 Grupo 2 Éxitos \\(O_1\\) \\(O_2\\) Fracasos \\(O_3\\) \\(O_4\\) El estadístico en cuestión es el siguiente. \\[\\begin{equation} \\notag \\chi^2_0 = \\sum_{i=1}^n\\frac{(O_i-E_i)^2}{E_i} \\end{equation}\\] Donde \\(E_i\\) y \\(O_i\\) corresponden a la frecuencia esperada y observada en cada celda respectivamente. Las frecuencias esperadas se calculan como el producto de las frecuencias marginales, divido por el total de observaciones. Cabe mencionar que, R solo tiene la capacidad de ejecutar esta prueba cuando \\(\\delta_0 = 0\\), el cual, es el caso en el que nos concentraremos. Los supuestos asociados a esta prueba de hipótesis se asumirán para los enunciados de los ejemplos y/o ejercicios según corresponda. Ejemplo 2.9 Se pretende comparar si existe diferencias en la eficacia de un nuevo fármaco, medido como proporción, entre hombres y mujeres. Los datos se aprecian en la siguiente tabla. Hombre Mujer Sí 20 50 No 120 110 La prueba de hipótesis a plantear, considerando un 95% de confianza, es la siguiente. \\(p_X:\\) proporción de hombres para los cuales le medicamento presentó eficacia. \\(p_Y:\\) proporción de mujeres para los cuales le medicamento presentó eficacia. \\[\\begin{equation} \\notag \\begin{split} H_0&: p_X - p_Y = 0\\\\ H_1&: p_X - p_Y \\neq 0\\\\ \\end{split} \\end{equation}\\] El comando en R para probar está hipótesis es: prop.test( x = c(20,50), # Vector que contenga las frecuencias de los éxitos n = c(140,160), # Vector que contenga los totales por grupo alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.95, # Confianza correct = F # T en caso de que el número de éxitos o fracasos sea menor a 5 (Corrección de Yates) ) ## ## 2-sample test for equality of proportions without continuity correction ## ## data: c(20, 50) out of c(140, 160) ## X-squared = 12.012, df = 1, p-value = 0.0005286 ## alternative hypothesis: two.sided ## 95 percent confidence interval: ## -0.26193633 -0.07734938 ## sample estimates: ## prop 1 prop 2 ## 0.1428571 0.3125000 Como se observa en la última línea de la salida del programa, la proporción de eficacia del fármaco en los hombres es del 14.28% y del 31.25% en las mujeres. Al observar el valor-p (0.0005286), nos damos cuenta de que este es menor a la significancia (0.05). Además, el valor de \\(\\delta_0 = 0\\) no está contenido por intervalo de confianza (-0.26193633, -0.07734938), por lo que, existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia estadística apoyar la afirmación de que existe diferencia entre hombres y mujeres respecto a la eficacia del fármaco. Ejercicio 2.21 Supongamos que se quiere comparar la proporción de hogares que tienen una cuenta bancaria en dos países, A y B. En el país A, de una muestra aleatoria de 500 hogares, 400 tienen una cuenta bancaria, mientras que en el país B, de una muestra aleatoria de 800 hogares, 600 tienen una cuenta bancaria. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de hogares con cuenta bancaria es significativamente diferente entre los dos países. Ejercicio 2.22 Supongamos que se quiere comparar la proporción de empresas que ofrecen seguro de salud a sus empleados entre dos sectores económicos, manufactura y servicios. En el sector manufacturero, de una muestra aleatoria de 300 empresas, 225 ofrecen seguro de salud a sus empleados, mientras que en el sector de servicios, de una muestra aleatoria de 400 empresas, 300 ofrecen seguro de salud a sus empleados. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de empresas que ofrecen seguro de salud es significativamente diferente entre los dos sectores. Ejercicio 2.23 Supongamos que se quiere comparar la proporción de trabajadores con contratos temporales entre dos empresas, A y B. En la empresa A, de una muestra aleatoria de 400 trabajadores, 120 tienen contratos temporales, mientras que en la empresa B, de una muestra aleatoria de 500 trabajadores, 150 tienen contratos temporales. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de trabajadores con contratos temporales es significativamente mayor en la empresa A. Ejercicio 2.24 Supongamos que se quiere comparar la proporción de clientes que compran un producto en dos tiendas, A y B. En la tienda A, de una muestra aleatoria de 600 clientes, 200 compran el producto, mientras que en la tienda B, de una muestra aleatoria de 800 clientes, 240 compran el producto. Realiza un análisis de la diferencia de proporciones, y determina si hay evidencia de que la proporción de clientes que compran el producto es significativamente menor en la tienda A. Ejercicio 2.25 Un estudio analizó la cantidad de personas que reciclan y, que a su vez, hacen uso de un servicio privado o público para la recolección de basura (incluye la recolección de reciclaje). Los datos registrados se reflejan en la siguiente tabla. Reciclan No reciclan Servicio privado 128 234 Servicio público 340 260 Plantee una prueba de hipótesis para estudiar si, la proporción de personas que reciclan qué usan el servicio público es menor a la proporción de personas que no reciclan qué uso del mismo tipo de servicio. Utilice una confianza del 97.9%. Concluya utilizando el método del valor-p.  Ejercicio 2.26 La Encuesta de Caracterización Socioeconómica Nacional, Casen, es realizada por el Ministerio de Desarrollo Social y Familia con el objetivo de disponer de información que permita: Conocer periódicamente la situación de los hogares y de la población, especialmente de aquella en situación de pobreza y de aquellos grupos definidos como prioritarios por la política social, con relación a aspectos demográficos, de educación, salud, vivienda, trabajo e ingresos. En particular, estimar la magnitud de la pobreza y la distribución del ingreso; identificar carencias y demandas de la población en las áreas señaladas; y evaluar las distintas brechas que separan a los diferentes segmentos sociales y ámbitos territoriales. Evaluar el impacto de la política social: estimar la cobertura, la focalización y la distribución del gasto fiscal de los principales programas sociales de alcance nacional entre los hogares, según su nivel de ingreso, para evaluar el impacto de este gasto en el ingreso de los hogares y en la distribución del mismo. Su objeto de estudio son los hogares que habitan las viviendas particulares ocupadas que se ubican en el territorio nacional, exceptuando algunas comunas y partes de comunas definidas por el INE como áreas especiales, así como las personas que forman parte de esos hogares. La siguiente tabla, da cuenta de la cantidad de hombres y mujeres (jefes de familia) según su nivel educacional, de una muestra determinada. Hombres Mujeres Universitario completo 220 3201 Escolar completo 7141 4789 Otro nivel educacional 4593 3450 Plantee una prueba de hipótesis para estudiar si, la proporción de mujeres que tienen un nivel educacional distinto al de Escolar Completo, es no mayor igual a la proporción de Hombres que tienen un nivel educacional Escolar Completo. Utilice una confianza del 97.1%. Concluya utilizando el método del intervalo de confianza. Ejercicio 2.27 Se realizó un estudio con el fin de registrar la cantidad de personas morosas respecto al pago de contribuciones, y si estas tienen o no una enfermedad crónica asociada. Las frecuencias se aprecian en la siguiente tabla. Moroso No Moroso Con enfermedad 128 234 Sin enfermedad 340 260 A continuación. Plantee una prueba de hipótesis para estudiar si, las proporciones de personas morosas y no morosas que tienen una enfermedad son distintas. Utilice una confianza del 79.7%. Concluya utilizando el método del valor - p. Plantee una prueba de hipótesis para estudiar si, la proporción de personas con enfermedad que son morosas es no menor igual a la proporción de personas sin enfermedad que son morosas por menos de 0.2 unidades. Utilice una confianza del 91.2%. Concluya utilizando el método del intervalo de confianza. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. "],["regresión-lineal.html", "Unidad 3 Regresión Lineal 3.1 Análisis descriptivo de datos 3.2 Regresión lineal simple 3.3 Regresión lineal múltiple 3.4 Selección de variables 3.5 Predicción de observaciones", " Unidad 3 Regresión Lineal En general, las bases de datos que se trabajarán en esta sección son las siguientes: Tasa Euro/Dólar: Contiene el registro diario histórico de la tasa de cambio del Euro a Dólar durante el 2023. Las columnas de la base de datos son las siguientes: Date: Fecha de medición (yyyy-mm-dd), desde enero del 2003 hasta enero del 2023. Open: tasa de apertura. High: tasa más alta alcanzada en el día. Low: tasa más baja alcanzada en el día. Close: tasa de cierre del día. Adj Close: tasa de cierre ajustada del día (precio de cierre sin dividendos). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Tasa%2Beuro%2Bdolar%2Bhistorica2023.csv") Precios de electricidad: Un conjunto de datos históricos que contiene el precio por hora de la electricidad para Bélgica. Las columnas de la base de datos son las siguientes: MTU: Hora de inicio (formato fecha y hora) del coste de la electricidad. EUR_MWh: Precio por hora (Euros por MWh). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2024-1/Belgian%20Electricity%20Prices.csv") Pacientes: Contiene datos respecto a los ataques al corazón de distintos pacientes hospitalarios. El detalle de algunas de las columnas de la base de datos que utilizaremos son las siguientes: age: edad del paciente (en años). sex: sexo del paciente (Hombre: 1 y Mujer: 0). cp: Tipo de dolor en el pecho, Valor 1: angina típica, Valor 2: angina atípica, Valor 3: dolor no anginoso, Valor 4: asintomático. trtbps: presión arterial en reposo (en mm Hg). chol: nivel de colestorol (en mg/dl). fbs: azúcar en sangre en ayunas \\(>\\) 120 mg/dl (V = 1; F = 0). thalachh: frecuencia cardíaca máxima alcanzada (en latidos por minuto). oldpeak: tiempo de duración del último ataque al corazón (en minutos). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Heart+complete.csv") Ingreso: Contiene datos relacionados a características de ingresos de estudiantes a un determinada universidad. Las columnas de la base de datos son las siguientes. Sexo: Hombre o Mujer. Ingreso: indica la vía de ingreso del estudiante a la universidad, se clasifica en PTU u Otra. Logro: corresponde a la proporción de logro (número entre 0 y 1, un logro de 0.4 indica que el estudiante respondió correctamente un 40% de la prueba) del estudiante en el diagnóstico de “Comunicación escrita” aplicado por la universidad. LEN: Puntaje PTU - Lenguaje. NEM: Puntaje NEM del estudiante. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Heart+complete.csv") Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") 3.1 Análisis descriptivo de datos 3.1.1 Gráficos descriptivos En este apartado, se considera la representación de un conjunto de datos por medio de técnicas visuales. A continuación, se hará mención de algunas de las técnicas más útiles y pertinentes a la estadística de descriptiva. Los ejemplos presentados en esta sección hacen uso de la base de datos de la unidad (sección 3.1). 3.1.1.1 Histograma Algunos datos numéricos se obtienen contando para determinar el valor de una variable (cuántas veces se repite un hecho), mientras que otro datos se obtienen tomando mediciones (peso, altura, tiempo de reacción). Usualmente, este tipo de gráfico se utiliza con datos continuos (aunque tiene una versión para datos discretos), para lo cual, se debe hacer lo siguiente (Devore, 2008, página 12): Subdividir los datos en intervalos de clase o clases, de tal manera que cada observación quede contenida en exactamente una clase. Para esto, se hace uso de la regla de Sturges (1926), la cual, consiste en calcular la expresión \\(1+\\log_2(n)\\), aproximando hacia el entero más próximo, dónde \\(n\\) corresponde a la cantidad de datos (existen otra variedad de técnicas). Determinar la frecuencia y la frecuencia relativa de cada clase, es decir, cuántas observaciones hay en cada uno de los intervalos. Se marcan los límite de clase sobre el eje horizontal del plano cartesiano. Se traza un rectángulo cuya altura es la frecuencia absoluta (o relativa) correspondiente a cada intervalo de clase. Para generar un histograma en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): library(ggplot2) # Librería de ggplot2 ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = Close)) + # Eje X y variable asociada geom_histogram( # Objeto a graficar: histograma bins = round(1 + log2(dim(datos)[1])), # Cantidad de intervalos del histograma: regla de Sturges color = "black", # Color del borde de las barras del histograma fill = "white", # Color de relleno de las barras closed = "left") + # Tipo de intervalo del histograma labs( # Títulos title = "Histograma EUR/USD", # Título del gráfico x = "Tasa de cierre", # Título del eje X y = "Frecuencia") # Título del eje Y Para interpretar un histograma, basta con indicar los siguientes aspectos: Forma visual de la distribución de las barras (en general). Mencionar si existe una concentración fuera del comportamiento general, y en dónde se encuentra. En el caso del histograma de la tasa de cierre del EUR/USD, se observa una forma de campana centrada cerca del 1.3, además, se evidencia la presencia de una frecuencia superior al resto que se encuentra la izquierda del gráfico cerca del 1.1. Cabe mencionar, que existen otros aspectos que son posibles mencionar, para ello consulte la bibliografía del curso. Es útil recordar que el histograma está asociado a una tabla de frecuencia por intervalos. Para obtener la tabla asociada a un histograma se puede utilizar el siguiente código. # Datos del histograma guardados h = hist(datos$Close, # Datos a graficar en el histograma breaks = 13, # Cantidad de intervalos: regla de Sturges right = F, # Cerrado por la izquierda plot = F) # No desplegar el gráfico en consola library(agricolae) # Librería para generar la tabla de frecuencias print(table.freq(h)) # Imprime en consola la tabla de frecuencias ## Lower Upper Main Frequency Percentage CF CPF ## 1 0.95 1.00 0.975 46 0.9 46 0.9 ## 2 1.00 1.05 1.025 89 1.8 135 2.7 ## 3 1.05 1.10 1.075 444 8.9 579 11.7 ## 4 1.10 1.15 1.125 839 16.9 1418 28.6 ## 5 1.15 1.20 1.175 591 11.9 2009 40.5 ## 6 1.20 1.25 1.225 634 12.8 2643 53.2 ## 7 1.25 1.30 1.275 614 12.4 3257 65.6 ## 8 1.30 1.35 1.325 654 13.2 3911 78.8 ## 9 1.35 1.40 1.375 510 10.3 4421 89.0 ## 10 1.40 1.45 1.425 257 5.2 4678 94.2 ## 11 1.45 1.50 1.475 166 3.3 4844 97.5 ## 12 1.50 1.55 1.525 38 0.8 4882 98.3 ## 13 1.55 1.60 1.575 84 1.7 4966 100.0 Ejercicio 3.1 Utilizando la base de datos de Precios, elabore un histograma de los precios de la electricidad. Interprete. 3.1.1.2 Gráfico de Caja El gráfico de caja se utiliza para describir las siguiente características de un conjunto de datos (Devore, 2008, página 35): El centro. La dispersión. El grado y naturaleza de cualquier alejamiento de la simetría. La identificación de las observaciones “extremas” (atípicas) inusualmente alejadas del cuerpo principal de los datos. Los pasos para elaborar un gráfico de caja son los siguiente (Anderson et al., 2008, página 106): Se dibuja una caja cuyos extremos se localicen en primer y tercer cuartiles. Esta caja contiene 50% de los datos centrales. En el punto donde se localiza la mediana se traza una linea horizontal. Usando el rango intercuartílico (\\(RIC = Q_3-Q_1\\)), se localizan los límites. En un gráfico de caja los límites se encuentra a \\(1.5RIC\\) abajo y arriba de \\(Q_1\\) y \\(Q_3\\) respectivamente. Los datos que quedan fuera de estos límites se consideran observaciones atípicas (Tukey, 1977). La razón por la cual se considera 1.5 veces el rango intercuartílico es convencional, no obstante, hay argumento relacionados a la cantidad de datos dentro de los limites inferior y superior, los cuales indican que debe ser de 99.7% (James et al., 2013). Las lineas que se extienden verticalmente desde la caja se les llama bigotes. Los bigotes van desde los extremos de la caja hasta los valores menor y mayor de los límites calculados en el paso 3. Mediante puntos se indica la localización de las observaciones atípicas. Para generar un gráfico de caja en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos y = Close)) + # Eje Y y variable asociada geom_boxplot( # Objeto a graficar: gráfico de caja color = "black", # Color del borde del gráfico fill = "white") + # Color de relleno del gráfico labs( # Títulos title = "Caja EUR/USD (opción 1)", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) # Elimina los números del eje X info = unlist(ggplot_build(g)[[1]]) # Guardamos los valores del gráfico values = round(as.numeric(info[1:5]), 3) # Extraemos los valores de construcción g1 = g + # Creamos un nuevo gráfico a partir del anterior scale_y_continuous( # Modificar el eje Y breaks = values, # Modificamos los puntos a considerar en el eje Y labels = values) + # Modificamos los valores mostrados en el eje Y labs( # Títulos title = "Caja EUR/USD (opción 2)") # Título del gráfico library(gridExtra) # Librería para juntar gráficos de ggplot2 grid.arrange(g, # Gráfico g1, # Gráfico ncol = 2) # Despliegue en a dos columnas Para interpretar un gráfico de caja es recomendable utilizar la opción 2 mostrada anteriormente, ya que, se debe mencionar uno de los puntos relevantes del gráfico. En el ejemplo recién dado, se observa que, el primer, segundo y tercer cuartil están en 1.135, 1.233 y 1.335 respectivamente, mientras que el valor mínimo y máximo están en 0.96 y 1.559 respectivamente. Adicionalmente, se puede mencionar que los datos superiores en comparación a los inferiores, se encuentran más alejados de la mediana. Ejercicio 3.2 Utilizando la base de datos de Precios, elabore un gráfico de caja de los precios de la electricidad. Interprete. 3.1.1.3 Gráfico de Violín El gráfico de violín proporciona una representación más completa y precisa de la distribución de los datos que las técnicas anteriores, ya que muestra tanto la forma de la distribución como su concentración (Hintze & Nelson, 1998). La utilidad de este gráfico recae en la comparación de la distribución de los datos entre distintos grupos y/o categorías. El proceso de construcción del gráfico es el siguiente: Dibujo de la traza de densidad: la traza de densidad se dibuja sobre el eje vertical en el gráfico de violín (“forma suavizada del histograma”). Creación de la sección central simétrica: se crea una sección central simétrica que representa la mitad de la traza de densidad. Adicionalmente, es común agregar un gráfico de caja junto al de violín con el fin de incorporar la visualización de las medidas de posición. Para generar un gráfico de violín en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): # Se guarda el gráfico en una variable para posteriormente # integrar otros gráficos dentro de este. g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = 1, # Se fija el valor horizontal del gráfico (a elección) y = Close)) + # Eje Y y variable asociada geom_violin( # Objeto a graficar: violín trim = F, # Modifica las terminaciones visuales superior e inferior fill = "white") + # Color de relleno del gráfico labs( # Títulos title = "Violín EUR/USD", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) # Elimina los números del eje X g # Desplegamos el gráfico en el visualizador # Agregamos otros elementos al gráfico guardado g + geom_boxplot( # Objeto a graficar: gráfico de caja width = 0.1, # Anchura proporcional del nuevo gráfico de caja color = "black", # Color de borde del gráfico fill = "white") + # Color de relleno del gráfico stat_summary( # Función para agregar información de resumen fun = mean, # Tipo de información: promedio geom = "point", # Forma visual size = 1, # Tamaño color = "red", # Color orientation = "x") # Orientación Para interpretar un gráfico de violín con caja y promedio se deben mencionar tres aspectos relevantes: Ubicación de la(s) mayor(es) concentración(es) de datos, utilizando como referencia los cuartiles. Ubicación del promedio respecto a la mediana. Posibles razones por las cuales se explica la ubicación anteriormente mencionada del promedio respecto a la mediana. En el ejemplo anterior, la principal concentración se encuentra por debajo del primer cuartil, aunque destacan otras dos concentraciones que están por debajo del segundo cuartil y alrededor del tercer cuartil respectivamente. El promedio se encuentra sutilmente por encima de la mediana, esto se puede explicar debido a que los datos superiores del gráfico se encuentra más lejos de la mediana en comparación a los datos inferiores. Ejercicio 3.3 Utilizando la base de datos de Precios, elabore un gráfico de violín con caja y promedio de los precios de la electricidad. Interprete. Ejemplo 3.1 El siguiente código, crea una nueva columna en la base de datos que identifica el año en el que se realizó la medición de las tasas. A continuación, elabore un gráfico de violín (más gráfico de caja y promedio) de la variable Close en el periodo de años 2006-2010, diferenciando por año. # Extraemos el año de la variable Date, y la guardamos en un nueva columna datos$Ano = substr(datos$Date, 1, 4) ggplot( # Ambiente gráfico data = datos[datos$Ano %in% 2006:2010,], # Base de datos a utilizar aes( # Comandos estéticos x = 1, # Se fija el valor horizontal del gráfico (a elección) y = Close)) + # Eje Y y variable asociada geom_violin( # Objeto a graficar: violín trim = F, # Modifica las terminaciones visuales superior e inferior fill = "white") + # Color de relleno del gráfico geom_boxplot( # Objeto a graficar: gráfico de caja width = 0.1, # Anchura proporcional del nuevo gráfico de caja color = "black", # Color de borde del gráfico fill = "white") + # Color de relleno del gráfico stat_summary( # Función para agregar información de resumen fun = mean, # Tipo de información: promedio geom = "point", # Forma visual size = 1, # Tamaño color = "red") + # Color labs( # Títulos title = "Violín EUR/USD", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) + # Elimina los números del eje X facet_wrap( # Segregación del gráfico vars(Ano), # Variable que se utiliza para segregar el gráfico nrow = 1) # Disposición visual: una fila Para interpretar este tipo de gráficos, se debe realizar un interpretación uno a uno, siguiendo la recomendación antes dada. También, es posible comprar los gráficos a través de la media y coeficiente de variabilidad. Para este ejemplo, queda como trabajo del estudiante realizar esta comparación. Ejercicio 3.4 Utilizando la base de datos de Paciente Realice un gráfico de violín con caja y promedio del nivel de colesterol de los paciente, diferenciando por el nivel de azúcar en sangre en ayunas. Interprete. Ejercicio 3.5 Agregue una diferenciación por sexo a lo realizado en el ejercicio 3.4. Entienda que para cada nivel de azúcar en sangre se debe ver un desglose por sexo. Interprete. Ejercicio 3.6 Utilizando la base de datos de Precios, realice un gráfico de violín con caja y promedio para el precio de la electricidad, diferenciado por año. Interprete. 3.1.1.4 Gráfico de Barras Una gráfico de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia. El procedimiento de construcción es el siguiente (Anderson et al., 2008, página 29). En uno de los ejes de la gráfica (por lo general en el horizontal), se especifican las etiquetas empleadas para las clases (categorías). Para el otro eje de la gráfica (el vertical) se usa una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Finalmente, se emplea un ancho de barra fijo y se dibuja sobre cada etiqueta de las clases una barra que se extiende hasta la frecuencia de la clase (a diferencia del histograma, las barras deben estar separadas notoriamente). Para generar un gráfico de barras en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): # Nueva variable para dicotomizar la tasa de cierre del EUR/USD datos$Close2 = ifelse(datos$Close > 1.1, # Criterio "Mayor a 1.1", # Valor asignado si se cumple el criterio "Menor a 1.1") # Valor asignado si no se cumple el criterio ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = Close2)) + # Eje Y y variable asociada geom_bar( # Objeto a graficar: gráfico de barras fill = "white", color = "black") + # Color de relleno y borde labs( # Títulos title = "Barras EUR/USD", # Título del gráfico x = "Tasa de cierre", # Título del eje X y = "Frecuencia") # Título del eje Y La interpretación de este tipo de gráfico (gráfico de barras no apiladas) es bastante intuitiva, ya que consiste en mencionar cuál categoría tiene un mayor frecuencia. En caso de graficar una variable con más de 2 categorías, se debe mencionar a que altura del eje vertical se encuentra la altura de cada una de las barras. Para obtener mayor detalles respecto a las frecuencias por categoría, suele apoyarse con un tabla de frecuencias absolutas o relativas porcentuales. En el ejemplo, la frecuencia de la cantidad de tasas de cierre que se encuentran por sobre 1.1 es mayor a las que se encuentran por debajo, con una frecuencia sobre 4000 y menor a 1000 respectivamente. Ejercicio 3.7 Utilizando la base de datos Pacientes, elabore un gráfico de barras de la variable fbs. Interprete, apoyado de una tabla de frecuencias absolutas. Ejercicio 3.8 Utilizando la base de datos Pacientes, elabore un gráfico de barras (no apiladas) de la variable cp, diferenciado por sexo. Interprete, apoyado de una tabla de frecuencias relativas porcentuales. Haga el contraste visual con el gráfico de barras apiladas. 3.1.1.5 Gráfico de Dispersión El gráfico de dispersión es útil para estudiar la relación entre dos variables continuas. Muestra cómo varía un variable en función de la otra y puede ayudar a identificar patrones y tendencias (Rowlingson, 2016). Los pasos para elaborar un gráfico de caja son los siguiente (Healy, 2019): Elegir dos variables continuas de la base de datos a trabajar. Cada fila corresponde a una observación, por lo cual, hay una correspondencia entre los valores de una misma fila. Elegir la variable estará en el eje X y Y. Representar cada par ordenado con un punto. Para generar un gráfico de dispersión en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Open, # Eje X y variable asociada y = Close)) + # Eje Y y variable asociada geom_point( # Objeto a graficar: Gráfico de dispersión color = "black", # Color alpha = 0.3) + # Opacidad labs( # Títulos title = "Tasa de apertura y cierre del EUR/USD", # Título del gráfico x = "Tasa de apertura", # Título del eje X y = "Tasa de cierre") # Título del eje Y Tal como se menciona al inicio, la interpretación de este tipo de gráficos radica en describir la tendencia de los puntos. En el ejemplo anterior, el gráfico muestra una tendencia al alza, es decir, que cuando la tasa de apertura del EUR/USD aumenta, entonces, la tasa de cierre tiende a aumentar. Ejercicio 3.9 Utilizando la base de datos Pacientes, realice un gráfico de dispersión entre la variable age (eje X) y la variable thalachh (eje Y). Interprete. Ejemplo 3.2 En los siguiente gráficos se toma como ejemplo la base de datos Tasa Euro/Dólar. Es posible utilizar el gráfico de dispersión con variables que en su naturaleza son discretas. En este sentido, elabore un gráfico de dispersión entre el año de medición y el valor promedio de tasa de apertura del EUR/USD (guarde el gráfico en una variable). g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Ano, # Eje X y variable asociada y = Open, # Eje Y y variable asociada group = 1)) + # Comando únicamente necesario para la pregunta 2 geom_point( # Objeto a graficar stat = "summary", # Tipo de información a graficar: resumen fun = "mean") + # Tipo de resumen: promedio de la variable Y labs( # Títulos title = "Tasa de apertura promedio del EUR/USD por año", # Título del gráfico x = "Año", # Título del eje X y = "Tasa de apertura") # Título del eje Y g # Desplegamos el gráfico guardado Añadir al gráfico un formato de líneas entre los puntos. Interprete. g = g + # Añadimos otro gráfico geom_line( # Objeto a graficar: lineas stat = "summary", # Tipo de información a graficar: resumen fun = "mean") # Tipo de resumen: promedio de la variable Y g # Desplegamos el gráfico guardado Hasta el 2008 la tasa promedio de apertura estuvo en alza, posteriormente, la tasa decayó a un valor inferior a 1.1. Grafique el valor de la tasa de apertura del EUR/USD desde el 2020 hasta el 2022 separadamente. Interprete. datos$Date = as.Date(datos$Date) # Fechas en formato fecha de R g = ggplot( # Ambiente gráfico data = datos[datos$Ano %in% 2020:2022,], # Datos de los años 2020 al 2022 aes( # Comando estéticos x = Date, # Comandos estéticos: Eje X y variable asociada y = Open)) + # Eje Y y variable asociada geom_point( # Objeto a graficar alpha = 0.5, # Opacidad size = 0.6) + # Tamaño theme( # Aspectos visuales del gráfico axis.text.x = element_blank()) + # Eliminamos el texto del eje X facet_wrap( # Segregación del gráfico vars(Ano), # Variable que se utiliza para segregar el gráfico nrow = 1, # Disposición visual: una fila scales = "free_x") + # La escala del eje X es independiente para gráfico labs( # Títulos title = "Tasa de apertura del EUR/USD desde el 2020 hasta el 2022", # Título del gráfico x = "Fecha", # Título del eje X y = "Tasa de apertura") # Título del eje Y g # Desplegamos el gráfico guardado Durante los 3 años consecutivos, se observa que únicamente en el 2020 la tendencia de la tasa de apertura es al alza, mientra que para los otros dos años hubo un decaimiento en el valor de esta. Grafique el valor de la tasa de apertura del EUR/USD diferenciando por año. Interprete. g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Date, # Comandos estéticos: Eje X y variable asociada y = Open, # Eje Y y variable asociada color = Ano)) + # Color según el año geom_point( # Objeto a graficar alpha = 0.5, # Opacidad size = 0.7) + # Tamaño labs( # Títulos color = "Año", # Título de la leyenda title = "Tasa de apertura del EUR/USD", # Título del gráfico x = "Fecha", # Título del eje X y = "Tasa de apertura") + # Título del eje Y guides( # Edición de escalas color = guide_legend( # Escala de color de la leyenda override.aes = list( # Comando estéticos asociados alpha = 1, # Opacidad de los puntos size = 3))) # Tamaño de los puntos g # Desplegamos el gráfico guardado Al observar la evolución histórica de la tasa de apertura diferenciada por año, se aprecia que el periodo 2008 - 2010 es aquel con predominancia de valores más altos. Por otro lado, desde el 2016, se registraron pro primera vez valores menores a 1.1. En años posteriores, no ha observado que la tasa supere los 1.3 puntos. Ejercicio 3.10 Utilizando la base de datos de la Tasa Euro/Dólar: Elabore un gráfico de dispersión entre el año de medición y el valor promedio de tasa de cierre del EUR/USD (guarde el gráfico en una variable). Añadir al gráfico un formato de líneas entre los puntos. Interprete. Grafique el valor de la tasa de cierre del EUR/USD desde el 2010 hasta el 2013 separadamente. Interprete. Grafique el valor de la tasa de cierre del EUR/USD diferenciando por año. Interprete. Ejercicio 3.11 Utilizando la base de datos de Precios de electricidad, elabore un gráfico de dispersión del precio de la electricidad a través del tiempo (considere año, mes y día). Interprete. Ejercicio 3.12 Utilizando la base de datos de Pacientes: Elabore un histograma del nivel de colesterol de los pacientes. Interprete. Elabore un gráfico de caja del nivel de colesterol de los pacientes, diferenciando por sexo. Interprete y compare. Elabore un gráfico de violín (más caja y promedio) del nivel de colesterol de los pacientes, diferenciado por tipo de dolor en el pecho. Interprete y compare. Elabore un gráfico de dispersión entre la edad (eje X) y el nivel de colesterol (eje Y) de los pacientes, coloreando por sexo. Interprete. 3.1.2 Covarianza Es posible entender las relaciones entre dos o más variables, gráficamente y a través de estadísticos. En esta sección seabarcarán las relaciones lineales entre dos variables cuantitativas, utilizando la Covarianza y la Correlación. El gráfico que apoya a estas dos medidas es el gráfico de dispersión. La Covarianza entre dos variables de la misma muestra, se puede calcular como: \\[\\begin{equation} S_{XY} = \\displaystyle\\frac{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})(y_i-\\bar{y})}{n-1} \\tag{3.1} \\end{equation}\\] La utilidad radica en el signo de esta expresión, el cual, da a conocer el tipo de relación lineal entre las variables \\(X\\) e \\(Y\\). Para interpretar esta expresión se puede usar la siguiente regla. Si \\(S_{XY} = 0\\), entonces no existe relación lineal entre \\(X\\) e \\(Y\\). Si \\(S_{XY} > 0\\), entonces existe una relación lineal directa o positiva entre \\(X\\) e \\(Y\\). Esto es, a mayores valores de \\(X\\), en promedio tenemos mayores valores de \\(Y\\) y viceversa. Si \\(S_{XY} < 0\\), entonces existe una relación lineal inversa o negativa entre \\(X\\) e \\(Y\\). Esto es, a mayores valores de \\(X\\), en promedio tenemos menores valores de \\(Y\\) y viceversa. Ejemplo 3.3 Por ejemplo, si \\(S_{XY} = -1000\\), ¿qué podemos decir acerca de la relación entre \\(X\\) e \\(Y\\)? La relación entre las variables es inversa. No podemos decir nada acerca de qué tan fuerte es la relación; para eso tendríamos calcular el coeficiente de correlación. Nota: En R, se utiliza el comando cov() para calcular covarianza entre dos variables. A cotinuación, se estudia gráficamente la covarianza entre dos variables. Para ello, se necesita del gráfico de dispersión y de las líneas promedio de ambas variables. En este caso, la mayoría de los puntos están en los cuadrantes ‘\\(+ +\\)’ y ‘\\(- -\\)’, y en estos cuadrantes la expresión \\((x_i-\\bar{x})(y_i-\\bar{y})\\) es positiva; por eso la covarianza es positiva (aunque también necesario considerar que tan lejos están los puntos de la intersección de las líneas promedio). ¿Es pronunciada la relación lineal? 3.1.3 Correlación Aunque con el signo de la covarianza podemos detectar el tipo de relación entre dos variables, al depender de las unidades de \\(X\\) y de \\(Y\\), no sabemos si corresponde a un relación fuerte o débil (es decir, la forma lineal es fuertemente o débilmente pronunciada); sólo sabemos el signo. Para solucionar esto, estandarizamos los valores. La fórmula que realiza este proceso utilizando la covarianza es \\[\\begin{equation} r_{XY} = \\frac{S_{XY}}{S_{X}S_{Y}} \\tag{3.2} \\end{equation}\\] Este estadístico, también conocido como Coeficiente de correlación de Pearson se encuentra entre -1 y 1. Si \\(r_{XY} = 0\\), entonces no hay relación lineal o con relación lineal débil entre las variables. Si \\(r_{XY}\\) es cercano a 1, entonces hay relación lineal directa y fuerte entre variables. Si \\(r_{XY}\\) es cercano a \\(-1\\), entonces hay relación lineal inversa y fuerte entre las variables. Una regla más fina sobre la intensidad de la relación es (Ratner, 2009): \\(r_{XY} = 0\\) indica que no hay relación lineal. \\(r_{XY} = 1\\) indica una relación lineal positiva perfecta: a medida que una variable aumenta en sus valores, la otra variable también aumenta en sus valores a través de una regla lineal exacta. \\(r_{XY} = -1\\) indica una relación lineal negativa perfecta: a medida que una variable aumenta en sus valores, la otra variable disminuye en sus valores a través de una regla lineal exacta. Los valores entre \\(0\\) y \\(0.3\\) (\\(0\\) y \\(−0.3\\)) indican una relación lineal positiva (negativa) débil a través de una regla lineal inestable. Valores entre \\(0.3\\) y \\(0.7\\) (\\(-0.3\\) y \\(−0.7\\)) indican una relación lineal positiva (negativa) moderada a través de una regla lineal difusa-firme. Los valores entre \\(0.7\\) y \\(1.0\\) (\\(−0.7\\) y \\(−1.0\\)) indican una fuerte relación lineal positiva (negativa) a través de una regla lineal firme. Ejercicio 3.13 Por ejemplo, si \\(r_{XY} = -0.96\\), ¿qué podemos decir acerca de la relación entre \\(X\\) e \\(Y\\)? A continuación, se estudia gráficamente la correlación entre dos variables. Para ello, se necesita del gráfico de dispersión y una recta que refleje la asociación lineal (detalles de esta recta en secciones posteriores). ¿Cómo se comportan los puntos al rededor de la línea azul? Ejercicio 3.14 La base de datos graficos+dolar.csv contiene el valor del dólar observado de algunos de los días de los meses de junio y julio del 2022, tomados por el el SII. A continuación: Realice un histograma del valor de dólar. Realice un histograma del valor de dólar diferenciado por mes. Utilice el comando facet_grid(\\(\\sim\\) Mes). Reordene los gráficos por mes. Para ello convierta la variable Mes a factor, ordenando los meses como corresponde. Realice un gráfico de Violín con caja y promedio del valor de dolar. Interprete lo observado. Separe el gráfico anterior por mes. Comente lo observado. Estudie las medidas de asociación entre los valores del dólar de los primeros 18 registros de cada mes. Interprete. ¿Por qué no es posible comparar todos los registros de cada uno de los meses? Realice un gráfico de dispersión de los para estudiar las medidas de asociación entre las variables de la pregunta 6. 3.2 Regresión lineal simple La regresión lineal simple (RLS) consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente, predicha o respuesta se le identifica como \\(Y\\) y a la variable predictora o independiente como \\(X\\). (Devore, 2008, página 450) El modelo de regresión lineal simple se describe de acuerdo a la ecuación: \\[\\begin{equation} Y_i = \\beta_0 + \\beta_1X_i + \\epsilon_i \\text{ , }i = 1,\\ldots ,n \\text{ , } \\epsilon_i \\sim N(0,\\sigma^2) \\tag{3.3} \\end{equation}\\] Una ejemplificación de esta ecuación es la siguiente (3.1). Figura 3.1: Ecuación de regresión Siendo \\(\\beta_0\\) la ordenada en el origen, \\(\\beta_1\\) la pendiente y \\(\\epsilon\\) el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real (línea de color rojo en el gráfico enla figura 3.2), el cual, recoge el efecto de todas aquellas variables que influyen en \\(Y\\) pero que no se incluyen en el modelo como predictores. En el gráfico 3.2 es posible apreciar los errores como el distanciamiento de los puntos respecto de la recta. Figura 3.2: Errores de una ecuación de regresión La ecuación (3.3) representa la ecuación de regresión verdadera (o poblacional). Sin embargo, no es posible conocer el valor de \\(\\beta_0\\) y \\(\\beta_1\\), ya que son parámetros poblacionales (de antemano, no se conocen todos los datos de la población), por lo cual, se se deben determinar estimadores que permitan aproximar los valores de estos parámetros a partir de una muestra (“base de datos”), para así de determinar una expresión estimada de esta ecuación de regresión verdadera. 3.2.1 Estimadores de mínimos cuadrados Una forma intuitiva de abordar el problema de estimar \\(\\beta_0\\) y \\(\\beta_1\\) es minimizando los errores aleatorios. Para ello, se hace uso de la ecuación de regresión verdadera: \\[ Y_i = \\beta_0 + \\beta_1X_i + \\epsilon_i \\] Luego, es posible escribir el error aleatorio de la siguiente manera: \\[ \\epsilon_i = Y_i - [\\beta_0 + \\beta_1X_i] \\] Para considerar el error en cada uno de los puntos al rededor de la recta de regresión verdadera se considera la suma de los errores. Sin embargo, para tener mayor facilidad en el proceso de determinar los estimadores, se elevan los errores al cuadrado (suma cuadrática de errores). \\[ \\sum_{i=1}^n\\epsilon_i^2 = \\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2 \\] Llegado a este punto, es natural minimizar esta función, ya que los valores de \\(\\beta_0\\) y \\(\\beta_1\\) estimados buscan dar lugar a la recta que “pasa más cerca de todos lo puntos”. Los estimadores de \\(\\beta_0\\) y \\(\\beta_1\\) se denotan por \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) respectivamente, y son denominados como Estimadores de Mínimos Cuadrados (EMC). La ecuación (3.4) representa la ecuación de regresión ajustada (estimada) mediante una muestra. \\[\\begin{equation} \\widehat{Y}_i = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_i \\tag{3.4} \\end{equation}\\] Los estimadores de \\(\\beta_0\\) y \\(\\beta_1\\) son (detalles del desarrollo en el anexo A.1): \\[\\begin{equation} \\widehat{\\beta}_1 = \\frac{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})(y_i-\\bar{y})}{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})^2} = \\frac{S_Y}{S_X}r_{XY} \\tag{3.5} \\end{equation}\\] \\[\\begin{equation} \\widehat{\\beta}_0 = \\bar{y} - \\widehat{\\beta}_1\\bar{x} \\tag{3.6} \\end{equation}\\] Los valores de \\(S_y\\) y \\(S_x\\) son las desviaciones estándar de cada variable y \\(r_{XY}\\) el coeficiente de correlación entre estas. \\(\\widehat{\\beta}_0\\) es el valor esperado la variable \\(Y\\) cuando \\(X = 0\\), es decir, la intersección de la recta con el eje \\(y\\). En ocasiones, no tiene interpretación práctica (situaciones en las que \\(X\\) no puede adquirir el valor 0). \\(\\widehat{\\beta}_1\\) corresponde al valor de la pendiente. La interpretación de este valor se detalla más adelante. \\(\\widehat{Y}\\) se entiende como el valor esperado, es decir, el valor promedio (muestral) de \\(Y\\). La diferencia entre los valores reales \\(Y\\) (en la base de datos) y los valores de la recta estimada (\\(\\widehat{Y}\\)) se denominan residuos, que se denotan por la letra \\(e\\). Estos se observan de la misma forma que los errores aleatorios (figura 3.2). Ejemplo 3.4 El archivo cuota+patrimonio.csv contiene los valores cuota (pesos) y valor del patrimonio (miles de millones de pesos) de los primeros dos meses del año 2022 de la AFP UNO. En R: Realice un estudio inicial de los datos, elaborando un gráfico de violín + caja + promedio para cada una de las variables. Inspeccionamos la base de datos. datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/cuota%2Bpatrimonio.csv") str(datos) ## 'data.frame': 59 obs. of 2 variables: ## $ Valor.Cuota : num 65594 65594 65356 65860 65813 ... ## $ Valor.Patrimonio: num 186 186 185 187 187 ... Luego, realizamos el gráfico de violín con caja y promedio. ggplot(data = datos, aes(y = 1, x = Valor.Cuota)) + geom_violin(trim = F) + geom_boxplot(width = 0.1) + stat_summary(fun = mean, color = "red", geom = "point", orientation = "y") + labs(y = "", x = "Pesos", title = "Valor Cuota") Se observa, que la mayor concentración de datos se encuentra entre el primer y segundo cuartil. Además, el cierre superior del gráfico de violín presenta una mayor concentración de datos que el cierre inferior, lo cual, explica la posición del promedio por sobre la mediana. ggplot(data = datos, aes(y = 1, x = Valor.Patrimonio)) + geom_violin(trim = F) + geom_boxplot(width = 0.1) + stat_summary(fun = mean, color = "red", geom = "point", orientation = "y") + labs(y = "", x = "Miles de millones de pesos", title = "Valor Patrimonio") Se observa, que la mayor concentración de datos se encuentra entre el primer y segundo cuartil. Una segunda concentración se encuentra por sobre el tercer cuartil , lo cual, explica la posición del promedio por sobre la mediana. Estudie la correlación entre ambas variables. cor(datos$Valor.Cuota, datos$Valor.Patrimonio) ## [1] 0.9218759 El valor de la correlación indica que la relación lineal entre las dos variables es positiva y fuerte. Esto quiere decir que, cuando en promedio el valor cuota aumenta, el promedio el valor del patrimonio también aumenta. Considerando que desea explicar el valor del patrimonio a partir del valor cuota. Determine los valores de \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) utilizando el comando lm(). modelo = lm(Valor.Patrimonio ~ Valor.Cuota, data = datos) modelo ## ## Call: ## lm(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## Coefficients: ## (Intercept) Valor.Cuota ## -1.353e+02 4.936e-03 Escriba la ecuación de la recta de regresión ajustada. \\[ \\widehat{Y}_i = -135.3 + 0.004936X_i \\] Realice un gráfico de la la recta de regresión y los residuos del modelo. # Guardamos los valores de la recta estimada en una nueva columna en la base de datos datos$Ajustados = modelo$fitted.values ggplot(data = datos, aes(x = Valor.Cuota, y = Valor.Patrimonio)) + geom_segment(aes(x = Valor.Cuota, xend = Valor.Cuota, y = Valor.Patrimonio, yend = Ajustados), color = "red") + labs(x = "Valor Cuota", y = "Valor Patrimonio", title = "Ecuación de regresión ajustada") + geom_point() + geom_smooth(method = lm, se = FALSE, formula = 'y ~ x') Para interpretar cada uno de los beta estimados se debe hacer en función de la variable de estudio (variable dependiente). En este sentido, \\(\\widehat{\\beta}_1\\): corresponde a la pendiente de la ecuación de la recta de regresión ajustada, e indica un avance lineal constante en crecimiento o en decrecimiento dependiendo de su valor. La interpretación de este parámetro, está sujeta a la unidad de medida de la variable predictora \\(X\\), de tal manera, que una cambio en una unidad de medida de la variable \\(x\\), afecta en promedio \\(\\widehat{\\beta}_1\\) unidades en la variable \\(Y\\). En el ejemplo 3.4, el valor de \\(\\widehat{\\beta}_1\\) es de 0.004936 , lo cual indica que por cada unidad de valor cuota (por cada peso), el valor del patrimonio aumenta en promedio 0.004936 miles de millones pesos. \\(\\widehat{\\beta}_0\\): es el intercepto de la ecuación de la recta de regresión ajustada, y se debe verificar que el valor obtenido tenga sentido con el fenómeno. En el ejemplo 3.4, se obtiene un valor lejano a cero (-135.2584663), por lo que, cuando \\(\\beta_1x\\) vale cero (es decir, una cantidad de cuotas igual a 0), el valor del promedio del patrimonio es menor a cero. Esto tiene sentido, ya que las cuotas no constituyen la totalidad del valor del patrimonio de la AFP (en el ejemplo se trabaja con un fondo en específico de los cinco existentes, de un determinado producto de inversión). Ejercicio 3.15 Utilizando la base de datos Ingreso: Realice un estudio inicial de los datos, elaborando un gráfico de violín + caja + promedio para cada una de las variables cuantitativas continuas, mientras que para las variables categóricas elabore tablas de frecuencias relativas. Considerando que desea explicar la proporción de logro en el diagnóstico de comunicación escrita a partir del puntaje en la PTU de Lenguaje (considere esto para las siguientes preguntas), estudie la correlación entre ambas variables. Determine los valores de \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) utilizando el comando lm(). Interprete los valores. Escriba la ecuación de la recta de regresión ajustada. Realice un gráfico de la la recta de regresión ajustada y los residuos del modelo. 3.2.2 Pruebas de hipótesis Los modelos de regresión lineal simple incluyen pruebas de hipótesis asociadas a los betas, además de otro tipo de información. En R es posible utilizar el comando summary() para acceder al resumen de información. A continuación, a modo de ejemplo se utiliza el modelo elaborado en el ejemplo 3.4. summary(modelo) ## ## Call: ## lm(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8.0070 -2.9085 -0.0636 3.8231 8.5680 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -1.353e+02 1.695e+01 -7.982 7.37e-11 *** ## Valor.Cuota 4.936e-03 2.748e-04 17.962 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 4.215 on 57 degrees of freedom ## Multiple R-squared: 0.8499, Adjusted R-squared: 0.8472 ## F-statistic: 322.6 on 1 and 57 DF, p-value: < 2.2e-16 El detalle por columna es el siguiente. En primer lugar, ya conocemos los coeficientes del modelo (betas estimados) y cómo se interpretan. Estos valores los podemos encontrar en la columna llamada Estimate. La segunda columna (Std. Error) corresponde a la desviación estándar de la estimación de cada uno de los betas. Como cada uno de los errores (\\(\\epsilon_i\\)) tiene distribución normal, esto implica que cada uno de los \\(\\beta\\) tenga distribución t – Student (no analizaremos esto en profundidad). La tercera y cuarta columna están diseñadas para probar una determinada prueba de hipótesis relacionada a los \\(\\beta\\). En este caso, cada fila aborda la siguiente hipótesis: \\[\\begin{equation} \\notag \\begin{split} H_0:&\\beta_i = 0\\\\ H_1:&\\beta_i \\neq 0\\\\ \\end{split} \\end{equation}\\] El estadístico para cada uno de los beta se obtiene dividiendo el valor estimado (Estimate) por la desviación estándar (Std. Error). El resultado de estos valores, se puede apreciar en la columna t value. Finalmente, se calcula el valor - p asociado a cada una de las hipótesis del punto anterior, con la fórmula \\(2\\cdot(1-pt(|t_0|, n-1))\\). El valor resultante de esta expresión para cada uno de los betas se encuentra en la columna Pr(>|t|). La interpretación de este valor es mediante el criterio del valor - p presentado en la unidad anterior. En el ejemplo 3.4, al no rechazarse la hipótesis nula asociada a cada beta estimado, se tiene que cada variable (intercepto y valor cuota) son relevantes para explicar la variable respuesta (valor del patrimonio). Sin embargo, esto no es un regla decidora respecto a si una variable debe o no considerarse en el modelo, es decir, No rechazar las hipótesis nula de los beta estimados, indica que su “valor” es cero, por lo que no “aportarían” al modelo de regresión construido. En este punto, muchas personas eliminarían la variable utilizada para construir el modelo (el valor cuota) (esto es una de tantas técnicas aplicables, pero que no profundizaremos) o, cambiarían la variable explicativa utilizada (no considerarían el valor cuota, sino que utilizarían otra variable). A pesar de que los valores-p puedan no ser significativos (mayores a 0.05), es decir, no rechazar las hipótesis nulas; es posible forzar la permanencia de la variable en el modelo debido al criterio experto del profesional. Por último, al final de la salida del resumen, encontramos el valor llamado F-statistic. Este valor, es un estadístico que prueba la siguiente hipótesis, \\[\\begin{equation} \\notag \\begin{split} H_0:&\\text{ Todos los beta asociados a las covariables valen 0}\\\\ H_1:&\\text{ Almenos uno de los betas asociados a las covariables es distinto de 0}\\\\ \\end{split} \\end{equation}\\] Nota: esta prueba de hipótesis no considera \\(\\beta_0\\). En el ejemplo 3.4, se observa un valor del estadístico igual a 322.6 con 1 y 57 grados de libertad, además de un valor menor a 0.05. Por lo tanto, existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, almenos uno de los betas asociados a las covariables es distinto de 0. Ejercicio 3.16 Utilizando la base de datos Pacientes: Ajuste un modelo para estudiar el nivel de colesterol de los pacientes a partir de su edad. Luego, estudie las pruebas de hipótesis asociadas. Ajuste un modelo para estudiar el tiempo de duración del último ataque al corazón de los pacientes a partir de su edad. Luego, estudie las pruebas de hipótesis asociadas. 3.2.3 Métricas La salida de R nos proporciona dos valores que permiten evaluar al modelo de regresión lineal simple: Residual standard error: corresponde a la desviación estándar de los residuos, es decir, que mientras menor sea este valor, los puntos se alejarán menos de la recta de regresión. Multiple R-squared o \\(R^2\\): es un métrica de error de la regresión que mide el rendimiento del modelo, y representa el valor de cuánto la variable independiente es capaz de explicar (linealmente) el valor de la variable de estudio (variable de respuesta, variable dependiente). En el ejemplo 3.4 se obtiene un error estándar residual de 4.2. Sin embargo, NO EXISTE un regla que determine cuando un error estándar residual es bueno o malo. En general, este valor se utiliza para comparar don o más modelos que estudian la misma variable respuesta pero con distintas variables predictoras (variables independientes), para saber cual realiza un mejor ajuste. Por otro lado, se tiene un valor de \\(R^2\\) igual a 0.84, el cual es muy alto, por lo que se logra explicar gran parte de la variable respuesta. Al igual que el error estándar residual, no existe una regla para determinar cuando un valor de \\(R^2\\) es bueno o malo, aunque valores cercanos a cero indican que el poder explicativo del modelo es extremadamente pobre; y a su vez, valores muy cercanos a 1 son muy buenos, aunque extremandamente sospechosos. Lo anteriormente explicado se puede observar mediante los siguiente comandos, aunque es posible observarlos en salida general del comando summary(). # Resumen del modelo summ = summary(modelo) print(c("Error estándar residual" = summ$sigma, "R cuadrado" = summ$r.squared)) ## Error estándar residual R cuadrado ## 4.2148482 0.8498553 Ejercicio 3.17 Utilizando la base de datos Ingreso: Ajuste un modelo para estudiar la proporción de logro a partir el puntaje NEM. Ajuste un modelo para estudiar la proporción de logro a partir el puntaje PTU de la prueba de Lenguaje. Compare los ajustes de ambos modelos utilizando el error estándar residual y el \\(R^2\\). Interprete. 3.2.4 Supuestos Cuándo se elabora un modelo de regresión lineal, es necesario verificar el cumplimiento de condiciones para la correcta interpretación y utilización del modelo desarrollado. Las condiciones que se deben cumplir se denominan supuestos. A continuación, se detallan los 4 supuestos que se deben estudiar, utilizando como ejemplo el modelo elaborado en el ejemplo 3.4. 3.2.4.1 Linealidad La relación entre ambas variables (dependiente e independiente) debe ser lineal. Para observar el comportamiento es posible realizar un gráfico de puntos entre la variable predictora (\\(X\\)) y la variable de estudio (\\(Y\\)). ggplot(data = datos) + geom_point(aes(x = Valor.Cuota, y = Valor.Patrimonio)) + labs(x = "Valor Cuota (pesos)", y = "Valor Patrimonio \\n (miles de millones de pesos)") La interpretación del comportamiento queda a discreción del profesional. En este caso, se aprecia una clara tendencia lineal, por lo que se asume que se cumple el supuesto de linealidad. 3.2.4.2 Normalidad Los residuos deben distribuir Normal con media 0 (\\(\\mu\\)) y varianza 1 (\\(\\sigma^2\\)). Para ello, se pueden ejecutar varios comandos en R para probar esta hipótesis. El más conocido es el comando shapiro.test(). La hipótesis es \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Los residuos estandarizados tienen distribución Normal}\\\\ H_1&: \\text{Los residuos estandarizados NO tienen distribución Normal}\\\\ \\end{split} \\end{equation}\\] residuos = resid(modelo) # Residuos residuos_estandarizados = rstandard(modelo) # Residuos estandarizados shapiro.test(x = residuos_estandarizados) ## ## Shapiro-Wilk normality test ## ## data: residuos_estandarizados ## W = 0.96765, p-value = 0.1177 Considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es mayor a 0.05. Por lo tanto, se asume normalidad en los residuos. En caso de que la cantidad de datos sea mayor a 5000, el comando shapiro.test() fallará. En su lugar, es posible usar el comando ks.test(), un ejemplo con los residuos del ejemplo anterior es ks.test(residuos_estandarizados, "pnorm", 0, 1) ## ## Asymptotic one-sample Kolmogorov-Smirnov test ## ## data: residuos_estandarizados ## D = 0.12515, p-value = 0.3138 ## alternative hypothesis: two-sided Una tercera opción es utilizar el comando ad.test() de la librería nortest library(nortest) ad.test(residuos_estandarizados) ## ## Anderson-Darling normality test ## ## data: residuos_estandarizados ## A = 0.71269, p-value = 0.05962 3.2.4.3 Homocedasticidad Este supuesto hace referencia a la necesidad de una varianza constante de los residuos. Para verificar esto, se grafican los residuos estandarizados del modelo versus los valores de la variable predictora (o variable predicha, \\(\\widehat{y}\\)). Se busca que las amplitudes verticales en las figuras sean similares en la medida que se recorre el eje de las abscisas. Similarmente, es posible ejecutar una prueba de hipótesis (Breucsh - Pagan) en R con el comando bptest() de la librería lmtest, siendo \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Los residuos tienen varianza constante}\\\\ H_1&: \\text{Los residuos NO tienen varianza constante}\\\\ \\end{split} \\end{equation}\\] valores_predichos = modelo$fitted.values ggplot(data = datos) + geom_point(aes(x = valores_predichos, y = residuos_estandarizados)) + geom_hline(yintercept = 0) + labs(x = "Valores predichos", y = "Residuos estandarizados") Las amplitudes verticales no tiene un patrón claro de cambio (puede ser difícil de interpretar), por lo que utilizaremos la prueba de Breucsh - Pagan para decidir. library(lmtest) bptest(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## studentized Breusch-Pagan test ## ## data: Valor.Patrimonio ~ Valor.Cuota ## BP = 0.30064, df = 1, p-value = 0.5835 Considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es superior a 0.05. Por lo tanto, se asume que los residuos tienen varianza constante (Homocedasticidad). 3.2.4.4 Independencia El útlimo supuesto corresponde a la independencia de los residuos, es decir que, no deben estar correlacionados entre ellos (autocorrelación igual a 0). La prueba de hipótesis de Durbin - Watson está diseñada para detectar autocorrelación en los residuos. Para ejecutar esta prueba en R se debe utilizar la función dwtest() de la librería lmtest. La hipótesis es \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Autocorrelación de los residuos es igual a 0}\\\\ H_1&: \\text{AutoCorrelación de los residuos es distinta de 0}\\\\ \\end{split} \\end{equation}\\] # Prueba de Durbin Watson dwtest(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos, alternative = "two.sided") ## ## Durbin-Watson test ## ## data: Valor.Patrimonio ~ Valor.Cuota ## DW = 0.080415, p-value < 2.2e-16 ## alternative hypothesis: true autocorrelation is not 0 Considerando una confianza del 95%, existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es mejor a 0.05. Por lo tanto, se asume que los residuos no son independientes. Conclusión: En resumen, se han cumplido 3 de los 4 supuestos planteados. Esto es muy común que suceda en la realidad, además de existir diversos factores que influyen en los resultados vistos. Ejercicio 3.18 Utilizando la base de datos Ingreso, ajuste el modelo: \\[\\widehat{Y}_{\\text{Logro}} = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_{\\text{NEM}}\\] Luego, 1. Escriba la ecuación de regresión ajustada. 2. Verifique los supuestos del modelo. Ejercicio 3.19 Utilizando la base desdatos Pacientes, elabore un modelo para estudiar la variable oldpeak a través de la variable chol. Estudie los supuestos del modelo, utilizando una confianzza del 92%. Ejercicio 3.20 La base de datos terremotos.csv, contiene datos sobre los terremotos ocurridos a nivel mundial entre los años 1900 y 2014. Las columnas de la base de datos son: Ano: año de ocurrencia del terremoto. Latitud: grados decimales de la coordenada de latitud (valores negativos para latitudes del sur). Longitud: grados decimales de la coordenada de longitud (valores negativos para longitudes occidentales). Profundidad: profundidad del evento en kilómetros. Magnitud: magnitud del evento (la escala no es fija, ya que, a través de los años, la escala a cambiado según el método de medición. Sin embargo, todos las magnitudes son comparables, indicando que a mayor magnitud, mayor es la intensidad en movimiento/fuerza del terremoto). Ajuste los siguientes modelos: \\(Y_{\\text{Magnitud}} = \\beta_0 + \\beta_1X_{\\text{Profundidad}} + \\epsilon\\) \\(Y_{\\text{Magnitud}} = \\beta_0 + \\beta_1X_{\\text{Latitud}} + \\epsilon\\) Luego, para cada modelo: Estudie la relación entre la variable dependiente e independiente mediante gráficos de dispersión. Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Estudie los supuestos del modelo, utilizando una confianza del 98%. 3.3 Regresión lineal múltiple A diferencia de la regresión lineal simple, la regresión lineal múltiple (RLM) hace uso de más de una variable independiente para modelar el comportamiento de variable de estudio (Devore, 2008, página 528). La expresión de un modelo de regresión múltiple es: \\[\\begin{equation} Y = X\\beta + \\epsilon \\tag{3.7} \\end{equation}\\] con \\(\\epsilon \\sim N(0,\\sigma^2I)\\) independientes. De otra forma, \\[\\begin{equation} \\begin{pmatrix} y_1\\\\ y_2\\\\ \\vdots\\\\ y_n \\end{pmatrix} = \\begin{pmatrix} 1 & x_{11} & x_{12} & \\cdots & x_{1k}\\\\ 1 & x_{21} & x_{22} & \\cdots & x_{2k}\\\\ \\vdots & \\vdots & \\vdots & \\ddots & \\vdots \\\\ 1 & x_{n1} & x_{n2} & \\cdots & x_{nk}\\\\ \\end{pmatrix} \\begin{pmatrix} \\beta_0\\\\ \\beta_1\\\\ \\vdots \\\\ \\beta_k\\\\ \\end{pmatrix} + \\begin{pmatrix} \\epsilon_1\\\\ \\epsilon_2\\\\ \\vdots \\\\ \\epsilon_n\\\\ \\end{pmatrix} \\tag{3.8} \\end{equation}\\] \\[\\begin{equation} y_i = \\beta_0 + \\sum_{j=1}^k x_{ij}\\beta_j +\\epsilon_i\\text{, } i = 1,\\dots,n \\tag{3.9} \\end{equation}\\] 3.3.1 Estimadores de mínimos cuadrados Al igual que el una regresión lineal simple, se busca minimizar la suma cuadrática de los errores (SCE). Sin embargo, al trabajar con matrices, el proceso de minimización de la SCE da como resultado los siguientes estimadores de mínimos cuadrados (EMC), valores ajustados y residuos. \\[\\begin{equation} \\widehat{Y} = X\\widehat{\\beta} \\tag{3.10} \\end{equation}\\] \\[\\begin{equation} \\widehat{\\beta} = (X^tX)^{-1}X^tY \\tag{3.11} \\end{equation}\\] \\[\\begin{equation} \\widehat{Y} = X(X^tX)^{-1}X^tY \\tag{3.12} \\end{equation}\\] Además, los residuos se calculan como \\[\\begin{equation} e = Y - \\widehat{Y} \\tag{3.13} \\end{equation}\\] Ejemplo 3.5 Utilizando la base de datos Imacec , se debe considerar un modelo que estudie el valor del Imacec de Minería a base del Imacec de Industria y del Año de medición, con el fin de determinar los beta estimados, los valores ajustados y los errores del modelo, mediante las fórmulas explicadas anteriormente. Los modelos poblacional y ajustado son: Modelo poblacional: \\(Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Año}} + \\beta_2X_{\\text{Imacec Industria}} + \\epsilon\\) Modelo ajustado: \\(\\widehat{Y}_{\\text{Imacec Minería}} = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_{\\text{Año}} + \\widehat{\\beta}_2X_{\\text{Imacec Industria}}\\) # Cargamos la base de datos del Imacec df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") # Para conformar la matriz de covariables (X) extraemos las columnas relevantes de la base de datos X = df[,c(1,4)] # Año e Imacec de Industria # Agregamos la columna de unos que debe ir antes de las otras X = cbind(1, X) # Cambiamos el formato de X a matriz X = as.matrix(X) # Extraemos la variable independiente (en formato de matriz) Y = as.matrix(df$Mineria) # Determinemos los estimadores de los beta betas.gorro = solve(t(X)%*%X)%*%t(X)%*%Y # El comando solve() calcula la inversa de una matriz. # el operador %*% es para multiplicar matrices. # El comando t() es para calcular una matriz traspuesta de una matriz. Los valores estimados de los beta son betas.gorro ## [,1] ## 1 3293.7998054 ## Ano -1.5984756 ## Industria 0.3224822 Los valores ajustados son y.gorro = X%*%betas.gorro head(y.gorro) ## [,1] ## [1,] 100.19527 ## [2,] 98.13138 ## [3,] 101.96892 ## [4,] 102.09791 ## [5,] 102.13016 ## [6,] 100.87248 Los residuos del modelo son residuos = Y - y.gorro head(residuos) ## [,1] ## [1,] -3.6952686 ## [2,] -5.6313828 ## [3,] -0.8689205 ## [4,] -10.7979133 ## [5,] -1.9301616 ## [6,] -4.6724811 La ecuación de regresión ajustada es: \\[ \\widehat{Y}_{\\text{Imacec Minería}} = 3293.79 -1.59X_{\\text{Año}} + 0.32X_{\\text{Imacec Industria}} \\] El modelo ajustado del ejemplo 3.5 se elabora con el siguiente comando en R: modelo = lm(Mineria ~ Ano + Industria, data = df) modelo ## ## Call: ## lm(formula = Mineria ~ Ano + Industria, data = df) ## ## Coefficients: ## (Intercept) Ano Industria ## 3293.7998 -1.5985 0.3225 La interpretación de los beta estimados es similar a la vista en regresión lineal simple, aunque la estructura de la expresión ya no es una recta como tal. Considerando la salida correspondiente al ejemplo 3.5: \\(\\widehat{\\beta}_0\\): en la salida de R tiene el nombre de Intercept, su interpretación es igual a la vista en regresión lineal, es decir, corresponde al valor esperado de \\(y\\) cuando las covariables tienen un valor nulo (igual a 0). Respecto al ejemplo, se interpreta que, cuando se está en el año 0 y, el valor del Imacec de industria es de 0 puntos, entonces, el valor promedio (o esperado) del Imacec de Minería es de \\(\\widehat{\\beta}_0 = 3293.79\\). Este valor carece de sentido, ya que el Imacec se empezó a utilizar en 1984, por lo que sería recomendable ajustar los años para considerar el tiempo inicial en 0 (1984). \\(\\widehat{\\beta}_j\\): dado un cambio en una unidad de medida de variable \\(x_j\\) (considerando que el resto de covariables se mantiene constante), en promedio, la variable \\(y\\) se ve afectada (aumenta o disminuye) en \\(\\widehat{\\beta}_j\\) unidades. Respecto al ejemplo: \\(\\widehat{\\beta}_1 = -1.598\\): Por cada año que transcurre, el Imacec de Minería disminuye en promedio \\(1.598\\) unidades. Considerando que el resto de covariables se mantiene constante. \\(\\widehat{\\beta}_2 = 0.322\\): Por cada unidad que aumenta el Imacec de Industria, el Imacec de Minería aumenta en promedio \\(0.322\\) unidades. Considerando que el resto de covariables se mantiene constante. Ejercicio 3.21 Utilizando la base de datos Pacientes: Ajuste un modelo para estudiar la presión arterial en reposo, a partir de la edad, frecuencia cardíaca máxima alcanzada y el nivel de colesterol del paciente. Interprete los parámetros estimados. Escriba el modelo poblacional y la ecuación de regresión ajustada. Ejercicio 3.22 Utilizando la base de datos Ingreso: Ajuste un modelo para estudiar la variable Logro a partir de las variables LEN y NEM. Interprete los parámetros estimados. Escriba el modelo poblacional y la ecuación de regresión ajustada. 3.3.2 Covariables cualitativas En un modelo de regresión lineal es posible utilizar variable cualitativas, para ello es necesario usar variables indicadoras que toman los valores 0 o 1 (Kutner et al., 2004). Por ejemplo, consideremos un extracto de la base de datos del Imacec del ejemplo 3.5, el cual contenga únicamente los valores asociados a los meses de enero y febrero. extracto = df[df$Mes %in% c("ene", "feb"),] str(extracto) ## 'data.frame': 10 obs. of 4 variables: ## $ Ano : int 2018 2018 2019 2019 2020 2020 2021 2021 2022 2022 ## $ Mes : chr "ene" "feb" "ene" "feb" ... ## $ Mineria : num 96.5 92.5 92 82.2 94 91.2 92.5 85.9 87.5 81.4 ## $ Industria: num 99.6 93.2 101.9 93.2 100.8 ... Suponiendo que, se desea estudiar el Imacec de Minería a través del Imacec de Industria y el mes de medición, el modelo poblacional es el siguiente: \\[Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Imacec Industria}} + \\beta_2I_{\\text{Mes = febrero}} + \\epsilon\\] La covariable \\(I_{\\text{Mes = febrero}}\\) corresponde a una indicatriz, esta función vale 1 para el mes que se especifica (febrero en este caso) y 0 para el mes que no se observa (la generalización correcta es: 0 para todo valor distinto a febrero). El valor del Mes para el cual la indicatriz vale 0 se llama categoría de referencia. Ajustando el modelo en R se obtiene el siguiente resumen. modelo_con_categorias = lm(Mineria ~ Industria + Mes, data = extracto) summary(modelo_con_categorias) ## ## Call: ## lm(formula = Mineria ~ Industria + Mes, data = extracto) ## ## Residuals: ## Min 1Q Median 3Q Max ## -5.2251 -3.5988 -0.2889 3.3713 5.6703 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 111.086 110.750 1.003 0.349 ## Industria -0.186 1.108 -0.168 0.871 ## Mesfeb -6.920 6.945 -0.996 0.352 ## ## Residual standard error: 4.563 on 7 degrees of freedom ## Multiple R-squared: 0.3722, Adjusted R-squared: 0.1929 ## F-statistic: 2.075 on 2 and 7 DF, p-value: 0.196 Es posible apreciar, que de los betas estimados, el que está asociado a la variable Mes solo corresponde al valor de febrero. En este sentido, la interpretación de \\(\\widehat{\\beta}_2\\) es la siguiente: Cuando el mes de medición es en febrero, el Imacec de Minería es en promedio 6.92 unidades inferior al mes de enero. La ecuación de regresión ajustada es: \\[\\widehat{Y}_{\\text{Imacec Minería}} = 111.086 - 0.186X_{\\text{Imacec Industria}} - 6.920I_{\\text{Mes = febrero}}\\] La forma en la que R selecciona la categoría de referencia es alfanumérica, sin embargo, es posible asignarla manualmente mediante el comando as.factor(). Para modelos que consideren variables con más opciones de categoría, se debe agregar una indicatriz por cada categoría a excepción de la categoría de referencia. Por ejemplo, si consideramos un modelo que estudie el el Imacec de Minería a través del Imacec de Industria y el Mes, siendo está última una variable con tres opciones (marzo, abril y mayo). El modelo poblacional es el siguiente: \\[ Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Imacec Industria}} + \\beta_2I_{\\text{Mes = abril}} + \\beta_3I_{\\text{Mes = mayo}} + \\epsilon \\] Se puede observar, que dado el modelo poblacional planteado, la categoría de referencia de la variable Mes corresponde a marzo. Ejercicio 3.23 Utilizando la base de datos Pacientes, ajuste el siguiente modelo. \\[ Y_{\\text{Logro}} = \\beta_0 + \\beta_1I_{\\text{Sexo = Hombre}} + \\beta_2X_{\\text{NEM}} + \\epsilon \\] Luego, Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Ejercicio 3.24 La base de datos CO2 (propia de R) contiene datos de una experimento sobre la tolerancia al frío de la especie de pasto Echinochloa crus-galli. Las columnas son las siguientes: Plant: Identificador del tipo de planta. Type: Lugar de origen de la planta. Treatment: indica si la planta fue refrigerada (chilled) o no (nonchilled). conc: Concentraciones ambientales de dióxido de carbono (ml/L). uptake: Tasas de absorción de dióxido de carbono (umol/\\(m^2\\) seg) de las plantas. Ajuste el siguiente modelo: \\[ Y_{\\text{uptake}} = \\beta_0 + \\beta_1I_{\\text{Type = Mississippi}} + \\beta_2I_{\\text{Treatment = chilled}} + \\beta_3X_{\\text{conc}} + \\epsilon \\] Luego, Escriba la ecuación de regresión ajustada. Interprete los betas estimados. 3.3.3 Pruebas de hipótesis Las hipótesis de no nulidad asociadas a cada uno de los betas se plantean de la misma forma que se ha visto en el caso de regresión lineal simple. La única diferencia radica en el valor- p de la prueba F-statistic, el cual es diferente al valor-p de la prueba asociada a \\(\\widehat{\\beta}_1\\). Considerando el modelo ajustado en el ejemplo 3.5, la ecuación de regresión ajustada es: \\[ \\widehat{Y}_{\\text{Imacec Minería}} = 3293.79 -1.59X_{\\text{Año}} + 0.32X_{\\text{Imacec Industria}} \\] El resumen del modelo ajustado en R es el siguiente. summary(modelo) ## ## Call: ## lm(formula = Mineria ~ Ano + Industria, data = df) ## ## Residuals: ## Min 1Q Median 3Q Max ## -14.3329 -4.0632 -0.4713 4.8539 12.2941 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 3293.7998 1328.2346 2.480 0.0165 * ## Ano -1.5985 0.6590 -2.426 0.0189 * ## Industria 0.3225 0.1407 2.291 0.0261 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 6.238 on 51 degrees of freedom ## Multiple R-squared: 0.154, Adjusted R-squared: 0.1209 ## F-statistic: 4.643 on 2 and 51 DF, p-value: 0.01405 Respecto a las pruebas de hipótesis de cada uno de los beta, \\[\\begin{equation} \\notag \\begin{split} H_0:&\\beta_j = 0\\\\ H_1:&\\beta_j \\neq 0\\\\ \\end{split} \\end{equation}\\] Se observa, que todos lo betas estimados son significativos considerando una confianza del 95%. De manera similar, se aprecia que el valor-p (0.01405) asociado a la prueba de hipótesis de nulidad conjunta es menor a 0.05, por lo cual, se asume que al menos uno de los beta que acompañan a las covariables es distinto de cero. \\[\\begin{equation} \\notag \\begin{split} H_0:& \\beta_1 = \\ldots = \\beta_k = 0\\\\ H_1:&\\text{ Al menos uno de los beta es distinto de 0}\\\\ \\end{split} \\end{equation}\\] Ejercicio 3.25 Plantear y estudiar las hipótesis asociadas al modelo ajustado en el ejercicio 3.24. Ejercicio 3.26 La base de datos airquality (propia de R) contiene mediciones diarias de la calidad del aire en Nueva York, de mayo a septiembre de 1973. Las columnas son las siguientes: Ozone: Ozono medio en partes por billón. Solar.R: Radiación solar en Langley. Wind: Velocidad promedio del viento en millas por hora. Temp: Temperatura máxima diaria en grados Fahrenheit. Month: Mes de medición. Day: Día de medición. Elimine los datos faltantes de la base de datos utilizando el comando na.omit(). Considere el siguiente modelo \\[ Y_{\\text{Ozone}} = \\beta_0 + \\beta_1X_{\\text{Solar.R}} + \\beta_2X_{\\text{Temp}} + \\beta_3X_{\\text{Wind}} + \\epsilon \\] Luego, Ajuste el modelo R. Escriba la ecuación de regresión ajustada. Interprete los beta estimados. Estudie las hipótesis asociadas a los betas. 3.3.4 Métricas Al igual que en la regresión lineal simple, contamos con los valores de Residual standard error y con el Multiple R-squared. Sin embargo, este último no es óptimo es su interpretación, ya que un modelo de regresión lineal múltiple mientras más covariables utilice, mayor será su \\(R^2\\), aunque estas no sean significativas. Para penalizar esto, se debe observar el Adjusted R-squared, el cual corrige este valor, según la cantidad de covariables que se utilizan en el modelo. Y al igual que para el \\(R^2\\), se desean valores altos, dándose la misma interpretación al valor. Respecto al ejemplo 3.5 la salida de resumen del modelo en R es: # Guardamos el resumen como una variable resumen = summary(modelo) # Consultamos las métricas de manera directa print(c("Error estándar residual" = resumen$sigma, "R cuadrado ajustado" = resumen$adj.r.squared)) ## Error estándar residual R cuadrado ajustado ## 6.2382266 0.1208535 Residual standard error: corresponde a la desviación estándar de los residuos, la cual, toma una valor de 6.238. Este número se utiliza para comparar modelos, prefiriendo aquel que tenga un menor valor. Adjusted R-squared: El valor del \\(R^2\\) ajustado toma una valor de 0.1209, lo cual, indica que un 12.09% del comportamiento (variabilidad) del Imacec de Minería (variable independiente) es explicado por las covariables (es decir, el modelo) a través de una relación lineal múltiple. Este valor, también se suele ocupar para comparar modelos, prefiriéndose un modelo con mayor \\(R^2\\) ajustado. Ejercicio 3.27 Interprete las métricas del modelo desarrollado en el ejercicio 3.26. 3.3.5 Supuestos Al igual que en la regresión lineal simple, lo supuestos a verificar son: Linealidad: se requiere que la relación entre la variable de estudio y cada una de las covariables sea lineal. Sin embargo, cuando se tiene una gran cantidad de covariables es mejor estudiar el gráfico de residuos (eje Y) versus los valores ajustados \\(\\widehat{Y}_i\\) (eje X); se busca que no existan patrones o formas. Normalidad: Los residuos estandarizados tiene distribución normal con media 0 y varianza 1. Procedimiento idéntico al utilizado en la regresión lineal simple. Homocedasticidad: Los residuos estandarizados tienen varianza constante. Procedimiento idéntico al utilizado en la regresión lineal simple. Independencia: Los residuos estandarizados son independientes. Procedimiento idéntico al utilizado en la regresión lineal simple. Por otro lado, aparece un nuevo fenómeno llamado colinealidad entre las variables predictoras (multicolinealidad). La colinealidad indica que las covariables están correlacionadas entre si (correlación lineal). Es normal y esperable que esto suceda en alguna medida con las covariables de una base de datos. El problema surge, cuando hay como mínimo dos variables cuya correlación es fuerte, ya que esto provoca que ambas variables traten de explicar la misma “información” (variabilidad) de la variable respuesta. En temas posteriores, se abordarán técnicas para evitar la ocurrencia de este fenómeno. Ejemplo 3.6 Utilizando el modelo ajustado en el ejemplo 3.5, verifique los supuestos para la regresión construida. modelo = lm(Mineria ~ Ano + Industria, data = df) Linealidad ggplot(data = data.frame("Y_Gorro" = df$Mineria, "Residuos" = residuals(modelo)), aes(x = Residuos, y = Y_Gorro)) + geom_point() + labs(y = "Valores \\n ajustados") Existe un claro patrón lineal, por lo cual, no se estaría cumpliendo con el supuesto de linealidad. Normalidad r_e = rstandard(modelo) # residuos estandarizados shapiro.test(x = r_e) ## ## Shapiro-Wilk normality test ## ## data: r_e ## W = 0.98827, p-value = 0.8738 Haciendo uso de la prueba de hipótesis de Shapiro, se obtiene un valor-p de 0.837, por lo que, considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, se asume normalidad de los residuos. Homocedasticidad df$Valores.ajustados = modelo$fitted.values ggplot(data = df, aes(x = Valores.ajustados, y = r_e)) + geom_point() + geom_hline(yintercept = 0) + labs(x = "Valores ajustados", y = "Residuos estandarizados") No se evidencia patrones en la amplitud de los residuos, por lo que se asume homocedasticidad. Verificamos mediante la prueba de hipótesis correspondiente bptest(formula = Mineria ~ Ano + Industria, data = df) ## ## studentized Breusch-Pagan test ## ## data: Mineria ~ Ano + Industria ## BP = 1.4598, df = 2, p-value = 0.482 Con un valor-p de 0.482 y, considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, se refuerza lo concluido mediante el gráfico. Independencia dwtest(formula = Mineria ~ Ano + Industria, data = df, alternative = "two.sided") ## ## Durbin-Watson test ## ## data: Mineria ~ Ano + Industria ## DW = 1.1949, p-value = 0.0009229 ## alternative hypothesis: true autocorrelation is not 0 Con un valor-p de 0.0009 y, considerando una confianza del 95%, existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que los residuos no son independientes. Ejercicio 3.28 Considere los modelos ajustados en: El ejercicio 3.24. El ejercicio 3.26. Estudie los supuestos del modelo, además escriba las hipótesis asociadas a los supuestos cuando corresponda. 3.4 Selección de variables La selección de métodos le permite especificar cómo se introducen las variables independientes en el análisis. Usando diferentes métodos, puede construir una variedad de modelos de regresión a partir del mismo conjunto de variables. Dentro de las utilidades de usar un método para la selección de variables están: Evitar la colinealidad entre las covaribles. Generar modelos parsimoniosos. A continuación se dan a conocer algunos de los métodos de selección de variables. 3.4.1 Forward Corresponde a un procedimiento de selección de variables paso a paso en el que las variables se ingresan secuencialmente en el modelo. La primera variable considerada para entrar en la ecuación de regresión es la que tiene la mayor correlación positiva o negativa con la variable dependiente. Esta variable se ingresa en la ecuación solo si cumple el criterio de entrada. Si se ingresa la primera variable, la variable independiente que no está en la ecuación y que tiene la mayor correlación parcial se considera a continuación. El procedimiento se detiene cuando no hay variables que cumplan con el criterio de entrada. Los pasos detallados son los siguientes: Sea \\(X_1\\) la primera variable en ingresar al modelo, la que corresponde al predictor con mayor coeficiente de correlación lineal en valor absoluto con la variable respuesta. Ajustar el modelo \\(Y \\sim X_1\\). Si el modelo es significativo, continuar la selección. En caso contrario, reportar el modelo \\(Y = \\beta_0\\). Ajustar el modelo \\(Y \\sim X_1 + X_j\\) para todo \\(j = 2, \\ldots , (p -1)\\). Ingresar al modelo la variable con el mayor estadístico \\(F\\) parcial dado \\(X_1\\) (el menor valor-p) que sea significativo. Si no existen predictores significativos, reportar el modelo \\(Y \\sim X_1\\). Proseguir hasta que: Se llegue a un número predeterminado de predictores en el modelo, o No se obtengan estadísticos \\(F\\) significativos. El estadístico \\(F\\) mencionado en la metodología forward prueba la siguiente hipótesis: \\[\\begin{equation} \\begin{split} H_0 &: \\text{ La correlación parcial entre } X_j \\text{ e } Y, \\text{ dados } X_1, \\ldots , X_{j-1}, \\text{ es igual a cero}\\\\ H_1 &: \\text{ La correlación parcial entre } X_j \\text{ e } Y, \\text{ dados } X_1, \\ldots , X_{j-1}, \\text{ es distinta cero} \\end{split} \\tag{3.14} \\end{equation}\\] Más detalles del funcionamiento de este estadístico en el anexo B.1. Ejemplo 3.7 Considerando el ejercicio 3.15, elabore un modelo para estudiar la proporción de logro obtenida en el diagnóstico de lenguaje, seleccionado las variables independientes mediante el método forward. datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Ingreso%2Buniversidad.csv") # Planteamos un modelo vacío sin covariables, solo intercepto modelo.nulo = lm(Logro ~ 1, data = datos) # Planteamos un modelo con todas las covariables modelo.total = lm(Logro ~ ., data = datos) modelo.final = step(modelo.nulo, # Modelo nulo scope = list(lower = formula(modelo.nulo), # Rango inicial de modelos examinados upper = formula(modelo.total)), # Rango final de modelos examinados direction = "forward", # Método de selección de variables trace = 0, # Si es igual a 0, no imprime todos los modelos que va elaborando, solo imprime el modelo final test = "F") # Estadístico utilizado summary(modelo.final) ## ## Call: ## lm(formula = Logro ~ LEN + NEM + Sexo, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.31796 -0.07033 0.00162 0.07968 0.26073 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -2.960e-01 7.173e-02 -4.126 5.44e-05 *** ## LEN 9.961e-04 1.013e-04 9.833 < 2e-16 *** ## NEM 3.372e-04 8.732e-05 3.861 0.000153 *** ## SexoMujer 2.665e-02 1.644e-02 1.621 0.106621 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.1129 on 196 degrees of freedom ## Multiple R-squared: 0.3775, Adjusted R-squared: 0.3679 ## F-statistic: 39.61 on 3 and 196 DF, p-value: < 2.2e-16 ¿Qué es posible comentar respecto a la inclusión de la variable Sexo en el modelo? Ejercicio 3.29 Considerando el ejercicio 3.24, elabore un modelo para estudiar la tasa de absorción de dióxido de carbono de las plantas, seleccionado las variables independientes mediante el método forward. Interprete los betas estimados, analice las pruebas de hipótesis asociadas a los betas e interprete el \\(R^2\\) ajustado del modelo. Se recomienda aplicar el siguiente código de manera previa: data = CO2 data$Plant = factor(data$Plant, ordered = F) Ejercicio 3.30 Considerando el ejercicio 3.26, elabore un modelo para estudiar la concentración de Ozono en el aire, seleccionado las variables independientes mediante el método forward. Interprete los betas estimados, analice las pruebas de hipótesis asociadas a los betas e interprete el \\(R^2\\) ajustado del modelo. 3.4.2 Backward Al contrario de la metodología forward, la metodología backward realiza una eliminación de variables considerando como punto de partida el modelo que contiene todas las covariables. Los pasos detallados son los siguientes: Ajustar el modelo completo \\((p − 1)\\) veces, de modo de obtener los \\((p − 1)\\) estadísticos \\(F\\) parciales, dado que todas las variables restantes ya están en el modelo. Eliminar el predictor con el menor estadístico \\(F\\) parcial (mayor valor-p) que no sea significativo. En caso de ser todos significativos, reportar el modelo completo. Ajustar el modelo con los \\((p − 2)\\) predictores restantes, de modo de obtener los estadísticos \\(F\\) parciales de cada uno de ellos. Eliminar el predictor con el menor estadístico \\(F\\) parcial (mayor valor-p) que no sea significativo. En caso de ser todos significativos, reportar el modelo con \\((p − 2)\\) predictores. Proseguir hasta que: Se llegue a un número predeterminado de predictores en el modelo, o Todos los estadísticos \\(F\\) parciales sean significativos. El estadístico \\(F\\) es el mismo que el aplicado en la metodología forward. Ejemplo 3.8 Considerando el ejercicio 3.26, elabore un modelo para estudiar la concentración de Ozono, seleccionado las variables independientes mediante el método backward. datos = airquality datos = na.omit(datos) # Planteamos un modelo vacío sin covariables, solo intercepto modelo.nulo = lm(Ozone ~ 1, data = datos) # Planteamos un modelo con todas las covariables modelo.total = lm(Ozone ~ ., data = datos) modelo.final = step(modelo.total, # Modelo total scope = list(lower = formula(modelo.nulo), # Rango inicial de modelos examinados upper = formula(modelo.total)), # Rango final de modelos examinados direction = "backward", # Método de selección de variables trace = 0, # Si es igual a 0, no imprime todos los modelos que va elaborando, solo imprime el modelo final test = "F") # Estadístico utilizado summary(modelo.final) ## ## Call: ## lm(formula = Ozone ~ Solar.R + Wind + Temp + Month, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -35.870 -13.968 -2.671 9.553 97.918 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -58.05384 22.97114 -2.527 0.0130 * ## Solar.R 0.04960 0.02346 2.114 0.0368 * ## Wind -3.31651 0.64579 -5.136 1.29e-06 *** ## Temp 1.87087 0.27363 6.837 5.34e-10 *** ## Month -2.99163 1.51592 -1.973 0.0510 . ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 20.9 on 106 degrees of freedom ## Multiple R-squared: 0.6199, Adjusted R-squared: 0.6055 ## F-statistic: 43.21 on 4 and 106 DF, p-value: < 2.2e-16 Ejercicio 3.31 En un estudio para explicar la tasa máxima de flujo de seis sectores de drenaje después de una tormenta, se desea analizar la relación entre el logaritmo de esta tasa (logq) y los siguientes predictores (contaminacion.txt), a través de un modelo de regresión lineal múltiple: area: área del sector de drenaje. area2: área impermeabilizada. pendiente: pendiente media del sector. largo: largo del flujo. absorbencia: índice de absorbencia de la superficie (0: absorbencia total, 100: no absorbencia). capacidad: capacidad estimada de almacenamiento del suelo. infiltracion: tasa de infiltración del agua en el suelo. lluvia: pulgadas de lluvia caída. tiempo: tiempo en el cual la lluvia excedió 1/4 pulgadas/hora. Determine dos modelos utilizando las metodologías forward y backward. Compare ambos modelos mediante el \\(R^2\\) ajustado. ¿Cuál modelo eligiría para estudiar la varible logq? 3.5 Predicción de observaciones Es natural estar interesado en estudiar nuevas observaciones en un estudio, por ejemplo, si se construye una regresión lineal simple para estudiar el valor de dólar a través del PIB y el ICC, es posible que surja la pregunta ¿cuál será el valor del dólar para una PIB e ICC determinado? (considere que dichos valores del PIB e ICC no se encuentran en la muestra). Para responder a esto, es posible construir un denominado intervalo de predicción. Sin embargo, existe otro tipo de intervalo muy común, denominado intervalo de confianza. La distinción entre estos dos tipos de intervalos es la siguiente (Fahrmeir, 2013, página 125): Un intervalo de predicción es un intervalo asociado con una variable aleatoria aún por observar, con una probabilidad específica de que la variable aleatoria se encuentre dentro del intervalo. Un intervalo de confianza es un intervalo asociado a un parámetro. Se supone que el parámetro no es aleatorio sino desconocido, y el intervalo de confianza se calcula a partir de los datos, con una probabilidad específica de que el intervalo contenga al parámetro. Consideremos la base de datos airquality del ejercicio 3.26. Para visualizar la diferencia entre los dos tipos de intervalos ajustemos una regresión lineal simple para estudiar la tasa de absorción del dióxido de carbono a través de la temperatura. datos = airquality datos = na.omit(datos) modelo = lm(Ozone ~ Temp, data = datos) # Modelo Al momento de obtener la información de los intervalos de confianza y predicción se incluye el valor central del intervalo (el mismo para ambos), además del valor inferior y superior de cada uno. I_confianza = predict.lm(modelo, interval = "confidence") # Intervalos de confianza I_prediccion = predict.lm(modelo, interval = "prediction") # Intervalos de predicción head(I_confianza,3) ## fit lwr upr ## 1 15.77429 8.958438 22.59014 ## 2 27.96984 22.697411 33.24227 ## 3 32.84806 28.001893 37.69423 head(I_prediccion,3) ## fit lwr upr ## 1 15.77429 -32.12231 63.67089 ## 2 27.96984 -19.73159 75.67127 ## 3 32.84806 -14.80814 80.50426 El gráfico 3.3 refleja los dos tipos de intervalo. df_grafico = data.frame("y" = datos$Ozone, "x" = datos$Temp, "Confianza_lower" = I_confianza[,2], "Confianza_upper" = I_confianza[,3], "Prediccion_lower" = I_prediccion[,2], "Prediccion_upper" = I_prediccion[,3]) library(ggplot2) ggplot(data = df_grafico, aes(x = x, y = y)) + geom_point() + geom_smooth(method = "lm", formula = y ~ x, se = FALSE, linewidth = 0.5) + geom_line(aes(x = x, y = Confianza_lower, color = "IC"), linetype = 2) + geom_line(aes(x = x, y = Confianza_upper, color = "IC"), linetype = 2) + geom_line(aes(x = x, y = Prediccion_lower, color = "IP"), linetype = 2) + geom_line(aes(x = x, y = Prediccion_upper, color = "IP"), linetype = 2) + labs(x = "Temperatura" , y = "Ozono", color = "Intervalos") Figura 3.3: Intervalo de confianza y predicción Ahora, para responder a preguntas como ¿cuál sería la concentración de ozono a una temperatura de 90.34 grados Fahrenheit? se debe reportar el intervalo de predicción, el cual, en R, es al 95% de confianza por defecto. # Creamos una nueva base de datos para poder consultar el intervalo de predicción # Se debe tener el cuidado de que las columnas tengan el mismo nombre que base usada # para construir el modelo de regresión lineal aux = data.frame("Temp" = 90.34) # Solo incluimos la(s) variable(s) independiente(s) predict.lm(modelo, newdata = aux, interval = "prediction") ## fit lwr upr ## 1 72.70312 24.71044 120.6958 La salida de R indica, que la predicción de la concentración de ozono asociado a una medición de temperatura de 90.34 grados Fahrenheit sería de 72.70312 partes por billón, mientras que, el intervalo de predicción al 95% de confianza es \\((24.71044, 120.6958)\\). Por otro lado, si se desea conocer el intervalo de confianza asociado a un valor promedio (esperado o ajustado) del ozono asociado a una temperatura de 90.34 grados Fahrenheit, se debe efectuar el siguiente comando. predict.lm(modelo, newdata = aux, interval = "confidence") ## fit lwr upr ## 1 72.70312 65.24199 80.16425 La salida de R indica, que el valor promedio de la concentración de ozono asociado a una medición de temperatura de 90.34 grados Fahrenheit sería de 72.70312 partes por billón, mientras que, el intervalo de confianza al 95% de confianza es \\((65.24199, 80.16425)\\). Ejercicio 3.32 Utilizando la base del ejercicio 3.31 realice lo siguiente: Ajuste en R un modelo de regresión lineal para estudiar el logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) a través de las pulgadas de lluvia caída. Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Elabore un gráfico de dispersión entre la variable dependiente e independiente del modelo de regresión lineal, que contenga los intervalos de confianza y predicción, diferenciándolos por colores. Determine el intervalo de predicción de logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) asociado a una cantidad de lluvia caída de 3.435 pulgadas. Interprete. Determine el intervalo de confianza del valor promedio del logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) asociado a una cantidad de lluvia caída de 3.435 pulgadas. Interprete. Ejercicio 3.33 Las mujeres ocupan aproximadamente la mitad de la población mundial, pero cuando se trata de la fuerza laboral total de un país, el porcentaje de trabajadores masculinos y femeninos rara vez es similar. Esto es aún más prominente para los países en desarrollo y subdesarrollados. Si bien varias razones, como el acceso insuficiente a la educación, las supersticiones religiosas y la falta de infraestructuras adecuadas, son responsables de esta discrepancia, va mucho más allá. Y para mostrar los efectos de múltiples factores socioeconómicos sobre la participación de la mujer en la fuerza laboral total, se ha considerado el porcentaje de empleo femenino en la fuerza laboral total, entre otros. El conjunto de datos (Empleo+femenino.csv) se eligió de una encuesta realizada en la población de Bangladesh. La base de datos contiene los siguientes datos: Year: Año de medición. PerFemEmploy: Relación entre empleo y población (%) de mujeres de 15 años o más. Ratio_MaletoFemale: Relación entre la tasa de participación de mujeres y hombres en la fuerza laboral. La tasa de participación en la fuerza laboral es la proporción de la población de 15 años o más que es económicamente activa. Wage.Salaried: Trabajadores asalariados, mujeres (% del empleo femenino). Los trabajadores asalariados (empleados) son aquellos trabajadores que ocupan el tipo de trabajos definidos como “trabajos de empleo remunerado”. A continuación: Ajuste en R un modelo mediante la metodología forward para estudiar la variable PerFemEmploy. Escriba el modelo poblacional. Escriba el modelo ajustado. Escriba la ecuación de regresión ajustada. Interprete los parámetros estimados. Estudie las pruebas de hipótesis de no nulidad (individual y conjunta). Determine el intervalo de predicción de la variable PerFemEmploy asociada a una tasa de participación de mujeres y hombres en la fuerza laboral igual a 37.543 en el año 2020. Interprete. Determine el intervalo de confianza del valor promedio de la variable PerFemEmploy asociada a una tasa de participación de mujeres y hombres en la fuerza laboral igual a 45.121 en el año 2021. Interprete. Interprete el \\(R^2\\) ajustado. Estudie los supuestos del modelo. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Fahrmeir, L. (2013). Regression: Models, methods and applications. Springer. Healy, K. (2019). Data visualization: A practical introduction. Princeton University Press. Hintze, J. L., & Nelson, R. D. (1998). Violin plots: A box plot-density trace synergism. The American Statistician, 52(2), 181–184. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in r. Springer. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Wasserman, W. (2004). Applied linear regression models (Vol. 4). McGraw-Hill/Irwin New York. Ratner, B. (2009). The correlation coefficient: Its values range between +1/−1, or do they? Journal of Targeting, Measurement and Analysis for Marketing, 17(2), 139–142. https://doi.org/10.1057/jt.2009.5 Rowlingson, B. (2016). Data analysis with r. Springer. Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association, 21(153), 65–66. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley. "],["estimadores.html", "A Estimadores A.1 EMC en RLS A.2 EMC en RLM", " A Estimadores A.1 EMC en RLS El proceso de obtención de los estimadores de mínimos cuadrado en una regresión lineal simple es el siguiente: \\[\\begin{equation} \\begin{split} S(\\beta_0,\\beta_1) &= \\sum_{i=1}^n\\epsilon_i^2 = \\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2 \\end{split} \\tag{A.1} \\end{equation}\\] Para determinar el estimador de \\(\\beta_0\\) se calcula la derivada parcial la función \\(S(\\cdot)\\) respecto a este parámetro. \\[\\begin{equation} \\begin{split} \\frac{\\partial S}{\\partial\\beta_0} &= \\frac{\\partial }{\\partial\\beta_0}\\left(\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2\\right)\\\\ &= \\sum_{i=1}^n 2(Y_i - [\\beta_0 + \\beta_1X_i])(-1)\\\\ &= -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])\\\\ \\end{split} \\tag{A.2} \\end{equation}\\] Igualando a cero y despejando el parámetro, el estimador es: \\[\\begin{equation} \\begin{split} &-2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i]) = 0\\\\ &\\sum_{i=1}^n (Y_i - \\beta_0 - \\beta_1X_i) = 0\\\\ &\\sum_{i=1}^n Y_i - n\\beta_0 - \\beta_1\\sum_{i=1}^nX_i = 0\\\\ &\\sum_{i=1}^n Y_i - \\beta_1\\sum_{i=1}^nX_i = n\\beta_0\\\\ &\\widehat{\\beta}_0 = \\bar{Y} - \\beta_1\\bar{X} \\\\ \\end{split} \\tag{A.3} \\end{equation}\\] Para determinar el estimador de \\(\\beta_1\\) se calcula la derivada parcial la función \\(S(\\cdot)\\) respecto a este parámetro. \\[\\begin{equation} \\begin{split} \\frac{\\partial S}{\\partial\\beta_1} &= \\frac{\\partial }{\\partial\\beta_1}\\left(\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2\\right)\\\\ &= \\sum_{i=1}^n 2(Y_i - [\\beta_0 + \\beta_1X_i])(-X_i)\\\\ &= -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])X_i\\\\ \\end{split} \\tag{A.4} \\end{equation}\\] Igualando a cero. \\[\\begin{equation} \\begin{split} -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])X_i &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\beta_0X_i - \\beta_1X_i^2) &= 0\\\\ \\end{split} \\tag{A.5} \\end{equation}\\] Reemplazamos el estimador obtenido en (A.3). \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n (Y_iX_i - (\\bar{Y} - \\beta_1\\bar{X})X_i - \\beta_1X_i^2) &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i + \\beta_1\\bar{X}X_i - \\beta_1X_i^2) &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) + \\beta_1\\sum_{i=1}^n(\\bar{X}X_i - X_i^2) &= 0\\\\ \\end{split} \\tag{A.6} \\end{equation}\\] Cada una de las sumatorias se puede reescribir de la siguiente manera: \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n(\\bar{X}X_i - X_i^2) &= \\sum_{i=1}^n(\\bar{X}X_i - X_i^2 + \\bar{X}^2 + \\bar{X}X_i - \\bar{X}^2 - \\bar{X}X_i)\\\\ &= \\sum_{i=1}^n(\\bar{X}X_i - X_i^2 + \\bar{X}^2 + \\bar{X}X_i - \\bar{X}^2 - \\bar{X}X_i)\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2 + \\sum_{i=1}^n\\bar{X}(\\bar{X}-X_i)\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2 + 0\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2\\\\ \\end{split} \\tag{A.7} \\end{equation}\\] \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) &= \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i + Y_i\\bar{X} + \\bar{Y}\\bar{X} - Y_i\\bar{X} - \\bar{Y}\\bar{X})\\\\ &= \\sum_{i=1}^n (Y_i(X_i - \\bar{X}) - \\bar{Y}(X_i - \\bar{X})) + \\sum_{i=1}^n(Y_i\\bar{X} - \\bar{Y}\\bar{X}) \\\\ &= \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) + 0 \\\\ &= \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X})\\\\ \\end{split} \\tag{A.8} \\end{equation}\\] Reemplazando (A.7) y (A.8) en la ecuación (A.6), el estimador de \\(\\beta_1\\) es: \\[\\begin{equation} \\begin{split} &\\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) + \\beta_1\\sum_{i=1}^n(\\bar{X}X_i - X_i^2) = 0 \\\\ &\\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) - \\beta_1\\sum_{i=1}^n(X_i -\\bar{X})^2 = 0 \\\\ &\\beta_1\\sum_{i=1}^n(X_i -\\bar{X})^2 = \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) \\\\ &\\widehat{\\beta}_1 = \\frac{\\displaystyle\\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X})}{\\displaystyle\\sum_{i=1}^n(X_i -\\bar{X})^2} \\\\ \\end{split} \\tag{A.9} \\end{equation}\\] Luego, se puede reescribir el estimador de \\(\\beta_0\\) de la siguiente manera: \\[\\begin{equation} \\begin{split} &\\widehat{\\beta}_0 = \\bar{Y} - \\widehat{\\beta}_1\\bar{X} \\\\ \\end{split} \\tag{A.10} \\end{equation}\\] A.2 EMC en RLM El proceso de obtención de los estimadores de mínimos cuadrado en una regresión lineal múltiple corresponde a la minimización de la suma cuadrática de los errores. \\[\\begin{equation} \\begin{split} S(\\beta) = \\epsilon^t\\epsilon &= (Y - X\\beta)^t(Y - X\\beta)\\\\ &= (Y^t - \\beta^tX^t)(Y - X\\beta)\\\\ &= Y^tY - Y^tX\\beta - \\beta^tX^tY + \\beta^tX^tX\\beta\\\\ \\end{split} \\tag{A.11} \\end{equation}\\] Luego, derivando respecto a \\(\\beta\\). \\[\\begin{equation} \\begin{split} \\frac{S(\\beta)}{\\partial \\beta} &= - Y^tX - X^tY + 2X^tX\\beta\\\\ &= - 2X^tY + 2X^tX\\beta\\\\ \\end{split} \\tag{A.12} \\end{equation}\\] Igualando a cero y despejando la matriz \\(\\beta\\). \\[\\begin{equation} \\begin{split} - 2X^tY + 2X^tX\\beta &= 0\\\\ 2X^tX\\beta &= 2X^tY\\\\ X^tX\\beta &= X^tY\\\\ \\widehat{\\beta} &= (X^tX)^{-1}X^tY\\\\ \\end{split} \\tag{A.13} \\end{equation}\\] "],["estadísticos.html", "B Estadísticos B.1 Estadístico F del método de selección Forward", " B Estadísticos B.1 Estadístico F del método de selección Forward El estadístico \\(F\\) utilizado en la metodología forward para la selección de variables de un modelo de regresión lineal múltiple es: \\[\\begin{equation} F = \\displaystyle\\frac{(SCR_{\\text{modelo previo}} - SCR_{\\text{modelo propuesto}})/k}{SCR_{\\text{modelo completo}}/(n-p)} \\sim F_{k, n-p} \\tag{B.1} \\end{equation}\\] donde: \\(SCR_{\\text{modelo incial}}\\): es la suma cuadrática de los errores del modelo inicial (con un parámetro menos que el modelo propuesto). \\(SCR_{\\text{modelo propuesto}}\\): es la suma cuadrática de los errores del modelo con el nuevo predictor incluido. \\(SCR_{\\text{modelo completo}}\\): es la suma cuadrática de los errores del modelo con todos los predictores seleccionados. \\(k\\): es la cantidad de predictores añadidos de un modelo a otro; en este caso corresponde siempre al valor de 1. \\(n\\): cantidad de observaciones. \\(p\\): cantidad de parámetros del modelo completo (betas). La distribución \\(F\\) con \\(n_1\\) y \\(n_2\\) grados de libertad tiene la siguiente función de densidad: \\[\\begin{equation} f(x) = \\frac{\\Gamma(n_1/2+n_2/2)}{\\Gamma(n_1/2)\\Gamma(n_2/2)}\\left(\\frac{n_1}{n_2}\\right)^{n_1/2}x^{n_1/2-1}\\left(1+\\frac{n_1x}{n_2}\\right)^{-(n_1 + n_2)/2}, \\text{ }x>0 \\tag{B.2} \\end{equation}\\] Considerando la base de datos del ejercicio 3.15 y el modelo generado en el ejemplo 3.7: \\[ Y_{\\text{Logro}} = \\beta_0 + \\beta_1X_{\\text{LEN}} + \\beta_2X_{\\text{NEM}} + \\beta_3I_{\\text{Sexo=Mujer}} + \\epsilon, \\text{ } \\epsilon \\sim N(0,\\sigma^2I) \\] El modelo ajustado es datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Ingreso%2Buniversidad.csv") modelo = lm(Logro ~ LEN + NEM + Sexo, data = datos) anova(modelo) ## Analysis of Variance Table ## ## Response: Logro ## Df Sum Sq Mean Sq F value Pr(>F) ## LEN 1 1.26194 1.26194 99.0403 < 2.2e-16 *** ## NEM 1 0.21880 0.21880 17.1721 5.076e-05 *** ## Sexo 1 0.03348 0.03348 2.6277 0.1066 ## Residuals 196 2.49736 0.01274 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 La tabla anova da cuenta del estadístico \\(F\\) asociado a cada covariable a medida que ingresa en el modelo (en orden descendente). El estadístico asociado a cada covariable se calcula manualmente de la siguiente manera: modelo_nulo = lm(Logro ~ 1, data = datos) modelo_propuesto0 = lm(Logro ~ LEN, data = datos) modelo_propuesto1 = lm(Logro ~ LEN + NEM, data = datos) modelo_propuesto2 = lm(Logro ~ LEN + NEM + Sexo, data = datos) # Modelo completo # Estadístico F para la covariable LEN SCR_modeloprevio = sum(residuals(modelo_nulo)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto0)^2) k = 1 n = dim(datos)[1] p = length(modelo_propuesto2$coefficients) # Cantidad de parámetros del modelo completo SCR_modelocompleto = sum(residuals(modelo_propuesto2)^2) F_LEN = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_LEN ## [1] 99.04031 # Estadístico F para la covariable NEM SCR_modeloprevio = sum(residuals(modelo_propuesto0)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto1)^2) F_NEM = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_NEM ## [1] 17.17213 # Estadístico F para la covariable Sexo SCR_modeloprevio = sum(residuals(modelo_propuesto1)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto2)^2) F_Sexo = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_Sexo ## [1] 2.627705 Cada uno de estos estadísticos distribuye \\(F_{1,196}\\). El criterio de rechazo es \\[ F \\geq F_{k, n-p}^{1-\\alpha} \\] El valor-p de cada estadístico es: 1-pf(F_LEN,1,196) ## [1] 0 1-pf(F_NEM,1,196) ## [1] 5.07611e-05 1-pf(F_Sexo,1,196) ## [1] 0.1066211 tal como se aprecia en la salida del comando anova(). "],["referencias.html", "Referencias", " Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Fahrmeir, L. (2013). Regression: Models, methods and applications. Springer. Healy, K. (2019). Data visualization: A practical introduction. Princeton University Press. Hintze, J. L., & Nelson, R. D. (1998). Violin plots: A box plot-density trace synergism. The American Statistician, 52(2), 181–184. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in r. Springer. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Wasserman, W. (2004). Applied linear regression models (Vol. 4). McGraw-Hill/Irwin New York. Micheaux, P. L. de, Drouilhet, R., & Liquet, B. (2013). R and its documentation. In The r software: Fundamentals of programming and statistical analysis (pp. 141–150). Springer New York. https://doi.org/10.1007/978-1-4614-9020-3_6 Peng, R. D. (2016). R programming for data science. Leanpub. https://bookdown.org/rdpeng/rprogdatascience/ Ratner, B. (2009). The correlation coefficient: Its values range between +1/−1, or do they? Journal of Targeting, Measurement and Analysis for Marketing, 17(2), 139–142. https://doi.org/10.1057/jt.2009.5 Rowlingson, B. (2016). Data analysis with r. Springer. Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association, 21(153), 65–66. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley. Wickham, H. (2009). Ggplot2: Elegant graphics for data analysis. Springer. "],["404.html", "Página no encontrada", " Página no encontrada La página que buscas o no existe o no se encuentra disponible. "]] +[["index.html", "Estadística II & Inferencia Estadística Presentación", " Estadística II & Inferencia Estadística Daniel Franzani Actualizado al 18-02-2024 Presentación El curso de Estadística II & Inferencia Estadística, es el segundo curso estadístico de una serie de dos. Estos cursos tienen un enfoque práctico con un fuerte énfasis en la capacidad inferir a partir de conjuntos datos mediante la aplicación de distintas técnicas estadísticas. Este segundo documento, se concentra en pruebas de hipótesis, modelos de regresión lineal simple y múltiple, haciendo uso del programa estadístico R. Enlace al documento del primer curso de Estadística: Estadística I & Estadística Descriptiva. "],["modalidad.html", "Modalidad", " Modalidad La modalidad de trabajo consta de los siguientes elementos: El documento web cuenta con el desarrollo de todos los tópicos de curso, además de ejemplificaciones y ejercicios. En su mayoría, los ejemplos y ejercicios presentes en el documento fueron extraídos de la bibliografía obligatoria, sin embargo, a algunos de estos se ha incorporado el uso de R como programa de análisis estadístico. El desarrollo de los ejercicios por parte del estudiante se recomienda que sea en Google Colab R. Esta plataforma cuenta con una opción de configuración interna para R (desde Google Drive: Nuevo -> Más -> Google Collaboratory, dentro del archivo: Entorno de ejecución -> Cambiar tipo de entorno de ejecución -> Tipo de entorno de ejcución -> R -> Guardar). En el siguiente enlace se puede acceder a un documento con una configuración preestablecida para este lenguaje. El archivo generado se guardará automáticamente en la cuenta de Gmail predeterminada; otra opción en caso de no querer modificar su cuenta predeterminada (si es que debiese hacerlo) es descargar el archivo y cargarlo manualmente en la carpeta de Drive que estime conveniente. Los aspectos relacionados con el uso de R serán abordados en el Taller Introductorio. Se cuenta con talleres de práctica, lo cuales, cuentan con ejercicios propuestos para desarrollar en clases y ejercicios para el trabajo independiente del estudiante. El curso cuenta con bibliografía obligatoria y complementaria: (Obligatoria) “Estadística para Administración y Economía” (Anderson et al., 2008) (Obligatoria,) “Probabilidad y Estadística para Ingeniería y Ciencias” (Devore, 2008) (Complementaria) “R Programming for Data Science” (Peng, 2016) (Complementaria) “The R Software: Fundamentals of Programming and Statistical Analysis” (Micheaux et al., 2013) (Complementaria) “ggplot2: Elegant Graphics for Data Analysis” (Wickham, 2009) Además, se añaden citas que refuerzan el contenido presentando, las cuales se encuentra en detalle al final de cada sección. Las bases de datos a utilizar en el curso se encuentran disponibles en un repositorio web público. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Micheaux, P. L. de, Drouilhet, R., & Liquet, B. (2013). R and its documentation. In The r software: Fundamentals of programming and statistical analysis (pp. 141–150). Springer New York. https://doi.org/10.1007/978-1-4614-9020-3_6 Peng, R. D. (2016). R programming for data science. Leanpub. https://bookdown.org/rdpeng/rprogdatascience/ Wickham, H. (2009). Ggplot2: Elegant graphics for data analysis. Springer. "],["talleres-de-práctica.html", "Talleres de práctica", " Talleres de práctica A continuación, se muestra una lista de los talleres disponibles: Taller de práctica 1 Taller de práctica 2 Taller de práctica 3 Taller de práctica 4 Taller de práctica 5 Taller de práctica 6 Taller de práctica 7 Taller de práctica 8 Taller de práctica 9 Taller de práctica Evaluación 1 Taller de práctica Evaluación 2 Taller de práctica Examen "],["intervalos-de-confianza.html", "Unidad 1 Intervalos de confianza 1.1 Concepto 1.2 Intervalo de confianza para la media 1.3 Intervalo de confianza para la diferencia de medias 1.4 Intervalo de confianza para la comparación de varianzas", " Unidad 1 Intervalos de confianza Las bases de datos que se trabajarán en esta unidad son las siguientes: Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") Control cuotas: Contiene los datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Plan Vital y Provida. Las columnas de la base de datos son las siguientes: Plan.Vital: contiene los valores cuota en pesos de la AFP Plan Vital de un APV de fondo A. Provida: contiene lo valores cuota en pesos de la AFP Provida de un APV de fondo A. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/control%2Bcuotas.csv") 1.1 Concepto La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media de los chilenos, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el valor del reajuste del IPC del próximo año) pero no nos indica el error que se comete en dicha estimación. (Devore, 2008, página 254) Lo razonable, en la práctica, es adjuntar junto a la estimación puntual del parámetro, un margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza. Un intervalo de confianza para un parámetro con un nivel de confianza de \\(1-\\alpha\\) (el cual debe elegir el investigador), es un intervalo de extremos aleatorios \\((L,U)\\) que con probabilidad \\(1-\\alpha\\) contiene al parámetro. \\[ P(\\text{Parámetro} \\in (L,U)) = 1-\\alpha \\] En la estimación por intervalos de confianza partimos de una muestra \\(x_1,\\ldots,x_n\\), de lo cuales obtenemos un un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del \\(90\\%\\), la estatura media de los chilenos (parámetro poblacional) está contenida por el intervalo \\((1.80, 1.84)\\) metros, o , la probabilidad de que el intervalo \\((1.80,1.84)\\) contenga al valor real de la estatura media de los chilenos en metros es de \\(0.9\\). 1.1.1 Elaboración Cuando trabajamos con bases de datos (o cualquier conjunto de datos), se supone que las observaciones muestrales reales \\(x_1,\\ldots , x_n\\) son el resultado de una muestra aleatoria \\(X_1,\\ldots , X_n\\) tomada de una distribución normal con valor medio \\(\\mu\\) y desviación estándar \\(\\sigma\\). Los resultados de la última unidad del curso de Estadística I (Distribución de la media) implican que independientemente del tamaño de la muestra (\\(n\\)), la media muestral \\(\\bar{X}\\) está normalmente distribuida con valor esperado \\(\\mu\\) y desviación estándar \\(\\sigma/\\sqrt{n}\\). Si se estandariza el promedio se obtiene la variable normal estándar \\[\\begin{equation} Z = \\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\sim N(\\mu = 0,\\sigma^2=1) \\tag{1.1} \\end{equation}\\] Luego, en caso de estar interesado en construir un intervalo (bilateral) de confianza para la media con una determinada confianza, se debe plantear de la siguiente forma: \\[\\begin{equation} P\\left( Z_{\\alpha/2} < Z < Z_{1-\\alpha/2}\\right) = 1-\\alpha \\tag{1.2} \\end{equation}\\] En la expresión (1.2), \\(Z_{\\alpha/2}\\) y \\(Z_{1-\\alpha/2}\\) son los puntos de cortes en el eje \\(X\\) alrededor del 0, para los cuales, el área bajo la curva (probabilidad) de la función de densidad de la distribución normal estándar es igual a \\(1-\\alpha\\), tal como se muestra en la figura 1.1. En este sentido, para la figura planteada, los puntos de corte se traducen en las siguientes expresiones. \\[Z_{\\alpha/2} = x : P(Z \\leq x) = \\alpha/2\\] \\[Z_{1-\\alpha/2} = x : P(Z \\leq x) = 1-\\alpha/2\\] Figura 1.1: Curva Z, Normal Estándar Luego, reemplazando el valor de \\(Z\\) por (1.1) en la ecuación (1.2), y despejando el valor \\(\\mu\\) al interior de la probabilidad, se obtiene la siguiente expresión. \\[\\begin{equation} P\\left( \\overline{X} + Z_{\\alpha/2}\\frac{\\sigma}{\\sqrt{n}} < \\mu < \\overline{X} + Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}}\\right) = 1-\\alpha \\tag{1.3} \\end{equation}\\] o \\[\\begin{equation} P\\left( \\overline{X} - Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}} < \\mu < \\overline{X} + Z_{1-\\alpha/2}\\frac{\\sigma}{\\sqrt{n}}\\right) = 1-\\alpha \\tag{1.4} \\end{equation}\\] La desigualdad dentro de la probabilidad es el intervalo de confianza construido para la media poblacional, mientras que, el término a la derecha de la igualdad corresponde a la confianza trabajada por el investigador (\\(1-\\alpha\\)). En la sección 2 se dará a conocer en mayor profundidad el concepto de confianza y significancia (\\(\\alpha\\)). La forma de construir un intervalo de confianza para un determinado parámetro es distinta en todos los casos, en particular, debido a la suposiciones con las que se trabaja. Por ejemplo, para expresión desarrollada en (1.3) es necesario suponer que se conoce la varianza poblacional de los datos, algo que puedo o no ocurrir en la realidad. Por último, cabe mencionar, que existen otros tipos de intervalos, si bien el que se ha mostrado hasta el momento es un intervalo que tiene tanto una cota inferior como superior, existen otros tipos de intervalos que son solo tienen una cota (o superior o inferior). A continuación, se dan a conocer intervalos de confianza para estimar la media poblacional, la diferencia de medias poblacionales y la comparación de varianzas, omitiendo los procesos de construcción. 1.2 Intervalo de confianza para la media 1.2.1 Intervalo de confianza para la media de una distribución normal y varianza poblacional conocida Tabla 1.1: Intervalos de confianza para la media de una distribución normal y varianza poblacional conocida Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu < b) = 1-\\alpha\\) \\(\\left(\\bar{x} \\pm Z_{1-\\alpha/2}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\) Acotado por la derecha \\(P(\\mu < b)=1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} + Z_{1-\\alpha}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu)=1-\\alpha\\) \\(\\left(\\bar{x} - Z_{1-\\alpha}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}, \\infty\\right)\\) Ejemplo 1.1 Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal que se seleccionaron de una proceso de llenado con el propósito de verificar el peso promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es una variable aleatoria normal con una desviación estándar \\(\\sigma = 5g\\), obtener el intervalo de confianza al 99% para la media de llenado de este proceso. Nota: \\(\\bar{x} = 503.75\\) Dado que, no se especifica el tipo de intervalo, y que se está interesado es el estudiar la media del llenado de las cajas de cereal, corresponde elaborar un intervalo de confianza bilateral: \\[\\left(\\bar{x} \\pm Z_{1-\\alpha/2}\\displaystyle\\frac{\\sigma}{\\sqrt{n}}\\right)\\] No existe un comando de R (nativo) para elaborar este intervalo, por lo que, la construcción debe ser manual, tal como se muestra a continuación. peso = c(506,508,499,503,504,510,497,512, 514,505,493,496,506,502,509,496) promedio = mean(peso) L = promedio - qnorm(1-0.01/2)*5/sqrt(length(peso)) U = promedio + qnorm(1-0.01/2)*5/sqrt(length(peso)) c(L,U) ## [1] 500.5302 506.9698 El resultado indica que, la probabilidad de que el intervalo \\((500.5, 506.9)\\) (en gramos) contenga el valor de la media de llenado de las cajas es de 0.99. Ejercicio 1.1 Obtener los intervalos con las confianzas al 90% y 95% asociados al ejemplo 1.1. Comente las diferencias e interprete. 1.2.2 Intervalo de confianza para la media de una distribución normal y varianza poblacional desconocida Tabla 1.2: Intervalos de confianza para la media de una distribución normal y varianza poblacional desconocida Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu < b) = 1-\\alpha\\) \\(\\left(\\bar{x} \\pm t_{1-\\alpha/2,n-1}\\displaystyle\\frac{S}{\\sqrt{n}} \\right)\\) Acotado por la derecha \\(P(\\mu < b)=1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} + t_{1-\\alpha,n-1}\\displaystyle\\frac{S}{\\sqrt{n}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu)=1-\\alpha\\) \\(\\left(\\bar{x} - t_{1-\\alpha,n-1}\\displaystyle\\frac{S}{\\sqrt{n}}, \\infty\\right)\\) Ejemplo 1.2 Para resolver el ejemplo 1.1 considerando varianza poblacional desconocida, es posible utilizar el comando t.test() para obtener el intervalo de confianza. \\[\\left(\\bar{x} \\pm t_{1-\\alpha/2,n-1}\\displaystyle\\frac{S}{\\sqrt{n}} \\right)\\] peso = c(506,508,499,503,504,510,497,512, 514,505,493,496,506,502,509,496) t.test(x = peso, conf.level = 0.99, alternative = "two.sided") ## ## One Sample t-test ## ## data: peso ## t = 324.89, df = 15, p-value < 2.2e-16 ## alternative hypothesis: true mean is not equal to 0 ## 99 percent confidence interval: ## 499.181 508.319 ## sample estimates: ## mean of x ## 503.75 En este sentido, se tiene una probabilidad de 0.99 de que el intervalo \\((499.1, 508.3)\\) contenga el valor de la media de llenado de las cajas de cereal. Ejercicio 1.2 Utilizando la base de datos del Imacec: Elabore un intervalo de confianza para estudiar el valor promedio del Imacec en el sector de Minería en los años 2019 y 2021, asumiendo que el Imacec de Minería es una variable aleatoria que distribuye normal. Utilice una confianza de 91%. Interprete. Elabore un intervalo de confianza para estudiar si, el valor promedio del Imacec en el sector de Industria en los años 2019 y 2021 es mayor a 100, asumiendo que el Imacec de Industria es una variable aleatoria que distribuye normal. Utilice una confianza de 91%. Interprete. 1.3 Intervalo de confianza para la diferencia de medias 1.3.1 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales conocidas Tabla 1.3: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales conocidas Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm Z_{1-\\alpha/2}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + Z_{1-\\alpha}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - Z_{1-\\alpha}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}, \\infty\\right)\\) Ejemplo 1.3 La base de datos dolar.csv contiene los datos asociados al tipo de cambio del dólar. Las columnas de la base de datos son las siguientes: Mes: mes de medición. Dia: día de medición. Valor: tipo de cambio del dólar a pesos (clp). Elabore un intervalo de confianza para estudiar la diferencia del valor promedio del dólar entre los meses de junio y julio, asumiendo distribución normal de los datos en ambas poblaciones, y varianzas poblacionales de 1250 y 580 para cada mes respectivamente. Al conocer las varianzas poblacionales, y querer estudiar la diferencia, corresponde elaborar el siguiente intervalo de confianza. Asumiendo una confianza del 95%. \\[\\left(\\bar{x} - \\bar{y} \\pm Z_{1-\\alpha/2}\\displaystyle\\sqrt{\\displaystyle\\frac{\\sigma^2_X}{n_x} + \\displaystyle\\frac{\\sigma^2_Y}{n_y}}\\right)\\] No existe un comando en R que permita generar este intervalo de confianza, por lo que corresponde construirlo manualmente, tal como se muestra a continuación. # Se carga la base datos, la cual, se usará en ejemplos posteriores. df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/dolar.csv") junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] L = mean(junio) - mean(julio) - qnorm(1-0.05/2)* sqrt(1250/length(junio) + 580/length(julio)) U = mean(junio) - mean(julio) + qnorm(1-0.05/2)* sqrt(1250/length(junio) + 580/length(julio)) c(L,U) ## [1] -103.85536 -65.70453 El resultado indica que, la probabilidad de que el intervalo \\((-103.8, -65.7)\\) (en pesos) contenga al valor real de la diferencia entre ambas medias es de 0.95. 1.3.2 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales desconocidas e iguales Tabla 1.4: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales desconocidas e iguales Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + t_{1-\\alpha,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - t_{1-\\alpha,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_x} + \\displaystyle\\frac{1}{n_y}}, \\infty\\right)\\) donde, \\[k = n_X + n_Y-2\\] \\[S_p^2 = \\frac{(n_X-1)S_X^2 + (n_Y-1)S_Y^2}{n_X+n_Y-2}\\] Ejemplo 1.4 Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo promedio que les toma a los estudiantes el trámite de inscripción. En cada universidad se anotaron los tiempo de inscripción para 30 alumnos seleccionados al azar. Las medias y las desviaciones estándar muestrales son las siguientes: \\[\\begin{equation} \\notag \\begin{matrix} \\bar{x}_1 = 50.2 & \\bar{x}_2=52.9\\\\ S_1 = 4.8 & S_2 = 5.4 \\end{matrix} \\end{equation}\\] Si se supone que el muestreo se llevó a cabo sobre dos poblaciones distribuidas normales e independientes con varianzas iguales , obtener el intervalo de confianza estimado del 90% para la diferencia entre las medias del tiempo de inscripción para las dos universidades. Con base en este evidencia, ¿se estaría inclinando a concluir que existe una diferencia real entre los tiempos medios para cada universidad? Para responder a la pregunta, es necesario construir un intervalo de confianza para la diferencia de medias y, verificar si el cero está incluido dentro de este. El desarrollo del intervalo debe ser manual, ya que, no se cuenta con una base de datos, sino que directamente con los promedios y desviaciones estándar de las muestras. \\[\\begin{equation} \\notag \\begin{split} &\\left(\\bar{x}_1 - \\bar{x}_2 \\pm t_{1-\\alpha/2,k}S_p\\displaystyle\\sqrt{\\displaystyle\\frac{1}{n_{X_1}} + \\displaystyle\\frac{1}{n_{X_2}}}\\right) = \\left(-6.208;0.808 \\right)\\\\ S_p^2 &= \\frac{(n_{X_1}-1)S_{X_1}^2 + (n_{X_2}-1)S_{X_2}^2}{n_{X_1}+n_{X_2}-2} = \\frac{29\\cdot 4.8^2 + 29\\cdot 5.4^2}{58} = 26.1\\\\ k &= n_{X_1} + n_{X_2}-2 = 58 \\text{, } t_{0.995, 58} = 2.66\\\\ \\end{split} \\end{equation}\\] Como el intervalo contiene al cero, no existe suficiente evidencia para indicar que existe una diferencia real entre los tiempos medios para cada universidad, con un 90% de confianza. Ejercicio 1.3 La base de datos Control cuotas contiene los datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Plan Vital y Provida. Se está interesado en saber si el valor promedio de las cuotas de Plan Vital superan al de Provida por más de 30000 pesos, para ello, elabore un intervalo de confianza, considerando una confianza del 90%. Asuma, que el valor cuota es una variable aleatoria que distribuye normal en ambas poblaciones (independientes), y que las varianzas poblacionales son desconocidas e iguales. 1.3.3 Intervalo de confianza para la diferencia de medias de dos distribuciones normales y varianzas poblacionales desconocidas y distintas Tabla 1.5: Intervalos de confianza para la diferencia de medias de dos distribucones normales y varianzas poblacionales desconocidas y distintas Tipo de intervalo Probabilidad Expresión del intervalo Bilateral \\(P(a < \\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\) Acotado por la derecha \\(P(\\mu_X - \\mu_Y < b) = 1-\\alpha\\) \\(\\left( -\\infty, \\bar{x} - \\bar{y} + t_{1-\\alpha,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\) Acotado por la izquierda \\(P(a < \\mu_X - \\mu_Y) = 1-\\alpha\\) \\(\\left(\\bar{x} - \\bar{y} - t_{1-\\alpha,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}, \\infty\\right)\\) dónde \\(k\\) es el entero más cercano a \\[\\frac{(S_X^2/n_X + S_Y^2/n_Y)^2}{(S_X^2/n_X)^2/(n_X-1) + (S_Y^2/n_Y)^2/(n_Y-1)}\\] Ejemplo 1.5 Resuelva el ejemplo 1.3 asumiendo varianzas poblacionales desconocidas y diferentes. Al asumir que las varianzas poblacionales son desconocidas y diferentes, corresponde elaborar el siguiente intervalo. \\[\\left(\\bar{x} - \\bar{y} \\pm t_{1-\\alpha/2,k}\\sqrt{S^2_X/n_X + S^2_Y/n_Y}\\right)\\] La ejecución en R es mediante el comando t.test() considerando el argumento var.equal = F, el cual, indica que las varianzas poblacionales son desconocidas y distintas (por defecto el valor de este argumento es F, es decir, se asume que las varianzas poblacionales son desconocidas y distintas). Además, se asume una confianza del 95%. junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] t.test(x = junio, y = julio, conf.level = 0.95, var.equal = F) ## ## Welch Two Sample t-test ## ## data: junio and julio ## t = -8.793, df = 33.349, p-value = 3.338e-10 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -104.38837 -65.17152 ## sample estimates: ## mean of x mean of y ## 857.7695 942.5494 El resultado indica que, la probabilidad de que el intervalo \\((-104.3, -65.17)\\) (en pesos) contenga al valor real de la diferencia entre ambas medias es de 0.95. Ejercicio 1.4 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar si, la media del Imacec del sector de minería es menor que el del sector de industria en el periodo 2019-2020. Asuma que, las distribuciones poblacionales son normales e indendientes, y que las varianzas poblacionales son desconocidas y distintas. Utilice una confianza del 96%. Interprete. 1.4 Intervalo de confianza para la comparación de varianzas En este caso, se estará interesado el siguiente intervalo, ya que, es el fundamental para determinar la igualdad de las varianzas. \\[\\begin{equation} \\notag \\begin{split} P\\left(a<\\frac{\\sigma_Y^2}{\\sigma_X^2}<b\\right) = 1-\\alpha &\\Rightarrow \\left( F_1\\frac{S_Y^2}{S_X^2},F_2\\frac{S_Y^2}{S_X^2} \\right)\\\\ & F_1 = \\frac{1}{f_{1-\\alpha/2,n_Y-1,n_X-1}}\\\\ & F_2 = f_{1-\\alpha/2,n_X-1,n_Y-1} \\end{split} \\end{equation}\\] Ejemplo 1.6 Utilizando la base de datos dolar.csv, elabore un intervalo de confianza para el cociente de la variabilidad del valor del dólar entre los meses de junio y julio, asumiendo que las distribuciones poblacionales son normales e independientes Para estudiar o comparar varianzas, corresponde elaborar el único intervalo especificado en esta sección. \\[\\left( F_1\\frac{S_Y^2}{S_X^2},F_2\\frac{S_Y^2}{S_X^2} \\right)\\] La ejecución en R, considerando una confianza del 95% es la siguiente. junio = df$Valor[df$Mes=="Junio"] julio = df$Valor[df$Mes=="Julio"] var.test(x = junio, y = julio, conf.level = 0.95) ## ## F test to compare two variances ## ## data: junio and julio ## F = 2.2409, num df = 19, denom df = 17, p-value = 0.1004 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 95 percent confidence interval: ## 0.8510277 5.7522904 ## sample estimates: ## ratio of variances ## 2.240867 Dado que, la probabilidad asociada a este intervalo de confianza contiene al cociente de las varianzas poblacionales, para determinar si existe o no diferencia entre estos parámetros se debe verificar si el 1 está dentro o no del intervalo. En caso de que el 1 esté dentro del intervalo, entonces, se asume que las varianzas poblacionales son iguales. En este sentido, el intervalo asociado al ejemplo es \\((0.8, 5.7)\\), el cual, contiene al 1. Por lo tanto, se asume que las varianzas del valor del dólar de ambos meses es igual, con un 95% de confianza. Ejercicio 1.5 Considerando el ejercicio 1.3, elabore un intervalo de confianza para la comparación de varianzas de ambas poblaciones. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 93.2%. Interprete. Ejercicio 1.6 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para comparar la variabilidad (varianza) del valor del Imacec entre ambos sectores. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 90%. Interprete. Ejercicio 1.7 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar la diferencia la media del Imacec de ambos sectores. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 92%. Interprete. Ejercicio 1.8 Utilizando la base de datos del Imacec, elabore un intervalo de confianza para estudiar si, el promedio del Imacec de minería es mayor al de industria por al más de 2 unidades. Asuma, que las distribuciones poblacionales son normales e independientes. Utilice una confianza del 97%. Interprete. Referencias Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. "],["PH.html", "Unidad 2 Pruebas de hipótesis 2.1 Concepto 2.2 Pruebas de hipótesis para la media 2.3 Pruebas de hipótesis para la diferencia de medias 2.4 Prueba de hipótesis para comparación de varianzas 2.5 Prueba de hipótesis para la diferencia de proporciones", " Unidad 2 Pruebas de hipótesis En general, las bases de datos que se trabajarán en esta sección son las siguientes: Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") ICC: Contiene registros del Índice de Confianza del Consumidor (ICC). Este indicador de confianza del consumidor proporciona una indicación de la evolución futura del consumo y el ahorro de los hogares. Un indicador por encima de 100 señala un aumento en la confianza de los consumidores hacia la situación económica futura, como consecuencia de la cual son menos propensos a ahorrar y más inclinados a gastar dinero en compras importantes en los próximos 12 meses. Los valores por debajo de 100 indican una actitud pesimista hacia la evolución futura de la economía, lo que posiblemente resulte en una tendencia a ahorrar más y consumir menos. Las variables que contiene la base de datos son las siguientes: Locacion: lugar en donde se mide el ICC (FRA = Francia, POL = Polonia, OECD = OCDE, ESP = España, BEL = Bélgica, ITA = Italia, DEU = Alemania). Mes: corresponde al mes en el que se realiza la medición del índice. Ano: corresponde al año en el que se realiza la medición del índice. ICC: valor del índice de confianza del consumidor. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/consumidor.csv") 2.1 Concepto Una hipótesis estadística o simplemente hipótesis es una pretensión o aseveración sobre el valor de un solo parámetro (característica de la población o característica de una distribución de la población) o sobre los valores de varios parámetros (Devore, 2008, página 285) (Anderson et al., 2008, página 340). En cualquier cualquier problema de prueba de hipótesis, existen dos hipótesis contradictorias consideradas, la hipótesis nula y la alternativa. La hipótesis nula denotada por \\(H_0\\), es la pretensión de que inicialmente se supone cierta (la pretensión de “creencia previa”). La hipótesis alternativa denotada por \\(H_1\\) (o \\(H_a\\)), es la aseveración contradictoria a \\(H_0\\). La hipótesis nula será rechazada en favor de la hipótesis alternativa solo si la evidencia muestral sugiere que \\(H_0\\) es falsa. Si la muestra no contradice fuertemente a \\(H_0\\), se continuará creyendo en la verdad de la hipótesis nula. Las dos posibles conclusiones derivadas de un análisis de prueba de hipótesis son entonces rechazar \\(H_0\\) o no rechazar \\(H_0\\). 2.1.1 Elaboración En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y alternativa. Se debe tener cuidado en estructurar la hipótesis apropiadamente de manera que la conclusión de la prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar las decisiones desea. A partir de la situación, las pruebas de hipótesis pueden tomar tres formas (tabla 2.1), las cuales se diferencian en el desigualdad o igualdad empleada en la hipótesis alternativa. Tabla 2.1: Planteamiento de las pruebas de hipótesis Caso 1 Caso 2 Caso 3 \\(H_0: \\theta = \\theta_0\\) \\(H_0: \\theta = \\theta_0\\) \\(H_0: \\theta = \\theta_0\\) \\(H_1: \\theta \\neq \\theta_0\\) \\(H_1: \\theta > \\theta_0\\) \\(H_1:\\theta < \\theta_0\\) En diversas ocasiones, \\(H_1\\) se conoce como la “hipótesis del investigador”, puesto que es la pretensión que al investigador en realidad le gustaría validar. La palabra nulo “significa sin valor”, lo que sugiere que \\(H_0\\) es identificada como la hipótesis de ningún cambio. Ejemplo 2.1 Considérese, que el 10% de todas las tarjetas de circuito producidas por un cierto fabricante durante un periodo de tiempo reciente estaban defectuosas. Un ingeniero ha sugerido un cambio en el proceso de producción en la creencia de que dará por resultado una proporción reducida del proceso cambiado. La hipótesis alternativa (posición del investigador) es \\(H_1: p <0.10\\), la pretensión de que la modificación del procesos redujo la proporción de las tarjetas defectuosas. Una opción natural para \\(H_0\\) en esta situación es la pretensión contraria a la establecida en \\(H_1\\), es decir, \\(p\\geq 0.1\\). En su lugar se considera \\(H_0: p = 0.1\\) contra \\(H_1: p < 0.1\\), tal como se expuso en la tabla anterior. Ejercicio 2.1 El gerente de Danvers-Hilton Resort afirma que la cantidad media que gastan los huéspedes en un fin de semana es menos de \\(\\$600\\) dólares. Un miembro del equipo de contadores observó que en los últimos meses habían aumentado tales cantidades. El contador emplea una muestra de cuentas de fin de semana para probar la afirmación del gerente. ¿Qué forma de hipótesis deberá usar para probar la afirmación del gerente? Explique. Caso 1 Caso 2 Caso 3 \\(H_0: \\mu = 600\\) \\(H_0: \\mu = 600\\) \\(H_0: \\mu = 600\\) \\(H_1: \\mu \\neq 600\\) \\(H_1: \\mu > 600\\) \\(H_1:\\mu < 600\\) ¿Cuál es la conclusión apropiada cuando no se puede rechazar la hipótesis nula \\(H_0\\)? ¿Cuál es la conclusión apropiada cuando se puede rechazar la hipótesis nula \\(H_0\\)? Ejercicio 2.2 El gerente de un negocio de venta de automóviles está pensando en un nuevo plan de bonificaciones, con objeto de incrementar el volumen de ventas. Al presente, el volumen medio de ventas es 14 automóviles por mes. El gerente desea realizar un estudio para ver si el plan de bonificaciones incrementa el volumen de ventas. Para recolectar los datos, una muestra de vendedores venderá durante un mes bajo el nuevo plan de bonificaciones. Dé las hipótesis nula y alternativa más adecuadas para este estudio. Comente la conclusión resultante en el caso en que \\(H_0\\) no pueda rechazarse. Comente la conclusión que se obtendrá si \\(H_0\\) puede rechazarse. Ejercicio 2.3 Debido a los costos y al tiempo de adaptación de la producción, un director de fabricación antes de implantar un nuevo método de fabricación, debe convencer al gerente de que ese nuevo método de fabricación reducirá los costos. El costo medio del actual método de producción es \\(\\$220\\) por hora. En un estudio se medirá el costo del nuevo método durante un periodo muestral de producción, Dé las hipótesis nula y alternativa más adecuadas para este estudio. Haga un comentario sobre la conclusión cuando \\(H_0\\) no pueda rechazarse. Dé un comentario sobre la conclusión cuando \\(H_0\\) pueda rechazarse. 2.1.2 Errores tipo I y II Las hipótesis nula y alternativa son afirmaciones opuestas acerca de la población. Una de las dos, ya sea la hipótesis nula o la alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de hipótesis lleve a la aceptación de \\(H_0\\) cuando \\(H_0\\) sea verdadera y al rechazo de \\(H_0\\) cuando \\(H_1\\) sea verdadera. Por desgracia, las conclusiones correctas no siempre son posibles. Como la prueba de hipótesis se basa en una información muestral debe tenerse en cuenta que existe la posibilidad de error. Los dos tipos de errores que se pueden cometer son: Error tipo I: Rechazar \\(H_0\\) cuando \\(H_0\\) es verdadera. Error tipo II: No rechazar \\(H_0\\) cuando \\(H_0\\) es falsa. Es posible el error que se desea cometer, es decir, es posible establecer la probabilidad de cometer un error tipo I o II, pero no ambos. El nivel de significancia es la probabilidad de cometer un error tipo I cuando la hipótesis nula es verdadera. Para denotar el nivel de significancia se usa la letra griega \\(\\alpha\\), y los valores que se suelen usar para \\(\\alpha\\) con 0.05 y 0.01. Ejemplo 2.2 Walter Williams, columnista y profesor de economía en la universidad George Mason indica que siempre existe la posibilidad de cometer un error tipo I o un error tipo II al tomar una decisión (The Cincinnati Enquirer, 14 de agosto de 2005). Hace notar que la Food and Drug Administration corre el riesgo de cometer estos errores en sus procedimientos para la aprobación de medicamentos. Cuando comete un error tipo I, la FDA no aprueba un medicamento que es seguro y efectivo. Al cometer un error tipo II, la FDA aprueba un medicamento que presenta efectos secundarios imprevistos. Sin importar la decisión que se tome, la probabilidad de cometer un error costoso no se puede eliminar. Ejercicio 2.4 Nielsen informó que los hombres jóvenes estadounidenses ven diariamente 56.2 minutos de televisión en las horas de mayor audiencia (The Wall Street Journal Europe, 18 de noviembre de 2003). Un investigador cree que en Alemania, los hombres jóvenes ven más tiempo la televisión en las horas de mayor audiencia. Este investigador toma una muestra de hombres jóvenes alemanes y registra el tiempo que ven televisión en un día. Los resultados muestrales se usan para probar las siguientes hipótesis nula y alternativa. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu = 56.2\\\\ H_1&: \\mu > 56.2\\\\ \\end{split} \\end{equation}\\] En esta situación, ¿cuál es el error tipo I? ¿Qué consecuencia tiene cometer este error? En esta situación, ¿cuál es el error tipo II? ¿Qué consecuencia tiene cometer este error? Ejercicio 2.5 Suponga que se va a implantar un nuevo método de producción si mediante una prueba de hipótesis se confirma la conclusión de que el nuevo método de producción reduce el costo medio de operación por hora. Dé las hipótesis nula y alternativa adecuadas si el costo medio de producción actual por hora es \\(\\$220\\). En esta situación, ¿cuál es el error tipo I? ¿Qué consecuencia tiene cometer este error? En esta situación, ¿cuál es el error tipo II? ¿Qué consecuencia tiene cometer este error? 2.1.3 Procedimiento de prueba Un procedimiento de prueba es un regla, basada en datos muestrales, para decidir si rechazar \\(H_0\\). Este proceso consta de dos elementos: Estadístico de prueba: Función de los datos muestrales en los cuales ha de basarse la decisión. Región de rechazo: Conjunto de todos los valores estadísticos de prueba por los cuales \\(H_0\\) será rechazada. Para decidir si \\(H_0\\) es finalmente rechazada es posible ocupar dos métodos. Método del valor p Un valor-p es una probabilidad que porta a una medida de evidencia suministrada por la muestra contra la hipótesis nula. Valores pequeños indican una evidencia mayor contra la hipótesis nula. Además de representar un probabilidad, el valor-p puede ser vista como una porción de área bajo la curva. La figura 2.1 muestra la relación entre los distintos elementos ya mencionados. La curva corresponde a la función de probabilidad de los datos. Los valores centrales son aquellos que son más probables de observar (parte más alta de la curva), mientras que los valores extremos (derecha e izquierda) son los menos probables de observar. El punto de color rojo corresponde al estadístico de prueba, función que nos dará un valor con el que seremos capaces de rechazar o no \\(H_0\\). Finalmente el área de color verde corresponde al área bajo la curva desde el estadístico observado hacia la izquierda (en este caso). Figura 2.1: Estadístico de prueba para un prueba altenativa con signo \\(>\\) La tabla 2.2, da cuenta de la relación que existe entre las pruebas de hipótesis y la ubicación del valor-p en el gráfico presentado. Tabla 2.2: Hipótesis alternativa, valor-p y estadístico de prueba Signo de comparación en \\(H_1\\) Referencia Ubicación del estadístico de prueba y valor-p \\(>\\) Unilateral derecha A la derecha del gráfico \\(<\\) Unilateral izquierda A la izquierda del gráfico \\(\\neq\\) Bilateral A ambos lados del gráfico La regla de rechazo usando el valor-p es \\[\\text{Rechazar } H_0 \\text{ si el valor-p } \\leq \\alpha\\] En la figura 2.2, se puede observar los tres casos posibles para las distintas hipótesis alternativas, en las cuales se ejemplifica un valor-p en cada uno de los casos. De izquierda a derecha, las hipótesis alternativas correspondientes son unilateral izquierda, unilateral derecha, y bilateral. Figura 2.2: Valores -p por tipo de hipótesis alternativa La decisión de si en cada uno de los casos se rechaza o no la hipótesis nula, depende del valor elegido para la significancia. En la figura 2.3 se muestra la comparativa entre el valor-p y \\(\\alpha\\) para el caso de una hipótesis alternativa unilateral derecha; el área sombreada de color rojo corresponde al valor de \\(\\alpha\\) (área de rechazo), mientras que el área sombreada de color gris corresponde al valor-p definido por el estadístico de prueba. Figura 2.3: Comparativa del valor-p y el área de rechazo para una prueba unilateral derecha Cabe recordar que, el valor de alfa (valor del área roja en la figura 2.3) estará dado por el investigador (subjetivo), mientras que el valor del área gris se debe determinar a partir de los datos de la muestra (estadístico de prueba). Método del valor crítico Este método consiste en comparar el estadístico de prueba con un número fijo llamado valor crítico. El valor crítico es un punto de referencia para determinar si el valor del estadístico de prueba es lo suficientemente pequeño para rechazar la hipótesis nula. El valor crítico corresponde a la coordenada del eje horizontal que define el área llamada \\(\\alpha\\) (fijado por el investigador), y está ubicada en el mismo sector que el valor-p.  El intervalo de números generado a partir del valor crítico es lo denominado región de rechazo. En la figura 2.4, se observa que una hipótesis nula es rechazada cuando el valor-p es menor o igual a \\(\\alpha\\), lo cual, es equivalente a decir que (gráfico de la izquierda), el estadístico de prueba (1.4) es mayor o igual al valor crítico (0.8), a esto se le denomina “caer en la región de rechazo”. El razonamiento de rechazo utilizando el valor crítico depende de la zona en la que se ubica alfa y el valor-p. Figura 2.4: Método del valor crítico para una hipótesis unilateral derecha Los lineamientos de cómo construir un estadístico de prueba, determinar el varlo crítico y el valor-p asociados a una prueba de hipótesis, se darán a conocer a partir de la sección 2.2. 2.1.4 Intervalos de confianza Existe un relación directa entre las pruebas de hipótesis y los intervalos de confianza, ya que estos pueden ser utilizados para rechazar o no \\(H_0\\). La tabla 2.3, da cuenta de del tipo de intervalo de confianza que se debe elaborar para cada tipo de prueba de hipótesis. Tabla 2.3: Hipótesis alternativa e Intervalo de confianza Signo de comparación en \\(H_1\\) Tipo de intervalo de confianza \\(>\\) \\((a,\\infty )\\) \\(<\\) \\((-\\infty ,b)\\) \\(\\neq\\) \\((a,b)\\) A lo largo de las distintas pruebas, se abordarán los distintos métodos de prueba, incluyendo el uso de intervalos de confianza. 2.2 Pruebas de hipótesis para la media Esta sección se centra en el planteamiento y prueba de hipótesis relacionadas a la parámetro de media. Para cada uno de estos casos, se detalla el procedimiento en R y los distintos métodos de prueba para la decisión de rechazo de \\(H_0\\). En particular, las pruebas para este parámetro requieren que la distribución poblacional de la variable de estudio es normal, lo cual, se asumirá en los enunciados de los ejercicios y/o ejemplos según corresponda. 2.2.1 Pruebas de hipótesis para la media de una distribución normal con varianza poblacional conocida Aun cuando la suposición de que el valor de \\(\\sigma^2\\) es conocido, rara vez se cumple en la práctica. Este caso proporciona un buen punto de partida debido a la facilidad con que los procedimientos generales y sus propiedades pueden ser desarrollados. La hipótesis nula en los tres casos propondrá que \\(\\mu\\) tiene un valor numérico particular, el valor nulo, el cual será denotado por \\(\\mu_0\\). El estadístico de prueba y los valores críticos de comparación están dados en la tabla 2.4. Tabla 2.4: Criterios de rechazo para la prueba de una media con varianza poblacional conocida Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu = \\mu_0\\) \\(Z_0 = \\displaystyle\\frac{\\bar{x}-\\mu_0}{\\sigma/\\sqrt{n}}\\) \\(H_1: \\mu \\neq \\mu_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: \\mu \\gt \\mu_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: \\mu \\lt \\mu_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) Ejemplo 2.3 El índice Rockwell de dureza para acero se determina al presionar una punta de diamante en el acero y medir la profundidad de la penetración, el cual tiene un varianza de medición de 6. Para 50 especímenes de una aleación de acero, el índice Rockwell de dureza promedió 62. El fabricante dice que esta aleación tiene un índice de dureza promedio menor a 64. Asumiendo que el índice de dureza sigue una distribución normal, ¿hay suficiente evidencia para refutar lo dicho por el fabricante con un nivel de significancia de 1%? Al plantear la prueba de hipótesis se debe tener en cuenta que la hipótesis del investigador ha de estar reflejada en \\(H_1\\), tal como se muestra a continuación. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu = 64\\\\ H_1&: \\mu < 64 \\end{split} \\end{equation}\\] Luego, se desarrolla la expresión del estadístico de prueba, para conocer su valor numérico. \\[\\begin{equation} \\notag Z_0 = \\frac{\\bar{x} - \\mu_0}{\\sigma/\\sqrt{n}} = \\displaystyle\\frac{62 - 64}{\\sqrt{6}/\\sqrt{50}} = -5.774 \\end{equation}\\] Ocupando el método del valor crítico, escribimos el criterios de rechazo correspondiente. Sin embargo, aún está la tarea de determinar el valor crítico. \\[\\begin{equation} \\notag \\begin{split} Z_0 &\\leq Z_{\\alpha}\\\\ -5.774 &\\leq Z_{0.01}\\\\ \\end{split} \\end{equation}\\] Para determinar el valor de \\(Z_{0.01}\\) (tal como menciona en los cursos de Estadística I y Estadística descriptiva), el comando a ocupar qnorm(p = 0.01) ## [1] -2.326348 Es claro que \\(-5.774\\) es menor a \\(-2.32\\), es decir, que al cumplirse la condición de rechazo, esto implica que se rechaza \\(H_0\\). Por lo tanto, existe suficiente evidencia estadística para rechazar la hipótesis nula, es decir, se apoya la postura del fabricante respecto a un indice de dureza promedio menor a 64, con una significancia del 1% (o confianza del 99%). En caso de que deseemos utilizar el método del valor-p, es necesario apoyarnos en R para realizar el calculo de este. El comando necesario para calcular el valor depende la prueba que estemos llevando a cabo, por lo que en el siguiente documento podrán encontrar un resumen para las distintas pruebas. pnorm(-5.774) ## [1] 3.870572e-09 El valor-p obtenido es evidentemente menor a la significancia (0.01), obteniéndose la misma conclusión antes expuesta. Respecto al intervalo de confianza, es posible determinarlo dada la siguiente expresión. \\[\\begin{equation} \\left(-\\infty, \\bar{x} + Z_{1-\\alpha}\\frac{\\sigma}{\\sqrt{n}}\\right) \\end{equation}\\] Reemplazando los valores dados en el enunciado se tiene \\[\\begin{equation} \\notag \\left(-\\infty, 62 + Z_{0.99}\\frac{\\sqrt{6}}{\\sqrt{50}}\\right) = (-\\infty, 62.8) \\end{equation}\\] Al observar el intervalo de confianza, se debe observar si el valor de \\(\\mu_0\\) está dentro o fuera de este. En este caso, \\(\\mu_0 = 64\\) no se encuentra dentro del intervalo. Por lo tanto, se rechaza la hipótesis nula, obteniéndose la misma conclusión antes obtenida. Al igual que el valor-p, la forma en la que se debe usar el intervalo de confianza varía dependiendo del tipo de prueba de hipótesis que se realiza, por lo que en el siguiente documento podrán encontrar un resumen para las distintas pruebas, dicho documento incluye los distintos comando en R para obtener los resultados de una prueba de hipótesis de manera automática. Para este tipo de pruebas, no hay comandos en R que permitan hacer el trabajo de manera automática. Esto es debido a lo expuesto en un principio: difícilmente se conoce la varianza poblacional en la práctica. Ejercicio 2.6 Sea el estadístico de prueba \\(Z_0\\) con una distribución normal estándar cuando \\(H_0\\) es verdadera. Dé el nivel de significación en cada una de las siguientes situaciones: \\(H_1: \\mu > \\mu_0\\), región de rechazo \\(Z_0\\geq 1.88\\). \\(H_1: \\mu < \\mu_0\\), región de rechazo \\(Z_0\\leq -2.75\\). \\(H_1: \\mu \\neq \\mu_0\\), región de rechazo \\(Z_0\\geq 2.88\\) o \\(Z_0\\leq -2.88\\). Ejercicio 2.7 Un fabricante de cajas de cartón afirma que sus cajas tienen un peso promedio de 5 kg. Para verificar esta afirmación, un cliente selecciona al azar 25 cajas y encuentra que el peso promedio es de 4.8 kg con una desviación estándar conocida de 0.5 kg. ¿Hay suficiente evidencia para rechazar la afirmación del fabricante al nivel de significancia del 5%? Ejercicio 2.8 Se sabe que la duración de las baterías sigue una distribución normal con media 290 horas y varianza poblacional conocida de 64 horas. Bajo una nueva fórmula de fabricación, se tomó una muestra aleatoria de 36 dispositivos móviles y se registró una duración media muestral de 280 horas. Utilizando un nivel de significancia del 5%, ¿se puede concluir con suficiente evidencia estadística que la duración media de las baterías ha mejorado significativamente después de aplicar una nueva fórmula en su fabricación? Ejercicio 2.9 Un cirujano afirma que sus pacientes se recuperan en un promedio de 5 días después de una cirugía. Para probar su afirmación, un internista toma una muestra aleatoria de 20 pacientes y encuentra que la duración promedio de recuperación es de 6 días, con una desviación estándar conocida de 1.5 días. ¿Hay suficiente evidencia para rechazar la afirmación del cirujano al nivel de significancia del 10%? Ejercicio 2.10 Se cree que la cantidad promedio de cafeína en una taza de café es de 100 mg. Para probar esta hipótesis, se toma una muestra aleatoria de 50 tazas de café y se encuentra que la cantidad promedio de cafeína es de 105 mg, con una desviación estándar conocida de 15 mg. ¿Hay suficiente evidencia para rechazar la hipótesis nula al nivel de significancia del 5%? Ejercicio 2.11 Se desea evaluar si la altura promedio de una población de girasoles es de 150 cm. Para ello, se selecciona una muestra aleatoria de 30 girasoles y se encuentra que la altura promedio es de 155 cm, con una desviación estándar conocida de 5 cm. ¿Hay suficiente evidencia para rechazar la hipótesis nula al nivel de significancia del 1%? 2.2.2 Prueba de hipótesis para la media de una distribución normal con varianza poblacional desconocida De igual manera a lo expuesto en el primer caso, los pasos a seguir para probar una hipótesis son los mismos, y se mantendrá así para cualquier caso. Plantear las hipótesis nula y alternativa Identificar o establecer el nivel de significancia. Identificar los datos muestrales y poblacionales con los que se cuenta. Utilizar alguna de las reglas de decisión (Estadístico de prueba, valor-p o intervalo de confianza). Concluir En la situación de una prueba de hipótesis de la media, en la cual lo datos distribuyen normal y la varianza poblacional es desconocida, los criterios de rechazo son similares a los vistos anteriormente, sin embargo, cambia la distribución del estadístico de prueba, tal como se muestra en la tabla 2.5. Tabla 2.5: Criterios de rechazo para la prueba de una media con varianza poblacional desconocida Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu = \\mu_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x}-\\mu_0}{S/\\sqrt{n}}\\) \\(H_1: \\mu \\neq \\mu_0\\) \\(|t_0| \\geq t_{1-\\alpha/2, n-1}\\) \\(H_1: \\mu \\gt \\mu_0\\) \\(t_0 \\geq t_{1-\\alpha,n-1}\\) \\(H_1: \\mu \\lt \\mu_0\\) \\(t_0 \\leq t_{\\alpha,n-1}\\) donde \\(n\\) corresponde al tamaño de la muestra. Ejemplo 2.4 Utilizando la base de datos Imacec, establezca si hay suficiente evidencia estadística para afirmar que, el valor promedio del Imacec de cada sector por separado es mayor a 98.54167 (denote este valor por \\(\\mu_0\\)). Establezca las hipótesis respectivas, estadísticos y criterios de rechazo, utilizando una significancia del 10%. Asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. En este caso al contar con una base de datos (y para este tipo de prueba), podemos hacer uso directamente de R para obtener el estadístico de prueba, valor-p e intervalo de confianza asociado. # Carga de la base de datos df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") Iniciamos con la prueba de hipótesis para el sector de minería. \\(\\mu:\\) Imacec de Minería en el periodo 01/2018 - 06/2022. \\[\\begin{equation} \\notag \\begin{split} H_0: \\mu = 98.54167\\\\ H_1: \\mu > 98.54167 \\end{split} \\end{equation}\\] Luego, haciendo uso de R obtenemos los elementos necesario para rechazar o no \\(H_0\\). # Minería t.test( # Prueba de hipótesis para el estadístico con distribución t-student x = df$Mineria, # Valores del Imacec de Minería alternative = "greater", # Signo de desigualdad de la hipótesis alternativa mu = 98.54167, # Valor del Mu_0 conf.level = 0.9 # Confianza = 1 - alfa ) ## ## One Sample t-test ## ## data: df$Mineria ## t = -1.2773, df = 53, p-value = 0.8965 ## alternative hypothesis: true mean is greater than 98.54167 ## 90 percent confidence interval: ## 96.21024 Inf ## sample estimates: ## mean of x ## 97.38519 El estadístico reportado es \\(t = -1.27373\\) con un valor-p de 0.8965, el cual, al ser mayor a la significancia de 0.1, implica que no existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que, el valor promedio del Imacec del sector de Minería no es mayor a 98.54167. Utilizando el intervalo de confianza \\((96.21, \\infty)\\), se observa que el valor de \\(\\mu_0 = 98.54\\) se encuentra dentro del intervalo, por ende, no existe suficiente evidencia estadística para rechazar \\(H_0\\), obteniéndose la misma conclusión que al usar el valor-p. La prueba de hipótesis para el sector de industria es la siguiente. \\(\\mu:\\) Imacec de Industria en el periodo 01/2018 - 06/2022. \\[\\begin{equation} \\notag \\begin{split} H_0: \\mu = 98.54167\\\\ H_1: \\mu > 98.54167 \\end{split} \\end{equation}\\] # Industria t.test( # Prueba de hipótesis para el estadístico con distribución t-student x = df$Industria, # Valores del Imacec de Industria alternative = "greater", # Signo de desigualdad de la hipótesis alternativa mu = 98.54167, # Valor del Mu_0 conf.level = 0.9 # Confianza = 1 - alfa ) ## ## One Sample t-test ## ## data: df$Industria ## t = 1.3678, df = 53, p-value = 0.08857 ## alternative hypothesis: true mean is greater than 98.54167 ## 90 percent confidence interval: ## 98.60095 Inf ## sample estimates: ## mean of x ## 99.69815 El estadístico reportado es \\(t = 1.3678\\) con un valor-p de 0.08857, el cual, al ser menor a la significancia de 0.1, implica que existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que, el valor promedio del Imacec del sector de Industria es mayor a 98.54167. Utilizando el intervalo de confianza \\((98.6, \\infty)\\), se observa que el valor de \\(\\mu_0 = 98.54\\) no se encuentra dentro del intervalo, por ende, existe suficiente evidencia estadística para rechazar \\(H_0\\), obteniéndose la misma conclusión que al usar el valor-p. Ejercicio 2.12 Utilizando la base de datos Imacec, establezca si hay suficiente evidencia estadística para afirmar que, el valor promedio del Imacec de cada sector durante el año 2022 es mayor 96.89167. Establezca las hipótesis, estadísticos y criterios de rechazo. Utilice una significancia del 7%. Además, asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. Ejercicio 2.13 El control de emisión de residuos ha sido un tema que ha cobrado gran importancia en los últimos 20 años debido a los efectos del calentamiento global. Uno de los tantos residuos que contamina el aire es el Metano (CH4). Para estudiar este fenómeno haremos uso de la base metano.csv, la cual contiene los siguientes datos: Año: año en el que se realiza la medición de emisión de CH4. Mes: mes del año en el que se realiza la medición de emisión de CH4. CH4: concentración de CH4 (partes por miles de millones) en un muestra de aire. Establezca si hay suficiente evidencia estadística para afirmar lo siguiente: La concentración promedio de metano es distinta a 1700 partes por miles de millones. La concentración promedio de metano del año 2021 es superior a 1780 partes por miles de millones. La concentración promedio de metano del periodo en el periodo de años 2019 - 2022 (inclusive) es inferior a 1750 partes por miles de millones. Establezca las hipótesis respectivas, estadísticos y criterios de rechazo, utilice una significancia del 7%. Asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. Ejercicio 2.14 Utilizando la base de datos ICC, estudio si hay suficiente evidencia estadística para afirmar los siguiente. El promedio del ICC es distinto a 100 puntos. El promedio del ICC en Francia es menor a 105 puntos. El promedio del ICC en Alemania es mayor a 107 puntos. Establezca las hipótesis, estadísticos y criterios de rechazo. Utilice una significancia del 12%. Además, asuma que las variables distribuyen normal y tienen varianza poblacional desconocida. Concluya. 2.3 Pruebas de hipótesis para la diferencia de medias En esta sección se continúa con el estudio de la inferencia estadística, específicamente para la diferencia entre dos medias poblacionales. Por ejemplo, quizá desee obtener una estimación por intervalo para la diferencia entre el salario inicial medio de la población de hombres y el salario inicial medio de la población de mujeres (Anderson et al., 2008, página 395). Para este tipo de pruebas, se requiere que las distribuciones poblacionales de las variables sean normales e independientes, lo cual, se asumirá en los enunciados de ejemplos y/o ejercicios según corresponda. 2.3.1 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales conocidas El primero de los tres casos corresponde al de varianzas poblacionales conocidas. La tabla 2.6 da cuenta del estadístico de prueba asociado las respectivas hipótesis, además de los criterios asociados al valor crítico correspondiente. Tabla 2.6: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales conocidas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(Z_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{\\sqrt{\\sigma^2_X/n_X + \\sigma^2_Y/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) Ejemplo 2.5 En dos ciudades se llevó acabo una encuesta sobre el costo de la vida, en relación al gasto promedio en alimentación en familias constituidas por cuatro personas. De cada ciudad se seleccionó aleatoriamente una muestra de 20 familias y se observaron sus gastos semanales en alimentación. Las medias muestrales y desviaciones estándar poblacionales fueron las siguientes: \\[\\begin{equation} \\notag \\begin{split} \\bar{x} = 135, & \\text{ } \\sigma_X = 15\\\\ \\bar{y} = 122, & \\text{ } \\sigma_Y = 10 \\end{split} \\end{equation}\\] Si se supone que se muestrearon dos poblaciones independientes con distribución normal cada una, analizar si existe una diferencia real entre ambas medias. Considere una confianza del 95%. Las hipótesis a plantear son las siguientes. \\(\\mu_X:\\) gasto medio semanal en alimentación en la ciudad X. \\(\\mu_Y:\\) gasto medio semanal en alimentación en la ciudad Y. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 0\\\\ H_1&: \\mu_{X} - \\mu_{Y} \\neq 0\\\\ \\end{split} \\end{equation}\\] Al igual que en la prueba para una media cuando se conoce la varianza poblacional, esta prueba no tiene una implementación directa en R, por lo que construiremos manualmente los métodos de rechazo. x.barra = 135 y.barra = 122 sigma.x = 15 sigma.y = 10 nx = 20 ny = 20 alfa = 0.05 delta0 = 0 Calculamos el estadístico de prueba. z0 = (x.barra - y.barra - delta0)/sqrt(sigma.x^2/nx+sigma.y^2/ny) z0 ## [1] 3.224903 El valor-p asociado al estadístico de prueba es valor.p = 2*(1-pnorm(abs(z0))) valor.p ## [1] 0.001260153 Luego, este valor es menor a la significancia del 5%, por lo que existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia para apoyar la afirmación de que existe diferencia entre los gastos de alimentación promedio entre las familias de ambas ciudades. Por otro lado, usando el método de valor crítico se obtiene que abs(z0) >= qnorm(1-alfa/2) ## [1] TRUE el valor absoluto del estadístico de prueba es mayor al valor crítico, obteniéndose la misma interpretación que al utilizar el valor-p. Ejercicio 2.15 La base control+cuotas.csv contiene datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Paln Vital y Provida, específicamente de un fondo A de un APV. Se está interesado en saber si, el valor promedio de las cuotas de Plan Vital superan al de Provida por más de 30000 pesos. Considere una confianza del 99%. Plantee y pruebe una hipótesis para la diferencia de medias, considerando \\(\\sigma^2_{\\text{Provida}} = 1165833\\) y \\(\\sigma^2_{\\text{Plan Vital}} = 3393141\\). Utilice el método del valor-p e intervalo de confianza. 2.3.2 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales desconocidas e iguales Para el segundo caso, las varianzas poblacionales son desconocidas, sin embargo, los valores de estas varianzas poblacionales pueden ser iguales o distintos. La tabla 2.7 refleja el estadístico de prueba y los criterios de rechazo asociados al método del valor crítico, para el caso en que los valores de las varianzas poblacionaes desconocidas son iguales. Tabla 2.7: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales desconocidas e iguales Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{S_p\\sqrt{1/n_X + 1/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|t_0| \\geq t_{1-\\alpha/2,k}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(t_0 \\geq t_{1-\\alpha,k}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(t_0 \\leq t_{\\alpha,k}\\) Donde los valores de \\(k\\) y \\(S_p\\) son los siguientes. \\[\\begin{equation} \\notag k = n_X + n_Y-2 \\end{equation}\\] \\[\\begin{equation} \\notag S_p^2 = \\frac{(n_X-1)S_X^2 + (n_Y-1)S_Y^2}{n_X+n_Y-2} \\end{equation}\\] Ejemplo 2.6 Considere la base de datos ICC. Se está interesado en saber si el valor promedio del ICC en Alemania menos el de Francia es menor a 1.1. Elabore una prueba de hipótesis para analizar este interés con un 90% de confianza. Concluya utilizando el valor – p. Además, que las varianzas poblaciones son iguales. \\(\\mu_X:\\) media del ICC de Alemania. \\(\\mu_Y:\\) media del ICC de Francia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 1.1\\\\ H_1&: \\mu_{X} - \\mu_{Y} < 1.1\\\\ \\end{split} \\end{equation}\\] # Cargue previamente la base guardándola con el nombre "datos" ICC_Alemania = datos$ICC[datos$Locacion == "DEU"] # Valores del ICC de Alemania ICC_Francia = datos$ICC[datos$Locacion == "FRA"] # Valores del ICC de Francia t.test(x = ICC_Alemania, y = ICC_Francia, conf.level = 0.9, # Confianza alternative = "less", # Signo según la hipótesis alternativa mu = 1.1, # Valor de delta0 var.equal = T) # Comando que indica que las varianzas son iguales ## ## Two Sample t-test ## ## data: ICC_Alemania and ICC_Francia ## t = 0.10482, df = 132, p-value = 0.5417 ## alternative hypothesis: true difference in means is less than 1.1 ## 90 percent confidence interval: ## -Inf 1.404981 ## sample estimates: ## mean of x mean of y ## 100.74328 99.62033 Con un valor – p de 0.5417 mayor a 0.1, no existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que, no se asume que la diferencia del ICC promedio entre Alemania y Francia sea menor a 1.1 puntos. Similar a las pruebas de una media, para rechazar \\(H_0\\) mediante el intervalo de confianza se debe verificar que el valor de \\(\\delta_0\\) se encuentra fuera del intervalo. En este caso, se aprecia que el \\(\\delta_0\\) de 1.1 está contenido por el intervalo de confianza, por lo que no se rechazaría \\(H_0\\), lo cual va en línea con lo anteriormente concluido. Ejercicio 2.16 Utilizando la base de datos ICC, plantee y pruebe un hipótesis, para verificar si para el año 2019 existe una diferencia mayor a 1.2 entre el ICC promedio de Polonia e Italia, con una confianza del 93%. Utilice el método del intervalo de confianza. Además, asuma que las varianzas poblacionales son desconocidas e iguales. Ejercicio 2.17 Los desastres naturales pueden ocurrir en cualquier lugar y, cuando estos se dan lugares donde la población es densa, pueden afectar a diversos componentes de la sociedad, entre ellos la economía, ya que los daños pueden traducirse en pérdida o destrucción de bienes de capital, niveles de ahorro, incremento de precios, entre otros efectos. Para estudiar este fenómeno, utilizaremos la base de datos terremotos.csv, la cual contiene datos sobre los terremotos ocurridos a nivel mundial entre los años 1900 y 2014. Las columnas de la base de datos son: Año: año de ocurrencia del terremoto. Latitud: grados decimales de la coordenada de latitud (valores negativos para latitudes del sur). Longitud: grados decimales de la coordenada de longitud (valores negativos para longitudes occidentales). Profundidad: profundidad del evento en kilómetros. Magnitud: magnitud del evento (la escala no es fija, ya que, a través de los años, la escala a cambiado según el método de medición. Sin embargo, todos las magnitudes son comparables, indicando que a mayor magnitud, mayor es la intensidad en movimiento/fuerza del terremoto). A continuación elabore las siguiente pruebas. Establezca una prueba de hipótesis con un 93% de confianza para estudiar si, existe diferencia entre los promedios de las profundidades de los terremotos ocurridos en los años 1976 y 1986. Asuma varianzas poblacionales desconocidas e iguales. Establezca una prueba de hipótesis con un 97% de confianza para estudiar si, el promedio las magnitudes de los terremotos en los años 1900 y 1922 es mayor al de los años 2010 y 2014, por más de 0.5 unidades de medida. Asuma varianzas poblacionales desconocidas e iguales. 2.3.3 Prueba de hipótesis para la diferencia de medias de dos distribuciones normales con varianzas poblacionales desconocidas y distintas El último de los casos, las varianzas poblacionales son desconocidas y distintas. El detalle del estadístico de prueba y los criterios del método del valor crítico asociados se encuentran en la tabla 2.8. Tabla 2.8: Criterios de rechazo para la prueba de de diferencia de medias con varianzas poblacionales desconocidas y distintas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\mu_X - \\mu_Y = \\delta_0\\) \\(t_0 = \\displaystyle\\frac{\\bar{x} - \\bar{y} - \\delta_0}{\\sqrt{S^2_X/n_X + S^2_Y/n_Y}}\\) \\(H_1: \\mu_X - \\mu_Y \\neq \\delta_0\\) \\(|t_0| \\geq t_{1-\\alpha/2,k}\\) \\(H_1: \\mu_X - \\mu_Y \\gt \\delta_0\\) \\(t_0 \\geq t_{1-\\alpha,k}\\) \\(H_1: \\mu_X - \\mu_Y \\lt \\delta_0\\) \\(t_0 \\leq t_{\\alpha,k}\\) dónde \\(k\\) es el entero más cercano a \\[\\begin{equation} \\notag \\frac{(S_X^2/n_X + S_Y^2/n_Y)^2}{(S_X^2/n_X)^2/(n_X-1) + (S_Y^2/n_Y)^2/(n_Y-1)} \\end{equation}\\] Ejemplo 2.7 Utilizando la base de datos del ICC, establecer una prueba de hipótesis para verificar si el ICC promedio de Italia es mayor al de Francia, con una significancia del 3%. Asumiendo que las varianzas poblacionales son desconocidas y distintas. Las hipótesis a plantear son las siguientes. \\(\\mu_X:\\) media del ICC de Italia \\(\\mu_Y:\\) media del ICC de Francia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\mu_{X} - \\mu_{Y} = 0\\\\ H_1&: \\mu_{X} - \\mu_{Y} > 0\\\\ \\end{split} \\end{equation}\\] Luego, la prueba se ejecuta con el siguiente código. # Cargue previamente la base guardándola con el nombre "datos" ICC_Italia = datos$ICC[datos$Locacion == "ITA"] # Valores del ICC de Italia ICC_Francia = datos$ICC[datos$Locacion == "FRA"] # Valores del ICC de Francia t.test(x = ICC_Italia, y = ICC_Francia, conf.level = 0.97, # Confianza alternative = "greater", # Signo según la hipótesis alternativa mu = 0, # Valor de delta0 var.equal = F) # Comando que indica que las varianzas son distintas ## ## Welch Two Sample t-test ## ## data: ICC_Italia and ICC_Francia ## t = 4.0794, df = 131.74, p-value = 3.886e-05 ## alternative hypothesis: true difference in means is greater than 0 ## 97 percent confidence interval: ## 0.4887855 Inf ## sample estimates: ## mean of x mean of y ## 100.53403 99.62033 Con un valor-p menor a la significancia del (3%), existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia estadística para apoyar la afirmación de que el ICC promedio de Italia es mayor al de Francia. Observando el intervalo de confianza se verifica que \\(\\delta_0\\) no se encuentra dentro del intervalo, por lo que se rechaza \\(H_0\\), obteniéndose la misma conclusión antes mencionada. Ejercicio 2.18 La energía renovable es esencial para reducir las emisiones de carbono y mitigar el cambio climático. Además, la energía renovable mejora la salud pública, crea nuevos puestos de trabajo, garantiza la seguridad energética a través de la diversificación y estabiliza los precios de la energía. La importancia de alejarse de los combustibles fósiles y acercarse a las fuentes renovables no puede subestimarse. Como tal, este conjunto de datos (energia.csv) rastrea el crecimiento del sector renovable del Reino Unido desde 1990 hasta 2020. Las columnas de la base de datos son las siguientes: Ano: año de medición. Renovables.Residuos: Energía procedente de fuentes renovables y de residuos. Consumo.Total: Consumo total de energía de combustibles primarios y equivalentes. Hidroelectrica: Consumo de energía producido por hidroeléctricas. Viento.Olas: Consumo de energía producido por vientos, olas y mareas. Solar Consumo de energía producido por paneles fotovoltaicos. Geo: Consumo de energía producido por acuíferos geotérmicos. Vertedero: Consumo de energía producido por gases de vertedero. Gas: Consumo de energía producido por gases de aguas residuales. La unidad de energía utilizada en este conjunto de datos es la megatonelada equivalente de petróleo (mtep). A continuación elabore las siguiente pruebas. Elabore una prueba de hipótesis con una confianza del 97% para estudiar si, existe diferencia entre el promedio de energía consumida mediante gases de aguas residuales y la consumida mediante hidroeléctricas. Asuma que las varianzas poblacionales son desconocidas y distintas. Elabore una prueba de hipótesis con una confianza del 98% para estudiar si, la diferencia del promedio de la energía consumida por gases de vertederos es mayor a la consumida por paneles fotovoltaicos. Asuma que las varianzas poblacionales son desconocidas y distintas. Elabore un intervalo de confianza al 99% para estudiar si, el promedio del consumo total de energía durante el periodo 2004 - 2020 es menor al del periodo 1990 - 2003 por más de 40 unidades. Asuma que las varianzas poblacionales son desconocidas y distintas. 2.4 Prueba de hipótesis para comparación de varianzas En esta sección se extiende el estudio a las varianzas poblacionales, con al finalidad de estableces si estas son iguales o distintas. Para ello, se requiere que las distribuciones poblacionales de las variables de estudios sean normales e independientes, lo cual, se asumirá en los enunciados de los ejemplos y/o ejercicios según corresponda. Tabla 2.9: Criterios de rechazo para la prueba de comparación de varianzas Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: \\sigma_X^2 = \\sigma_Y^2\\) \\(f_0 = S_X^2/S_Y^2\\) \\(H_1: \\sigma_X^2 \\neq \\sigma_Y^2\\) \\(f_0 \\geq f_{1-\\alpha/2,n_X-1,n_Y-1} \\vee\\) \\(f_0 \\leq f_{\\alpha/2,n_X-1,n_Y-1}\\) \\(H_1: \\sigma_X^2 \\gt \\sigma_Y^2\\) \\(f_0 \\geq f_{1-\\alpha,n_X-1,n_Y-1}\\) \\(H_1: \\sigma_X^2 \\lt \\sigma_Y^2\\) \\(f_0 \\leq f_{\\alpha,n_X-1,n_Y-1}\\) Gracias a esta prueba, es posible determinar de antemano si las varianzas poblacionales son iguales o distintas asumiendo que son desconocidas, lo cual, permite elegir posteriormente que tipo de pruebas para la diferencia de medias se debe realizar. Ejemplo 2.8 Utilizando la base de datos del ICC, establecer una prueba de hipótesis para verificar si el ICC promedio de España es distinto al de Polonia, con una significancia del 4%. Asumiendo muestras independientes. En primer lugar se establece la prueba de hipótesis para la igualdad de varianzas. \\(\\sigma^2_X:\\) varianza del ICC de España. \\(\\sigma^2_Y:\\) varianza del ICC de Polonia. \\[\\begin{equation} \\notag \\begin{split} H_0&: \\sigma^2_{X} = \\sigma^2_{Y}\\\\ H_1&: \\sigma^2_{X} \\neq \\sigma^2_{Y}\\\\ \\end{split} \\end{equation}\\] El código para realizar esta prueba es el siguiente. # Cargue previamente la base guardándola con el nombre "datos" ICC_Espana = datos$ICC[datos$Locacion == "ESP"] # Valores del ICC de España ICC_Polonia = datos$ICC[datos$Locacion == "POL"] # Valores del ICC de Polonia var.test( x = ICC_Espana, y = ICC_Polonia, alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.96 # Confianza ) ## ## F test to compare two variances ## ## data: ICC_Espana and ICC_Polonia ## F = 3.5354, num df = 66, denom df = 66, p-value = 7.241e-07 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 96 percent confidence interval: ## 2.122496 5.888850 ## sample estimates: ## ratio of variances ## 3.535401 Con un valor-p menor a la significancia, se asume que las varianzas poblacionales son distintas, es decir, se rechaza \\(H_0\\). Por lo tanto, se procede a realizar un prueba para la diferencia de medias, asumiendo que las varianzas poblacionales son desconocidas y distintas. Para utilizar el intervalo de confianza como método de rechazo, se debe verificar que el 1 no está contenido por el intervalo de confianza para rechazar \\(H_0\\). Las hipótesis para la diferencia de medias son las siguientes. \\(\\mu_X:\\) media del ICC de España. \\(\\mu_Y:\\) media del ICC de Polonia. \\[\\begin{equation} \\begin{split} H_0&: \\mu_{\\text{X}} - \\mu_{\\text{Y}} = 0\\\\ H_1&: \\mu_{\\text{X}} - \\mu_{\\text{Y}} \\neq 0\\\\ \\end{split} \\end{equation}\\] t.test( x = ICC_Espana, y = ICC_Polonia, alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.96, # Confianza mu = 0, # delta0 var.equal = F # Varianzas poblacionales distintas ) ## ## Welch Two Sample t-test ## ## data: ICC_Espana and ICC_Polonia ## t = -1.4661, df = 100.57, p-value = 0.1458 ## alternative hypothesis: true difference in means is not equal to 0 ## 96 percent confidence interval: ## -1.4752851 0.2556696 ## sample estimates: ## mean of x mean of y ## 100.3420 100.9518 Con un valor-p de 0.14 mayor a la significancia (4%), no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, no existe suficiente evidencia estadística para apoyar la afirmación de que el ICC entre ambos países es distinto. De igual manera, al observar el intervalo de confianza, se verifica que el valor de \\(\\delta_0\\) se encuentra del intervalo, obteniéndose la misma conslusión antes dada. Ejercicio 2.19 La contaminación del aire representa un importante riesgo medioambiental para la salud. Mediante la disminución de los niveles de contaminación del aire los países pueden reducir la carga de morbilidad derivada de accidentes cerebrovasculares, cánceres de pulmón y neumopatías crónicas y agudas, entre ellas el asma. Cuanto más bajos sean los niveles de contaminación del aire mejor será la salud cardiovascular y respiratoria de la población, tanto a largo como a corto plazo. Por lo anteriormente mencionado, utilizaremos una base de datos propia de R (airquality) para estudiar la calidad del aire. Esta base de datos contiene mediciones diarias de la calidad del aire en Nueva York, de mayo a septiembre de 1973. Las columnas son las siguientes: Ozone: Ozono medio en partes por billón. Solar.R: Radiación solar en Langleys (unidad de medida de la radiación solar). Wind: Velocidad promedio del viento en millas por hora. Temp: Temperatura máxima diaria en grados Fahrenheit. Month: Mes de medición. Day: Día de medición. Elimine los datos faltantes de la base de datos con el comando na.omit(). A continuación: Plantee y pruebe una hipótesis para estudiar la diferencia entre el promedio de concentración de Ozono en los primeros 15 días del mes y el promedio de concentración de Ozono en el resto de los días del mes. Utilice una confianza del 92%. Interprete los intervalos de confianza y valores - p de todas las pruebas a utilizar. Ejercicio 2.20 La base de datos CO2 (incroporrada en R) contiene datos de un experimento sobre la tolerancia al frío de la especie de pasto Echinochloa crus-galli. Las columnas son las siguientes: Plant: Identificador del tipo de planta. Type: Lugar de origen de la planta. Treatment: indica si la planta fue refrigerada (chilled) o no (nonchilled). conc: Concentraciones ambientales de dióxido de carbono (mL/L). uptake: Tasas de absorción de dióxido de carbono (\\(umol/m^2\\) seg) de las plantas. A continuación, plantee y pruebe una hipótesis para estudiar si, la diferencia entre el promedio de la tasa de absorción de dióxido de carbono de las dos zonas medidas está a favor de Mississippi. Utilice una confianza del 96%. Haga uso de todos los métodos de rechazo. Interprete. 2.5 Prueba de hipótesis para la diferencia de proporciones Después de presentar métodos para comparar las medidas de dos poblaciones diferentes, ahora se presta atención a la comparación de dos proporciones de población. Las proporciones se plantear de la siguiente manera (Devore, 2008, página 353). \\[\\begin{equation} \\notag \\begin{split} p_1 &= \\text{la proporción de éxitos en la población 1}\\\\ p_2 &= \\text{la proporción de éxitos en la población 2}\\\\ \\end{split} \\end{equation}\\] La prueba de hipótesis que permite comparar la diferencia entre estás proporciones, asumiendo que las distribuciones poblacionales de las variables son binomiales e independientes, es la siguiente Tabla 2.10: Criterios de rechazo para la prueba de diferencia de proporciones Hipótesis nula Estadístico de prueba Hipótesis alternativa Criterio de rechazo \\(H_0: p_X - p_Y = \\delta_0\\) \\(Z_0 = \\displaystyle\\frac{\\widehat{p}_X-\\widehat{p}_Y-\\delta_0}{\\sqrt{\\widehat{p}\\widehat{q}\\left( \\frac{1}{n_X} + \\frac{1}{n_Y} \\right)}}\\) \\(H_1: p_X - p_Y \\neq \\delta_0\\) \\(|Z_0| \\geq Z_{1-\\alpha/2}\\) \\(H_1: p_X - p_Y \\gt \\delta_0\\) \\(Z_0 \\geq Z_{1-\\alpha}\\) \\(H_1: p_X - p_Y \\lt \\delta_0\\) \\(Z_0 \\leq Z_{\\alpha}\\) donde \\[\\begin{equation} \\notag \\begin{split} \\widehat{p} &= \\frac{n_X\\widehat{p}_X}{n_X+n_Y} + \\frac{n_Y\\widehat{p}_Y}{n_X+n_Y}\\\\ \\widehat{q} & = 1 - \\widehat{p} \\end{split} \\end{equation}\\] Existen otros estadísticos de prueba que se pueden elaborar para este tipo de hipótesis, en particular el que usa R es el estadístico \\(\\chi^2\\). Este estadístico requiere que los datos estén dispuestos en una tabla, tal como se muestra a continuación. Tabla 2.11: Tabla de contingencia en la prueba de hipótesis para la diferencia de proporciones Grupo 1 Grupo 2 Éxitos \\(O_1\\) \\(O_2\\) Fracasos \\(O_3\\) \\(O_4\\) El estadístico en cuestión es el siguiente. \\[\\begin{equation} \\notag \\chi^2_0 = \\sum_{i=1}^n\\frac{(O_i-E_i)^2}{E_i} \\end{equation}\\] Donde \\(E_i\\) y \\(O_i\\) corresponden a la frecuencia esperada y observada en cada celda respectivamente. Las frecuencias esperadas se calculan como el producto de las frecuencias marginales, divido por el total de observaciones. Cabe mencionar que, R solo tiene la capacidad de ejecutar esta prueba cuando \\(\\delta_0 = 0\\), el cual, es el caso en el que nos concentraremos. Los supuestos asociados a esta prueba de hipótesis se asumirán para los enunciados de los ejemplos y/o ejercicios según corresponda. Ejemplo 2.9 Se pretende comparar si existe diferencias en la eficacia de un nuevo fármaco, medido como proporción, entre hombres y mujeres. Los datos se aprecian en la siguiente tabla. Hombre Mujer Sí 20 50 No 120 110 La prueba de hipótesis a plantear, considerando un 95% de confianza, es la siguiente. \\(p_X:\\) proporción de hombres para los cuales le medicamento presentó eficacia. \\(p_Y:\\) proporción de mujeres para los cuales le medicamento presentó eficacia. \\[\\begin{equation} \\notag \\begin{split} H_0&: p_X - p_Y = 0\\\\ H_1&: p_X - p_Y \\neq 0\\\\ \\end{split} \\end{equation}\\] El comando en R para probar está hipótesis es: prop.test( x = c(20,50), # Vector que contenga las frecuencias de los éxitos n = c(140,160), # Vector que contenga los totales por grupo alternative = "two.sided", # Tipo de hipótesis alternativa conf.level = 0.95, # Confianza correct = F # T en caso de que el número de éxitos o fracasos sea menor a 5 (Corrección de Yates) ) ## ## 2-sample test for equality of proportions without continuity correction ## ## data: c(20, 50) out of c(140, 160) ## X-squared = 12.012, df = 1, p-value = 0.0005286 ## alternative hypothesis: two.sided ## 95 percent confidence interval: ## -0.26193633 -0.07734938 ## sample estimates: ## prop 1 prop 2 ## 0.1428571 0.3125000 Como se observa en la última línea de la salida del programa, la proporción de eficacia del fármaco en los hombres es del 14.28% y del 31.25% en las mujeres. Al observar el valor-p (0.0005286), nos damos cuenta de que este es menor a la significancia (0.05). Además, el valor de \\(\\delta_0 = 0\\) no está contenido por intervalo de confianza (-0.26193633, -0.07734938), por lo que, existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, existe suficiente evidencia estadística apoyar la afirmación de que existe diferencia entre hombres y mujeres respecto a la eficacia del fármaco. Ejercicio 2.21 Supongamos que se quiere comparar la proporción de hogares que tienen una cuenta bancaria en dos países, A y B. En el país A, de una muestra aleatoria de 500 hogares, 400 tienen una cuenta bancaria, mientras que en el país B, de una muestra aleatoria de 800 hogares, 600 tienen una cuenta bancaria. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de hogares con cuenta bancaria es significativamente diferente entre los dos países. Ejercicio 2.22 Supongamos que se quiere comparar la proporción de empresas que ofrecen seguro de salud a sus empleados entre dos sectores económicos, manufactura y servicios. En el sector manufacturero, de una muestra aleatoria de 300 empresas, 225 ofrecen seguro de salud a sus empleados, mientras que en el sector de servicios, de una muestra aleatoria de 400 empresas, 300 ofrecen seguro de salud a sus empleados. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de empresas que ofrecen seguro de salud es significativamente diferente entre los dos sectores. Ejercicio 2.23 Supongamos que se quiere comparar la proporción de trabajadores con contratos temporales entre dos empresas, A y B. En la empresa A, de una muestra aleatoria de 400 trabajadores, 120 tienen contratos temporales, mientras que en la empresa B, de una muestra aleatoria de 500 trabajadores, 150 tienen contratos temporales. Realice un análisis de la diferencia de proporciones, y determine si hay evidencia de que la proporción de trabajadores con contratos temporales es significativamente mayor en la empresa A. Ejercicio 2.24 Supongamos que se quiere comparar la proporción de clientes que compran un producto en dos tiendas, A y B. En la tienda A, de una muestra aleatoria de 600 clientes, 200 compran el producto, mientras que en la tienda B, de una muestra aleatoria de 800 clientes, 240 compran el producto. Realiza un análisis de la diferencia de proporciones, y determina si hay evidencia de que la proporción de clientes que compran el producto es significativamente menor en la tienda A. Ejercicio 2.25 Un estudio analizó la cantidad de personas que reciclan y, que a su vez, hacen uso de un servicio privado o público para la recolección de basura (incluye la recolección de reciclaje). Los datos registrados se reflejan en la siguiente tabla. Reciclan No reciclan Servicio privado 128 234 Servicio público 340 260 Plantee una prueba de hipótesis para estudiar si, la proporción de personas que reciclan qué usan el servicio público es menor a la proporción de personas que no reciclan qué uso del mismo tipo de servicio. Utilice una confianza del 97.9%. Concluya utilizando el método del valor-p.  Ejercicio 2.26 La Encuesta de Caracterización Socioeconómica Nacional, Casen, es realizada por el Ministerio de Desarrollo Social y Familia con el objetivo de disponer de información que permita: Conocer periódicamente la situación de los hogares y de la población, especialmente de aquella en situación de pobreza y de aquellos grupos definidos como prioritarios por la política social, con relación a aspectos demográficos, de educación, salud, vivienda, trabajo e ingresos. En particular, estimar la magnitud de la pobreza y la distribución del ingreso; identificar carencias y demandas de la población en las áreas señaladas; y evaluar las distintas brechas que separan a los diferentes segmentos sociales y ámbitos territoriales. Evaluar el impacto de la política social: estimar la cobertura, la focalización y la distribución del gasto fiscal de los principales programas sociales de alcance nacional entre los hogares, según su nivel de ingreso, para evaluar el impacto de este gasto en el ingreso de los hogares y en la distribución del mismo. Su objeto de estudio son los hogares que habitan las viviendas particulares ocupadas que se ubican en el territorio nacional, exceptuando algunas comunas y partes de comunas definidas por el INE como áreas especiales, así como las personas que forman parte de esos hogares. La siguiente tabla, da cuenta de la cantidad de hombres y mujeres (jefes de familia) según su nivel educacional, de una muestra determinada. Hombres Mujeres Universitario completo 220 3201 Escolar completo 7141 4789 Otro nivel educacional 4593 3450 Plantee una prueba de hipótesis para estudiar si, la proporción de mujeres que tienen un nivel educacional distinto al de Escolar Completo, es no mayor igual a la proporción de Hombres que tienen un nivel educacional Escolar Completo. Utilice una confianza del 97.1%. Concluya utilizando el método del intervalo de confianza. Ejercicio 2.27 Se realizó un estudio con el fin de registrar la cantidad de personas morosas respecto al pago de contribuciones, y si estas tienen o no una enfermedad crónica asociada. Las frecuencias se aprecian en la siguiente tabla. Moroso No Moroso Con enfermedad 128 234 Sin enfermedad 340 260 A continuación. Plantee una prueba de hipótesis para estudiar si, las proporciones de personas morosas y no morosas que tienen una enfermedad son distintas. Utilice una confianza del 79.7%. Concluya utilizando el método del valor - p. Plantee una prueba de hipótesis para estudiar si, la proporción de personas con enfermedad que son morosas es no menor igual a la proporción de personas sin enfermedad que son morosas por menos de 0.2 unidades. Utilice una confianza del 91.2%. Concluya utilizando el método del intervalo de confianza. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. "],["regresión-lineal.html", "Unidad 3 Regresión Lineal 3.1 Análisis descriptivo de datos 3.2 Regresión lineal simple 3.3 Regresión lineal múltiple 3.4 Selección de variables 3.5 Predicción de observaciones", " Unidad 3 Regresión Lineal En general, las bases de datos que se trabajarán en esta sección son las siguientes: Tasa Euro/Dólar: Contiene el registro diario histórico de la tasa de cambio del Euro a Dólar durante el 2023. Las columnas de la base de datos son las siguientes: Date: Fecha de medición (yyyy-mm-dd), desde enero del 2003 hasta enero del 2023. Open: tasa de apertura. High: tasa más alta alcanzada en el día. Low: tasa más baja alcanzada en el día. Close: tasa de cierre del día. Adj Close: tasa de cierre ajustada del día (precio de cierre sin dividendos). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Tasa%2Beuro%2Bdolar%2Bhistorica2023.csv") Precios de electricidad: Un conjunto de datos históricos que contiene el precio por hora de la electricidad para Bélgica. Las columnas de la base de datos son las siguientes: MTU: Hora de inicio (formato fecha y hora) del coste de la electricidad. EUR_MWh: Precio por hora (Euros por MWh). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2024-1/Belgian%20Electricity%20Prices.csv") Pacientes: Contiene datos respecto a los ataques al corazón de distintos pacientes hospitalarios. El detalle de algunas de las columnas de la base de datos que utilizaremos son las siguientes: age: edad del paciente (en años). sex: sexo del paciente (Hombre: 1 y Mujer: 0). cp: Tipo de dolor en el pecho, Valor 1: angina típica, Valor 2: angina atípica, Valor 3: dolor no anginoso, Valor 4: asintomático. trtbps: presión arterial en reposo (en mm Hg). chol: nivel de colestorol (en mg/dl). fbs: azúcar en sangre en ayunas \\(>\\) 120 mg/dl (V = 1; F = 0). thalachh: frecuencia cardíaca máxima alcanzada (en latidos por minuto). oldpeak: tiempo de duración del último ataque al corazón (en minutos). El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Heart+complete.csv") Ingreso: Contiene datos relacionados a características de ingresos de estudiantes a un determinada universidad. Las columnas de la base de datos son las siguientes. Sexo: Hombre o Mujer. Ingreso: indica la vía de ingreso del estudiante a la universidad, se clasifica en PTU u Otra. Logro: corresponde a la proporción de logro (número entre 0 y 1, un logro de 0.4 indica que el estudiante respondió correctamente un 40% de la prueba) del estudiante en el diagnóstico de “Comunicación escrita” aplicado por la universidad. LEN: Puntaje PTU - Lenguaje. NEM: Puntaje NEM del estudiante. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Heart+complete.csv") Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes: Ano: Año de medición del Imacec. Mes: Mes de medición del Imacec. Mineria: Imacec del sector de minería. Industria: Imacec del sector de industria. El código para cargar la base de datos en R es: datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") 3.1 Análisis descriptivo de datos 3.1.1 Gráficos descriptivos En este apartado, se considera la representación de un conjunto de datos por medio de técnicas visuales. A continuación, se hará mención de algunas de las técnicas más útiles y pertinentes a la estadística de descriptiva. Los ejemplos presentados en esta sección hacen uso de la base de datos de la unidad (sección 3.1). 3.1.1.1 Histograma Algunos datos numéricos se obtienen contando para determinar el valor de una variable (cuántas veces se repite un hecho), mientras que otro datos se obtienen tomando mediciones (peso, altura, tiempo de reacción). Usualmente, este tipo de gráfico se utiliza con datos continuos (aunque tiene una versión para datos discretos), para lo cual, se debe hacer lo siguiente (Devore, 2008, página 12): Subdividir los datos en intervalos de clase o clases, de tal manera que cada observación quede contenida en exactamente una clase. Para esto, se hace uso de la regla de Sturges (1926), la cual, consiste en calcular la expresión \\(1+\\log_2(n)\\), aproximando hacia el entero más próximo, dónde \\(n\\) corresponde a la cantidad de datos (existen otra variedad de técnicas). Determinar la frecuencia y la frecuencia relativa de cada clase, es decir, cuántas observaciones hay en cada uno de los intervalos. Se marcan los límite de clase sobre el eje horizontal del plano cartesiano. Se traza un rectángulo cuya altura es la frecuencia absoluta (o relativa) correspondiente a cada intervalo de clase. Para generar un histograma en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): library(ggplot2) # Librería de ggplot2 ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = Close)) + # Eje X y variable asociada geom_histogram( # Objeto a graficar: histograma bins = round(1 + log2(dim(datos)[1])), # Cantidad de intervalos del histograma: regla de Sturges color = "black", # Color del borde de las barras del histograma fill = "white", # Color de relleno de las barras closed = "left") + # Tipo de intervalo del histograma labs( # Títulos title = "Histograma EUR/USD", # Título del gráfico x = "Tasa de cierre", # Título del eje X y = "Frecuencia") # Título del eje Y Para interpretar un histograma, basta con indicar los siguientes aspectos: Forma visual de la distribución de las barras (en general). Mencionar si existe una concentración fuera del comportamiento general, y en dónde se encuentra. En el caso del histograma de la tasa de cierre del EUR/USD, se observa una forma de campana centrada cerca del 1.3, además, se evidencia la presencia de una frecuencia superior al resto que se encuentra la izquierda del gráfico cerca del 1.1. Cabe mencionar, que existen otros aspectos que son posibles mencionar, para ello consulte la bibliografía del curso. Es útil recordar que el histograma está asociado a una tabla de frecuencia por intervalos. Para obtener la tabla asociada a un histograma se puede utilizar el siguiente código. # Datos del histograma guardados h = hist(datos$Close, # Datos a graficar en el histograma breaks = 13, # Cantidad de intervalos: regla de Sturges right = F, # Cerrado por la izquierda plot = F) # No desplegar el gráfico en consola library(agricolae) # Librería para generar la tabla de frecuencias print(table.freq(h)) # Imprime en consola la tabla de frecuencias ## Lower Upper Main Frequency Percentage CF CPF ## 1 0.95 1.00 0.975 46 0.9 46 0.9 ## 2 1.00 1.05 1.025 89 1.8 135 2.7 ## 3 1.05 1.10 1.075 444 8.9 579 11.7 ## 4 1.10 1.15 1.125 839 16.9 1418 28.6 ## 5 1.15 1.20 1.175 591 11.9 2009 40.5 ## 6 1.20 1.25 1.225 634 12.8 2643 53.2 ## 7 1.25 1.30 1.275 614 12.4 3257 65.6 ## 8 1.30 1.35 1.325 654 13.2 3911 78.8 ## 9 1.35 1.40 1.375 510 10.3 4421 89.0 ## 10 1.40 1.45 1.425 257 5.2 4678 94.2 ## 11 1.45 1.50 1.475 166 3.3 4844 97.5 ## 12 1.50 1.55 1.525 38 0.8 4882 98.3 ## 13 1.55 1.60 1.575 84 1.7 4966 100.0 Ejercicio 3.1 Utilizando la base de datos de Precios, elabore un histograma de los precios de la electricidad. Interprete. 3.1.1.2 Gráfico de Caja El gráfico de caja se utiliza para describir las siguiente características de un conjunto de datos (Devore, 2008, página 35): El centro. La dispersión. El grado y naturaleza de cualquier alejamiento de la simetría. La identificación de las observaciones “extremas” (atípicas) inusualmente alejadas del cuerpo principal de los datos. Los pasos para elaborar un gráfico de caja son los siguiente (Anderson et al., 2008, página 106): Se dibuja una caja cuyos extremos se localicen en primer y tercer cuartiles. Esta caja contiene 50% de los datos centrales. En el punto donde se localiza la mediana se traza una linea horizontal. Usando el rango intercuartílico (\\(RIC = Q_3-Q_1\\)), se localizan los límites. En un gráfico de caja los límites se encuentra a \\(1.5RIC\\) abajo y arriba de \\(Q_1\\) y \\(Q_3\\) respectivamente. Los datos que quedan fuera de estos límites se consideran observaciones atípicas (Tukey, 1977). La razón por la cual se considera 1.5 veces el rango intercuartílico es convencional, no obstante, hay argumento relacionados a la cantidad de datos dentro de los limites inferior y superior, los cuales indican que debe ser de 99.7% (James et al., 2013). Las lineas que se extienden verticalmente desde la caja se les llama bigotes. Los bigotes van desde los extremos de la caja hasta los valores menor y mayor de los límites calculados en el paso 3. Mediante puntos se indica la localización de las observaciones atípicas. Para generar un gráfico de caja en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos y = Close)) + # Eje Y y variable asociada geom_boxplot( # Objeto a graficar: gráfico de caja color = "black", # Color del borde del gráfico fill = "white") + # Color de relleno del gráfico labs( # Títulos title = "Caja EUR/USD (opción 1)", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) # Elimina los números del eje X info = unlist(ggplot_build(g)[[1]]) # Guardamos los valores del gráfico values = round(as.numeric(info[1:5]), 3) # Extraemos los valores de construcción g1 = g + # Creamos un nuevo gráfico a partir del anterior scale_y_continuous( # Modificar el eje Y breaks = values, # Modificamos los puntos a considerar en el eje Y labels = values) + # Modificamos los valores mostrados en el eje Y labs( # Títulos title = "Caja EUR/USD (opción 2)") # Título del gráfico library(gridExtra) # Librería para juntar gráficos de ggplot2 grid.arrange(g, # Gráfico g1, # Gráfico ncol = 2) # Despliegue en a dos columnas Para interpretar un gráfico de caja es recomendable utilizar la opción 2 mostrada anteriormente, ya que, se debe mencionar uno de los puntos relevantes del gráfico. En el ejemplo recién dado, se observa que, el primer, segundo y tercer cuartil están en 1.135, 1.233 y 1.335 respectivamente, mientras que el valor mínimo y máximo están en 0.96 y 1.559 respectivamente. Adicionalmente, se puede mencionar que los datos superiores en comparación a los inferiores, se encuentran más alejados de la mediana. Ejercicio 3.2 Utilizando la base de datos de Precios, elabore un gráfico de caja de los precios de la electricidad. Interprete. 3.1.1.3 Gráfico de Violín El gráfico de violín proporciona una representación más completa y precisa de la distribución de los datos que las técnicas anteriores, ya que muestra tanto la forma de la distribución como su concentración (Hintze & Nelson, 1998). La utilidad de este gráfico recae en la comparación de la distribución de los datos entre distintos grupos y/o categorías. El proceso de construcción del gráfico es el siguiente: Dibujo de la traza de densidad: la traza de densidad se dibuja sobre el eje vertical en el gráfico de violín (“forma suavizada del histograma”). Creación de la sección central simétrica: se crea una sección central simétrica que representa la mitad de la traza de densidad. Adicionalmente, es común agregar un gráfico de caja junto al de violín con el fin de incorporar la visualización de las medidas de posición. Para generar un gráfico de violín en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): # Se guarda el gráfico en una variable para posteriormente # integrar otros gráficos dentro de este. g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = 1, # Se fija el valor horizontal del gráfico (a elección) y = Close)) + # Eje Y y variable asociada geom_violin( # Objeto a graficar: violín trim = F, # Modifica las terminaciones visuales superior e inferior fill = "white") + # Color de relleno del gráfico labs( # Títulos title = "Violín EUR/USD", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) # Elimina los números del eje X g # Desplegamos el gráfico en el visualizador # Agregamos otros elementos al gráfico guardado g + geom_boxplot( # Objeto a graficar: gráfico de caja width = 0.1, # Anchura proporcional del nuevo gráfico de caja color = "black", # Color de borde del gráfico fill = "white") + # Color de relleno del gráfico stat_summary( # Función para agregar información de resumen fun = mean, # Tipo de información: promedio geom = "point", # Forma visual size = 1, # Tamaño color = "red", # Color orientation = "x") # Orientación Para interpretar un gráfico de violín con caja y promedio se deben mencionar tres aspectos relevantes: Ubicación de la(s) mayor(es) concentración(es) de datos, utilizando como referencia los cuartiles. Ubicación del promedio respecto a la mediana. Posibles razones por las cuales se explica la ubicación anteriormente mencionada del promedio respecto a la mediana. En el ejemplo anterior, la principal concentración se encuentra por debajo del primer cuartil, aunque destacan otras dos concentraciones que están por debajo del segundo cuartil y alrededor del tercer cuartil respectivamente. El promedio se encuentra sutilmente por encima de la mediana, esto se puede explicar debido a que los datos superiores del gráfico se encuentra más lejos de la mediana en comparación a los datos inferiores. Ejercicio 3.3 Utilizando la base de datos de Precios, elabore un gráfico de violín con caja y promedio de los precios de la electricidad. Interprete. Ejemplo 3.1 El siguiente código, crea una nueva columna en la base de datos que identifica el año en el que se realizó la medición de las tasas. A continuación, elabore un gráfico de violín (más gráfico de caja y promedio) de la variable Close en el periodo de años 2006-2010, diferenciando por año. # Extraemos el año de la variable Date, y la guardamos en un nueva columna datos$Ano = substr(datos$Date, 1, 4) ggplot( # Ambiente gráfico data = datos[datos$Ano %in% 2006:2010,], # Base de datos a utilizar aes( # Comandos estéticos x = 1, # Se fija el valor horizontal del gráfico (a elección) y = Close)) + # Eje Y y variable asociada geom_violin( # Objeto a graficar: violín trim = F, # Modifica las terminaciones visuales superior e inferior fill = "white") + # Color de relleno del gráfico geom_boxplot( # Objeto a graficar: gráfico de caja width = 0.1, # Anchura proporcional del nuevo gráfico de caja color = "black", # Color de borde del gráfico fill = "white") + # Color de relleno del gráfico stat_summary( # Función para agregar información de resumen fun = mean, # Tipo de información: promedio geom = "point", # Forma visual size = 1, # Tamaño color = "red") + # Color labs( # Títulos title = "Violín EUR/USD", # Título del gráfico x = "", # Título del eje X y = "Tasa de cierre") + # Título del eje Y theme( # Aspectos visuales del gráfico axis.ticks.x = element_blank(), # Elimina las regletas del eje X axis.text.x = element_blank()) + # Elimina los números del eje X facet_wrap( # Segregación del gráfico vars(Ano), # Variable que se utiliza para segregar el gráfico nrow = 1) # Disposición visual: una fila Para interpretar este tipo de gráficos, se debe realizar un interpretación uno a uno, siguiendo la recomendación antes dada. También, es posible comprar los gráficos a través de la media y coeficiente de variabilidad. Para este ejemplo, queda como trabajo del estudiante realizar esta comparación. Ejercicio 3.4 Utilizando la base de datos de Paciente Realice un gráfico de violín con caja y promedio del nivel de colesterol de los paciente, diferenciando por el nivel de azúcar en sangre en ayunas. Interprete. Ejercicio 3.5 Agregue una diferenciación por sexo a lo realizado en el ejercicio 3.4. Entienda que para cada nivel de azúcar en sangre se debe ver un desglose por sexo. Interprete. Ejercicio 3.6 Utilizando la base de datos de Precios, realice un gráfico de violín con caja y promedio para el precio de la electricidad, diferenciado por año. Interprete. 3.1.1.4 Gráfico de Barras Una gráfico de barras, es una gráfica para representar los datos cualitativos de una distribución de frecuencia. El procedimiento de construcción es el siguiente (Anderson et al., 2008, página 29). En uno de los ejes de la gráfica (por lo general en el horizontal), se especifican las etiquetas empleadas para las clases (categorías). Para el otro eje de la gráfica (el vertical) se usa una escala para frecuencia, frecuencia relativa o frecuencia porcentual. Finalmente, se emplea un ancho de barra fijo y se dibuja sobre cada etiqueta de las clases una barra que se extiende hasta la frecuencia de la clase (a diferencia del histograma, las barras deben estar separadas notoriamente). Para generar un gráfico de barras en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): # Nueva variable para dicotomizar la tasa de cierre del EUR/USD datos$Close2 = ifelse(datos$Close > 1.1, # Criterio "Mayor a 1.1", # Valor asignado si se cumple el criterio "Menor a 1.1") # Valor asignado si no se cumple el criterio ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comandos estéticos x = Close2)) + # Eje Y y variable asociada geom_bar( # Objeto a graficar: gráfico de barras fill = "white", color = "black") + # Color de relleno y borde labs( # Títulos title = "Barras EUR/USD", # Título del gráfico x = "Tasa de cierre", # Título del eje X y = "Frecuencia") # Título del eje Y La interpretación de este tipo de gráfico (gráfico de barras no apiladas) es bastante intuitiva, ya que consiste en mencionar cuál categoría tiene un mayor frecuencia. En caso de graficar una variable con más de 2 categorías, se debe mencionar a que altura del eje vertical se encuentra la altura de cada una de las barras. Para obtener mayor detalles respecto a las frecuencias por categoría, suele apoyarse con un tabla de frecuencias absolutas o relativas porcentuales. En el ejemplo, la frecuencia de la cantidad de tasas de cierre que se encuentran por sobre 1.1 es mayor a las que se encuentran por debajo, con una frecuencia sobre 4000 y menor a 1000 respectivamente. Ejercicio 3.7 Utilizando la base de datos Pacientes, elabore un gráfico de barras de la variable fbs. Interprete, apoyado de una tabla de frecuencias absolutas. Ejercicio 3.8 Utilizando la base de datos Pacientes, elabore un gráfico de barras (no apiladas) de la variable cp, diferenciado por sexo. Interprete, apoyado de una tabla de frecuencias relativas porcentuales. Haga el contraste visual con el gráfico de barras apiladas. 3.1.1.5 Gráfico de Dispersión El gráfico de dispersión es útil para estudiar la relación entre dos variables continuas. Muestra cómo varía un variable en función de la otra y puede ayudar a identificar patrones y tendencias (Rowlingson, 2016). Los pasos para elaborar un gráfico de caja son los siguiente (Healy, 2019): Elegir dos variables continuas de la base de datos a trabajar. Cada fila corresponde a una observación, por lo cual, hay una correspondencia entre los valores de una misma fila. Elegir la variable estará en el eje X y Y. Representar cada par ordenado con un punto. Para generar un gráfico de dispersión en R a partir de un conjunto de datos, se utiliza el siguiente código (se toma como ejemplo la base de datos Tasa Euro/Dólar): ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Open, # Eje X y variable asociada y = Close)) + # Eje Y y variable asociada geom_point( # Objeto a graficar: Gráfico de dispersión color = "black", # Color alpha = 0.3) + # Opacidad labs( # Títulos title = "Tasa de apertura y cierre del EUR/USD", # Título del gráfico x = "Tasa de apertura", # Título del eje X y = "Tasa de cierre") # Título del eje Y Tal como se menciona al inicio, la interpretación de este tipo de gráficos radica en describir la tendencia de los puntos. En el ejemplo anterior, el gráfico muestra una tendencia al alza, es decir, que cuando la tasa de apertura del EUR/USD aumenta, entonces, la tasa de cierre tiende a aumentar. Ejercicio 3.9 Utilizando la base de datos Pacientes, realice un gráfico de dispersión entre la variable age (eje X) y la variable thalachh (eje Y). Interprete. Ejemplo 3.2 En los siguiente gráficos se toma como ejemplo la base de datos Tasa Euro/Dólar. Es posible utilizar el gráfico de dispersión con variables que en su naturaleza son discretas. En este sentido, elabore un gráfico de dispersión entre el año de medición y el valor promedio de tasa de apertura del EUR/USD (guarde el gráfico en una variable). g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Ano, # Eje X y variable asociada y = Open, # Eje Y y variable asociada group = 1)) + # Comando únicamente necesario para la pregunta 2 geom_point( # Objeto a graficar stat = "summary", # Tipo de información a graficar: resumen fun = "mean") + # Tipo de resumen: promedio de la variable Y labs( # Títulos title = "Tasa de apertura promedio del EUR/USD por año", # Título del gráfico x = "Año", # Título del eje X y = "Tasa de apertura") # Título del eje Y g # Desplegamos el gráfico guardado Añadir al gráfico un formato de líneas entre los puntos. Interprete. g = g + # Añadimos otro gráfico geom_line( # Objeto a graficar: lineas stat = "summary", # Tipo de información a graficar: resumen fun = "mean") # Tipo de resumen: promedio de la variable Y g # Desplegamos el gráfico guardado Hasta el 2008 la tasa promedio de apertura estuvo en alza, posteriormente, la tasa decayó a un valor inferior a 1.1. Grafique el valor de la tasa de apertura del EUR/USD desde el 2020 hasta el 2022 separadamente. Interprete. datos$Date = as.Date(datos$Date) # Fechas en formato fecha de R g = ggplot( # Ambiente gráfico data = datos[datos$Ano %in% 2020:2022,], # Datos de los años 2020 al 2022 aes( # Comando estéticos x = Date, # Comandos estéticos: Eje X y variable asociada y = Open)) + # Eje Y y variable asociada geom_point( # Objeto a graficar alpha = 0.5, # Opacidad size = 0.6) + # Tamaño theme( # Aspectos visuales del gráfico axis.text.x = element_blank()) + # Eliminamos el texto del eje X facet_wrap( # Segregación del gráfico vars(Ano), # Variable que se utiliza para segregar el gráfico nrow = 1, # Disposición visual: una fila scales = "free_x") + # La escala del eje X es independiente para gráfico labs( # Títulos title = "Tasa de apertura del EUR/USD desde el 2020 hasta el 2022", # Título del gráfico x = "Fecha", # Título del eje X y = "Tasa de apertura") # Título del eje Y g # Desplegamos el gráfico guardado Durante los 3 años consecutivos, se observa que únicamente en el 2020 la tendencia de la tasa de apertura es al alza, mientra que para los otros dos años hubo un decaimiento en el valor de esta. Grafique el valor de la tasa de apertura del EUR/USD diferenciando por año. Interprete. g = ggplot( # Ambiente gráfico data = datos, # Base de datos a utilizar aes( # Comando estéticos x = Date, # Comandos estéticos: Eje X y variable asociada y = Open, # Eje Y y variable asociada color = Ano)) + # Color según el año geom_point( # Objeto a graficar alpha = 0.5, # Opacidad size = 0.7) + # Tamaño labs( # Títulos color = "Año", # Título de la leyenda title = "Tasa de apertura del EUR/USD", # Título del gráfico x = "Fecha", # Título del eje X y = "Tasa de apertura") + # Título del eje Y guides( # Edición de escalas color = guide_legend( # Escala de color de la leyenda override.aes = list( # Comando estéticos asociados alpha = 1, # Opacidad de los puntos size = 3))) # Tamaño de los puntos g # Desplegamos el gráfico guardado Al observar la evolución histórica de la tasa de apertura diferenciada por año, se aprecia que el periodo 2008 - 2010 es aquel con predominancia de valores más altos. Por otro lado, desde el 2016, se registraron pro primera vez valores menores a 1.1. En años posteriores, no ha observado que la tasa supere los 1.3 puntos. Ejercicio 3.10 Utilizando la base de datos de la Tasa Euro/Dólar: Elabore un gráfico de dispersión entre el año de medición y el valor promedio de tasa de cierre del EUR/USD (guarde el gráfico en una variable). Añadir al gráfico un formato de líneas entre los puntos. Interprete. Grafique el valor de la tasa de cierre del EUR/USD desde el 2010 hasta el 2013 separadamente. Interprete. Grafique el valor de la tasa de cierre del EUR/USD diferenciando por año. Interprete. Ejercicio 3.11 Utilizando la base de datos de Precios de electricidad, elabore un gráfico de dispersión del precio de la electricidad a través del tiempo (considere año, mes y día). Interprete. Ejercicio 3.12 Utilizando la base de datos de Pacientes: Elabore un histograma del nivel de colesterol de los pacientes. Interprete. Elabore un gráfico de caja del nivel de colesterol de los pacientes, diferenciando por sexo. Interprete y compare. Elabore un gráfico de violín (más caja y promedio) del nivel de colesterol de los pacientes, diferenciado por tipo de dolor en el pecho. Interprete y compare. Elabore un gráfico de dispersión entre la edad (eje X) y el nivel de colesterol (eje Y) de los pacientes, coloreando por sexo. Interprete. 3.1.2 Covarianza Es posible entender las relaciones entre dos o más variables, gráficamente y a través de estadísticos. En esta sección seabarcarán las relaciones lineales entre dos variables cuantitativas, utilizando la Covarianza y la Correlación. El gráfico que apoya a estas dos medidas es el gráfico de dispersión. La Covarianza entre dos variables de la misma muestra, se puede calcular como: \\[\\begin{equation} S_{XY} = \\displaystyle\\frac{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})(y_i-\\bar{y})}{n-1} \\tag{3.1} \\end{equation}\\] La utilidad radica en el signo de esta expresión, el cual, da a conocer el tipo de relación lineal entre las variables \\(X\\) e \\(Y\\). Para interpretar esta expresión se puede usar la siguiente regla. Si \\(S_{XY} = 0\\), entonces no existe relación lineal entre \\(X\\) e \\(Y\\). Si \\(S_{XY} > 0\\), entonces existe una relación lineal directa o positiva entre \\(X\\) e \\(Y\\). Esto es, a mayores valores de \\(X\\), en promedio tenemos mayores valores de \\(Y\\) y viceversa. Si \\(S_{XY} < 0\\), entonces existe una relación lineal inversa o negativa entre \\(X\\) e \\(Y\\). Esto es, a mayores valores de \\(X\\), en promedio tenemos menores valores de \\(Y\\) y viceversa. Ejemplo 3.3 Por ejemplo, si \\(S_{XY} = -1000\\), ¿qué podemos decir acerca de la relación entre \\(X\\) e \\(Y\\)? La relación entre las variables es inversa. No podemos decir nada acerca de qué tan fuerte es la relación; para eso tendríamos calcular el coeficiente de correlación. Nota: En R, se utiliza el comando cov() para calcular covarianza entre dos variables. A cotinuación, se estudia gráficamente la covarianza entre dos variables. Para ello, se necesita del gráfico de dispersión y de las líneas promedio de ambas variables. En este caso, la mayoría de los puntos están en los cuadrantes ‘\\(+ +\\)’ y ‘\\(- -\\)’, y en estos cuadrantes la expresión \\((x_i-\\bar{x})(y_i-\\bar{y})\\) es positiva; por eso la covarianza es positiva (aunque también necesario considerar que tan lejos están los puntos de la intersección de las líneas promedio). ¿Es pronunciada la relación lineal? 3.1.3 Correlación Aunque con el signo de la covarianza podemos detectar el tipo de relación entre dos variables, al depender de las unidades de \\(X\\) y de \\(Y\\), no sabemos si corresponde a un relación fuerte o débil (es decir, la forma lineal es fuertemente o débilmente pronunciada); sólo sabemos el signo. Para solucionar esto, estandarizamos los valores. La fórmula que realiza este proceso utilizando la covarianza es \\[\\begin{equation} r_{XY} = \\frac{S_{XY}}{S_{X}S_{Y}} \\tag{3.2} \\end{equation}\\] Este estadístico, también conocido como Coeficiente de correlación de Pearson se encuentra entre -1 y 1. Si \\(r_{XY} = 0\\), entonces no hay relación lineal o con relación lineal débil entre las variables. Si \\(r_{XY}\\) es cercano a 1, entonces hay relación lineal directa y fuerte entre variables. Si \\(r_{XY}\\) es cercano a \\(-1\\), entonces hay relación lineal inversa y fuerte entre las variables. Una regla más fina sobre la intensidad de la relación es (Ratner, 2009): \\(r_{XY} = 0\\) indica que no hay relación lineal. \\(r_{XY} = 1\\) indica una relación lineal positiva perfecta: a medida que una variable aumenta en sus valores, la otra variable también aumenta en sus valores a través de una regla lineal exacta. \\(r_{XY} = -1\\) indica una relación lineal negativa perfecta: a medida que una variable aumenta en sus valores, la otra variable disminuye en sus valores a través de una regla lineal exacta. Los valores entre \\(0\\) y \\(0.3\\) (\\(0\\) y \\(−0.3\\)) indican una relación lineal positiva (negativa) débil a través de una regla lineal inestable. Valores entre \\(0.3\\) y \\(0.7\\) (\\(-0.3\\) y \\(−0.7\\)) indican una relación lineal positiva (negativa) moderada a través de una regla lineal difusa-firme. Los valores entre \\(0.7\\) y \\(1.0\\) (\\(−0.7\\) y \\(−1.0\\)) indican una fuerte relación lineal positiva (negativa) a través de una regla lineal firme. Ejercicio 3.13 Por ejemplo, si \\(r_{XY} = -0.96\\), ¿qué podemos decir acerca de la relación entre \\(X\\) e \\(Y\\)? A continuación, se estudia gráficamente la correlación entre dos variables. Para ello, se necesita del gráfico de dispersión y una recta que refleje la asociación lineal (detalles de esta recta en secciones posteriores). ¿Cómo se comportan los puntos al rededor de la línea azul? Ejercicio 3.14 La base de datos graficos+dolar.csv contiene el valor del dólar observado de algunos de los días de los meses de junio y julio del 2022, tomados por el el SII. A continuación: Realice un histograma del valor de dólar. Realice un histograma del valor de dólar diferenciado por mes. Utilice el comando facet_grid(\\(\\sim\\) Mes). Reordene los gráficos por mes. Para ello convierta la variable Mes a factor, ordenando los meses como corresponde. Realice un gráfico de Violín con caja y promedio del valor de dolar. Interprete lo observado. Separe el gráfico anterior por mes. Comente lo observado. Estudie las medidas de asociación entre los valores del dólar de los primeros 18 registros de cada mes. Interprete. ¿Por qué no es posible comparar todos los registros de cada uno de los meses? Realice un gráfico de dispersión de los para estudiar las medidas de asociación entre las variables de la pregunta 6. 3.2 Regresión lineal simple La regresión lineal simple (RLS) consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente, predicha o respuesta se le identifica como \\(Y\\) y a la variable predictora o independiente como \\(X\\). (Devore, 2008, página 450) El modelo de regresión lineal simple se describe de acuerdo a la ecuación: \\[\\begin{equation} Y_i = \\beta_0 + \\beta_1X_i + \\epsilon_i \\text{ , }i = 1,\\ldots ,n \\text{ , } \\epsilon_i \\sim N(0,\\sigma^2) \\tag{3.3} \\end{equation}\\] Una ejemplificación de esta ecuación es la siguiente (3.1). Figura 3.1: Ecuación de regresión Siendo \\(\\beta_0\\) la ordenada en el origen, \\(\\beta_1\\) la pendiente y \\(\\epsilon\\) el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real (línea de color rojo en el gráfico enla figura 3.2), el cual, recoge el efecto de todas aquellas variables que influyen en \\(Y\\) pero que no se incluyen en el modelo como predictores. En el gráfico 3.2 es posible apreciar los errores como el distanciamiento de los puntos respecto de la recta. Figura 3.2: Errores de una ecuación de regresión La ecuación (3.3) representa la ecuación de regresión verdadera (o poblacional). Sin embargo, no es posible conocer el valor de \\(\\beta_0\\) y \\(\\beta_1\\), ya que son parámetros poblacionales (de antemano, no se conocen todos los datos de la población), por lo cual, se se deben determinar estimadores que permitan aproximar los valores de estos parámetros a partir de una muestra (“base de datos”), para así de determinar una expresión estimada de esta ecuación de regresión verdadera. 3.2.1 Estimadores de mínimos cuadrados Una forma intuitiva de abordar el problema de estimar \\(\\beta_0\\) y \\(\\beta_1\\) es minimizando los errores aleatorios. Para ello, se hace uso de la ecuación de regresión verdadera: \\[ Y_i = \\beta_0 + \\beta_1X_i + \\epsilon_i \\] Luego, es posible escribir el error aleatorio de la siguiente manera: \\[ \\epsilon_i = Y_i - [\\beta_0 + \\beta_1X_i] \\] Para considerar el error en cada uno de los puntos al rededor de la recta de regresión verdadera se considera la suma de los errores. Sin embargo, para tener mayor facilidad en el proceso de determinar los estimadores, se elevan los errores al cuadrado (suma cuadrática de errores). \\[ \\sum_{i=1}^n\\epsilon_i^2 = \\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2 \\] Llegado a este punto, es natural minimizar esta función, ya que los valores de \\(\\beta_0\\) y \\(\\beta_1\\) estimados buscan dar lugar a la recta que “pasa más cerca de todos lo puntos”. Los estimadores de \\(\\beta_0\\) y \\(\\beta_1\\) se denotan por \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) respectivamente, y son denominados como Estimadores de Mínimos Cuadrados (EMC). La ecuación (3.4) representa la ecuación de regresión ajustada (estimada) mediante una muestra. \\[\\begin{equation} \\widehat{Y}_i = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_i \\tag{3.4} \\end{equation}\\] Los estimadores de \\(\\beta_0\\) y \\(\\beta_1\\) son (detalles del desarrollo en el anexo A.1): \\[\\begin{equation} \\widehat{\\beta}_1 = \\frac{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})(y_i-\\bar{y})}{\\displaystyle\\sum_{i=1}^n(x_i-\\bar{x})^2} = \\frac{S_Y}{S_X}r_{XY} \\tag{3.5} \\end{equation}\\] \\[\\begin{equation} \\widehat{\\beta}_0 = \\bar{y} - \\widehat{\\beta}_1\\bar{x} \\tag{3.6} \\end{equation}\\] Los valores de \\(S_y\\) y \\(S_x\\) son las desviaciones estándar de cada variable y \\(r_{XY}\\) el coeficiente de correlación entre estas. \\(\\widehat{\\beta}_0\\) es el valor esperado la variable \\(Y\\) cuando \\(X = 0\\), es decir, la intersección de la recta con el eje \\(y\\). En ocasiones, no tiene interpretación práctica (situaciones en las que \\(X\\) no puede adquirir el valor 0). \\(\\widehat{\\beta}_1\\) corresponde al valor de la pendiente. La interpretación de este valor se detalla más adelante. \\(\\widehat{Y}\\) se entiende como el valor esperado, es decir, el valor promedio (muestral) de \\(Y\\). La diferencia entre los valores reales \\(Y\\) (en la base de datos) y los valores de la recta estimada (\\(\\widehat{Y}\\)) se denominan residuos, que se denotan por la letra \\(e\\). Estos se observan de la misma forma que los errores aleatorios (figura 3.2). Ejemplo 3.4 El archivo cuota+patrimonio.csv contiene los valores cuota (pesos) y valor del patrimonio (miles de millones de pesos) de los primeros dos meses del año 2022 de la AFP UNO. En R: Realice un estudio inicial de los datos, elaborando un gráfico de violín + caja + promedio para cada una de las variables. Inspeccionamos la base de datos. datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/cuota%2Bpatrimonio.csv") str(datos) ## 'data.frame': 59 obs. of 2 variables: ## $ Valor.Cuota : num 65594 65594 65356 65860 65813 ... ## $ Valor.Patrimonio: num 186 186 185 187 187 ... Luego, realizamos el gráfico de violín con caja y promedio. ggplot(data = datos, aes(y = 1, x = Valor.Cuota)) + geom_violin(trim = F) + geom_boxplot(width = 0.1) + stat_summary(fun = mean, color = "red", geom = "point", orientation = "y") + labs(y = "", x = "Pesos", title = "Valor Cuota") Se observa, que la mayor concentración de datos se encuentra entre el primer y segundo cuartil. Además, el cierre superior del gráfico de violín presenta una mayor concentración de datos que el cierre inferior, lo cual, explica la posición del promedio por sobre la mediana. ggplot(data = datos, aes(y = 1, x = Valor.Patrimonio)) + geom_violin(trim = F) + geom_boxplot(width = 0.1) + stat_summary(fun = mean, color = "red", geom = "point", orientation = "y") + labs(y = "", x = "Miles de millones de pesos", title = "Valor Patrimonio") Se observa, que la mayor concentración de datos se encuentra entre el primer y segundo cuartil. Una segunda concentración se encuentra por sobre el tercer cuartil , lo cual, explica la posición del promedio por sobre la mediana. Estudie la correlación entre ambas variables. cor(datos$Valor.Cuota, datos$Valor.Patrimonio) ## [1] 0.9218759 El valor de la correlación indica que la relación lineal entre las dos variables es positiva y fuerte. Esto quiere decir que, cuando en promedio el valor cuota aumenta, el promedio el valor del patrimonio también aumenta. Considerando que desea explicar el valor del patrimonio a partir del valor cuota. Determine los valores de \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) utilizando el comando lm(). modelo = lm(Valor.Patrimonio ~ Valor.Cuota, data = datos) modelo ## ## Call: ## lm(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## Coefficients: ## (Intercept) Valor.Cuota ## -1.353e+02 4.936e-03 Escriba la ecuación de la recta de regresión ajustada. \\[ \\widehat{Y}_i = -135.3 + 0.004936X_i \\] Realice un gráfico de la la recta de regresión y los residuos del modelo. # Guardamos los valores de la recta estimada en una nueva columna en la base de datos datos$Ajustados = modelo$fitted.values ggplot(data = datos, aes(x = Valor.Cuota, y = Valor.Patrimonio)) + geom_segment(aes(x = Valor.Cuota, xend = Valor.Cuota, y = Valor.Patrimonio, yend = Ajustados), color = "red") + labs(x = "Valor Cuota", y = "Valor Patrimonio", title = "Ecuación de regresión ajustada") + geom_point() + geom_smooth(method = lm, se = FALSE, formula = 'y ~ x') Para interpretar cada uno de los beta estimados se debe hacer en función de la variable de estudio (variable dependiente). En este sentido, \\(\\widehat{\\beta}_1\\): corresponde a la pendiente de la ecuación de la recta de regresión ajustada, e indica un avance lineal constante en crecimiento o en decrecimiento dependiendo de su valor. La interpretación de este parámetro, está sujeta a la unidad de medida de la variable predictora \\(X\\), de tal manera, que una cambio en una unidad de medida de la variable \\(x\\), afecta en promedio \\(\\widehat{\\beta}_1\\) unidades en la variable \\(Y\\). En el ejemplo 3.4, el valor de \\(\\widehat{\\beta}_1\\) es de 0.004936 , lo cual indica que por cada unidad de valor cuota (por cada peso), el valor del patrimonio aumenta en promedio 0.004936 miles de millones pesos. \\(\\widehat{\\beta}_0\\): es el intercepto de la ecuación de la recta de regresión ajustada, y se debe verificar que el valor obtenido tenga sentido con el fenómeno. En el ejemplo 3.4, se obtiene un valor lejano a cero (-135.2584663), por lo que, cuando \\(\\beta_1x\\) vale cero (es decir, una cantidad de cuotas igual a 0), el valor del promedio del patrimonio es menor a cero. Esto tiene sentido, ya que las cuotas no constituyen la totalidad del valor del patrimonio de la AFP (en el ejemplo se trabaja con un fondo en específico de los cinco existentes, de un determinado producto de inversión). Ejercicio 3.15 Utilizando la base de datos Ingreso: Realice un estudio inicial de los datos, elaborando un gráfico de violín + caja + promedio para cada una de las variables cuantitativas continuas, mientras que para las variables categóricas elabore tablas de frecuencias relativas. Considerando que desea explicar la proporción de logro en el diagnóstico de comunicación escrita a partir del puntaje en la PTU de Lenguaje (considere esto para las siguientes preguntas), estudie la correlación entre ambas variables. Determine los valores de \\(\\widehat{\\beta}_0\\) y \\(\\widehat{\\beta}_1\\) utilizando el comando lm(). Interprete los valores. Escriba la ecuación de la recta de regresión ajustada. Realice un gráfico de la la recta de regresión ajustada y los residuos del modelo. 3.2.2 Pruebas de hipótesis Los modelos de regresión lineal simple incluyen pruebas de hipótesis asociadas a los betas, además de otro tipo de información. En R es posible utilizar el comando summary() para acceder al resumen de información. A continuación, a modo de ejemplo se utiliza el modelo elaborado en el ejemplo 3.4. summary(modelo) ## ## Call: ## lm(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8.0070 -2.9085 -0.0636 3.8231 8.5680 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -1.353e+02 1.695e+01 -7.982 7.37e-11 *** ## Valor.Cuota 4.936e-03 2.748e-04 17.962 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 4.215 on 57 degrees of freedom ## Multiple R-squared: 0.8499, Adjusted R-squared: 0.8472 ## F-statistic: 322.6 on 1 and 57 DF, p-value: < 2.2e-16 El detalle por columna es el siguiente. En primer lugar, ya conocemos los coeficientes del modelo (betas estimados) y cómo se interpretan. Estos valores los podemos encontrar en la columna llamada Estimate. La segunda columna (Std. Error) corresponde a la desviación estándar de la estimación de cada uno de los betas. Como cada uno de los errores (\\(\\epsilon_i\\)) tiene distribución normal, esto implica que cada uno de los \\(\\beta\\) tenga distribución t – Student (no analizaremos esto en profundidad). La tercera y cuarta columna están diseñadas para probar una determinada prueba de hipótesis relacionada a los \\(\\beta\\). En este caso, cada fila aborda la siguiente hipótesis: \\[\\begin{equation} \\notag \\begin{split} H_0:&\\beta_i = 0\\\\ H_1:&\\beta_i \\neq 0\\\\ \\end{split} \\end{equation}\\] El estadístico para cada uno de los beta se obtiene dividiendo el valor estimado (Estimate) por la desviación estándar (Std. Error). El resultado de estos valores, se puede apreciar en la columna t value. Finalmente, se calcula el valor - p asociado a cada una de las hipótesis del punto anterior, con la fórmula \\(2\\cdot(1-pt(|t_0|, n-1))\\). El valor resultante de esta expresión para cada uno de los betas se encuentra en la columna Pr(>|t|). La interpretación de este valor es mediante el criterio del valor - p presentado en la unidad anterior. En el ejemplo 3.4, al no rechazarse la hipótesis nula asociada a cada beta estimado, se tiene que cada variable (intercepto y valor cuota) son relevantes para explicar la variable respuesta (valor del patrimonio). Sin embargo, esto no es un regla decidora respecto a si una variable debe o no considerarse en el modelo, es decir, No rechazar las hipótesis nula de los beta estimados, indica que su “valor” es cero, por lo que no “aportarían” al modelo de regresión construido. En este punto, muchas personas eliminarían la variable utilizada para construir el modelo (el valor cuota) (esto es una de tantas técnicas aplicables, pero que no profundizaremos) o, cambiarían la variable explicativa utilizada (no considerarían el valor cuota, sino que utilizarían otra variable). A pesar de que los valores-p puedan no ser significativos (mayores a 0.05), es decir, no rechazar las hipótesis nulas; es posible forzar la permanencia de la variable en el modelo debido al criterio experto del profesional. Por último, al final de la salida del resumen, encontramos el valor llamado F-statistic. Este valor, es un estadístico que prueba la siguiente hipótesis, \\[\\begin{equation} \\notag \\begin{split} H_0:&\\text{ Todos los beta asociados a las covariables valen 0}\\\\ H_1:&\\text{ Almenos uno de los betas asociados a las covariables es distinto de 0}\\\\ \\end{split} \\end{equation}\\] Nota: esta prueba de hipótesis no considera \\(\\beta_0\\). En el ejemplo 3.4, se observa un valor del estadístico igual a 322.6 con 1 y 57 grados de libertad, además de un valor menor a 0.05. Por lo tanto, existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, almenos uno de los betas asociados a las covariables es distinto de 0. Ejercicio 3.16 Utilizando la base de datos Pacientes: Ajuste un modelo para estudiar el nivel de colesterol de los pacientes a partir de su edad. Luego, estudie las pruebas de hipótesis asociadas. Ajuste un modelo para estudiar el tiempo de duración del último ataque al corazón de los pacientes a partir de su edad. Luego, estudie las pruebas de hipótesis asociadas. 3.2.3 Métricas La salida de R nos proporciona dos valores que permiten evaluar al modelo de regresión lineal simple: Residual standard error: corresponde a la desviación estándar de los residuos, es decir, que mientras menor sea este valor, los puntos se alejarán menos de la recta de regresión. Multiple R-squared o \\(R^2\\): es un métrica de error de la regresión que mide el rendimiento del modelo, y representa el valor de cuánto la variable independiente es capaz de explicar (linealmente) el valor de la variable de estudio (variable de respuesta, variable dependiente). En el ejemplo 3.4 se obtiene un error estándar residual de 4.2. Sin embargo, NO EXISTE un regla que determine cuando un error estándar residual es bueno o malo. En general, este valor se utiliza para comparar don o más modelos que estudian la misma variable respuesta pero con distintas variables predictoras (variables independientes), para saber cual realiza un mejor ajuste. Por otro lado, se tiene un valor de \\(R^2\\) igual a 0.84, el cual es muy alto, por lo que se logra explicar gran parte de la variable respuesta. Al igual que el error estándar residual, no existe una regla para determinar cuando un valor de \\(R^2\\) es bueno o malo, aunque valores cercanos a cero indican que el poder explicativo del modelo es extremadamente pobre; y a su vez, valores muy cercanos a 1 son muy buenos, aunque extremandamente sospechosos. Lo anteriormente explicado se puede observar mediante los siguiente comandos, aunque es posible observarlos en salida general del comando summary(). # Resumen del modelo summ = summary(modelo) print(c("Error estándar residual" = summ$sigma, "R cuadrado" = summ$r.squared)) ## Error estándar residual R cuadrado ## 4.2148482 0.8498553 Ejercicio 3.17 Utilizando la base de datos Ingreso: Ajuste un modelo para estudiar la proporción de logro a partir el puntaje NEM. Ajuste un modelo para estudiar la proporción de logro a partir el puntaje PTU de la prueba de Lenguaje. Compare los ajustes de ambos modelos utilizando el error estándar residual y el \\(R^2\\). Interprete. 3.2.4 Supuestos Cuándo se elabora un modelo de regresión lineal, es necesario verificar el cumplimiento de condiciones para la correcta interpretación y utilización del modelo desarrollado. Las condiciones que se deben cumplir se denominan supuestos. A continuación, se detallan los 4 supuestos que se deben estudiar, utilizando como ejemplo el modelo elaborado en el ejemplo 3.4. 3.2.4.1 Linealidad La relación entre ambas variables (dependiente e independiente) debe ser lineal. Para observar el comportamiento es posible realizar un gráfico de puntos entre la variable predictora (\\(X\\)) y la variable de estudio (\\(Y\\)). ggplot(data = datos) + geom_point(aes(x = Valor.Cuota, y = Valor.Patrimonio)) + labs(x = "Valor Cuota (pesos)", y = "Valor Patrimonio \\n (miles de millones de pesos)") La interpretación del comportamiento queda a discreción del profesional. En este caso, se aprecia una clara tendencia lineal, por lo que se asume que se cumple el supuesto de linealidad. 3.2.4.2 Normalidad Los residuos deben distribuir Normal con media 0 (\\(\\mu\\)) y varianza 1 (\\(\\sigma^2\\)). Para ello, se pueden ejecutar varios comandos en R para probar esta hipótesis. El más conocido es el comando shapiro.test(). La hipótesis es \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Los residuos estandarizados tienen distribución Normal}\\\\ H_1&: \\text{Los residuos estandarizados NO tienen distribución Normal}\\\\ \\end{split} \\end{equation}\\] residuos = resid(modelo) # Residuos residuos_estandarizados = rstandard(modelo) # Residuos estandarizados shapiro.test(x = residuos_estandarizados) ## ## Shapiro-Wilk normality test ## ## data: residuos_estandarizados ## W = 0.96765, p-value = 0.1177 Considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es mayor a 0.05. Por lo tanto, se asume normalidad en los residuos. En caso de que la cantidad de datos sea mayor a 5000, el comando shapiro.test() fallará. En su lugar, es posible usar el comando ks.test(), un ejemplo con los residuos del ejemplo anterior es ks.test(residuos_estandarizados, "pnorm", 0, 1) ## ## Asymptotic one-sample Kolmogorov-Smirnov test ## ## data: residuos_estandarizados ## D = 0.12515, p-value = 0.3138 ## alternative hypothesis: two-sided Una tercera opción es utilizar el comando ad.test() de la librería nortest library(nortest) ad.test(residuos_estandarizados) ## ## Anderson-Darling normality test ## ## data: residuos_estandarizados ## A = 0.71269, p-value = 0.05962 3.2.4.3 Homocedasticidad Este supuesto hace referencia a la necesidad de una varianza constante de los residuos. Para verificar esto, se grafican los residuos estandarizados del modelo versus los valores de la variable predictora (o variable predicha, \\(\\widehat{y}\\)). Se busca que las amplitudes verticales en las figuras sean similares en la medida que se recorre el eje de las abscisas. Similarmente, es posible ejecutar una prueba de hipótesis (Breucsh - Pagan) en R con el comando bptest() de la librería lmtest, siendo \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Los residuos tienen varianza constante}\\\\ H_1&: \\text{Los residuos NO tienen varianza constante}\\\\ \\end{split} \\end{equation}\\] valores_predichos = modelo$fitted.values ggplot(data = datos) + geom_point(aes(x = valores_predichos, y = residuos_estandarizados)) + geom_hline(yintercept = 0) + labs(x = "Valores predichos", y = "Residuos estandarizados") Las amplitudes verticales no tiene un patrón claro de cambio (puede ser difícil de interpretar), por lo que utilizaremos la prueba de Breucsh - Pagan para decidir. library(lmtest) bptest(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos) ## ## studentized Breusch-Pagan test ## ## data: Valor.Patrimonio ~ Valor.Cuota ## BP = 0.30064, df = 1, p-value = 0.5835 Considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es superior a 0.05. Por lo tanto, se asume que los residuos tienen varianza constante (Homocedasticidad). 3.2.4.4 Independencia El útlimo supuesto corresponde a la independencia de los residuos, es decir que, no deben estar correlacionados entre ellos (autocorrelación igual a 0). La prueba de hipótesis de Durbin - Watson está diseñada para detectar autocorrelación en los residuos. Para ejecutar esta prueba en R se debe utilizar la función dwtest() de la librería lmtest. La hipótesis es \\[\\begin{equation} \\notag \\begin{split} H_0&: \\text{Autocorrelación de los residuos es igual a 0}\\\\ H_1&: \\text{AutoCorrelación de los residuos es distinta de 0}\\\\ \\end{split} \\end{equation}\\] # Prueba de Durbin Watson dwtest(formula = Valor.Patrimonio ~ Valor.Cuota, data = datos, alternative = "two.sided") ## ## Durbin-Watson test ## ## data: Valor.Patrimonio ~ Valor.Cuota ## DW = 0.080415, p-value < 2.2e-16 ## alternative hypothesis: true autocorrelation is not 0 Considerando una confianza del 95%, existe suficiente evidencia estadística para rechazar \\(H_0\\), ya que el valor - p es mejor a 0.05. Por lo tanto, se asume que los residuos no son independientes. Conclusión: En resumen, se han cumplido 3 de los 4 supuestos planteados. Esto es muy común que suceda en la realidad, además de existir diversos factores que influyen en los resultados vistos. Ejercicio 3.18 Utilizando la base de datos Ingreso, ajuste el modelo: \\[\\widehat{Y}_{\\text{Logro}} = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_{\\text{NEM}}\\] Luego, 1. Escriba la ecuación de regresión ajustada. 2. Verifique los supuestos del modelo. Ejercicio 3.19 Utilizando la base desdatos Pacientes, elabore un modelo para estudiar la variable oldpeak a través de la variable chol. Estudie los supuestos del modelo, utilizando una confianzza del 92%. Ejercicio 3.20 La base de datos terremotos.csv, contiene datos sobre los terremotos ocurridos a nivel mundial entre los años 1900 y 2014. Las columnas de la base de datos son: Ano: año de ocurrencia del terremoto. Latitud: grados decimales de la coordenada de latitud (valores negativos para latitudes del sur). Longitud: grados decimales de la coordenada de longitud (valores negativos para longitudes occidentales). Profundidad: profundidad del evento en kilómetros. Magnitud: magnitud del evento (la escala no es fija, ya que, a través de los años, la escala a cambiado según el método de medición. Sin embargo, todos las magnitudes son comparables, indicando que a mayor magnitud, mayor es la intensidad en movimiento/fuerza del terremoto). Ajuste los siguientes modelos: \\(Y_{\\text{Magnitud}} = \\beta_0 + \\beta_1X_{\\text{Profundidad}} + \\epsilon\\) \\(Y_{\\text{Magnitud}} = \\beta_0 + \\beta_1X_{\\text{Latitud}} + \\epsilon\\) Luego, para cada modelo: Estudie la relación entre la variable dependiente e independiente mediante gráficos de dispersión. Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Estudie los supuestos del modelo, utilizando una confianza del 98%. 3.3 Regresión lineal múltiple A diferencia de la regresión lineal simple, la regresión lineal múltiple (RLM) hace uso de más de una variable independiente para modelar el comportamiento de variable de estudio (Devore, 2008, página 528). La expresión de un modelo de regresión múltiple es: \\[\\begin{equation} Y = X\\beta + \\epsilon \\tag{3.7} \\end{equation}\\] con \\(\\epsilon \\sim N(0,\\sigma^2I)\\) independientes. De otra forma, \\[\\begin{equation} \\begin{pmatrix} y_1\\\\ y_2\\\\ \\vdots\\\\ y_n \\end{pmatrix} = \\begin{pmatrix} 1 & x_{11} & x_{12} & \\cdots & x_{1k}\\\\ 1 & x_{21} & x_{22} & \\cdots & x_{2k}\\\\ \\vdots & \\vdots & \\vdots & \\ddots & \\vdots \\\\ 1 & x_{n1} & x_{n2} & \\cdots & x_{nk}\\\\ \\end{pmatrix} \\begin{pmatrix} \\beta_0\\\\ \\beta_1\\\\ \\vdots \\\\ \\beta_k\\\\ \\end{pmatrix} + \\begin{pmatrix} \\epsilon_1\\\\ \\epsilon_2\\\\ \\vdots \\\\ \\epsilon_n\\\\ \\end{pmatrix} \\tag{3.8} \\end{equation}\\] \\[\\begin{equation} y_i = \\beta_0 + \\sum_{j=1}^k x_{ij}\\beta_j +\\epsilon_i\\text{, } i = 1,\\dots,n \\tag{3.9} \\end{equation}\\] 3.3.1 Estimadores de mínimos cuadrados Al igual que el una regresión lineal simple, se busca minimizar la suma cuadrática de los errores (SCE). Sin embargo, al trabajar con matrices, el proceso de minimización de la SCE da como resultado los siguientes estimadores de mínimos cuadrados (EMC), valores ajustados y residuos. \\[\\begin{equation} \\widehat{Y} = X\\widehat{\\beta} \\tag{3.10} \\end{equation}\\] \\[\\begin{equation} \\widehat{\\beta} = (X^tX)^{-1}X^tY \\tag{3.11} \\end{equation}\\] \\[\\begin{equation} \\widehat{Y} = X(X^tX)^{-1}X^tY \\tag{3.12} \\end{equation}\\] Además, los residuos se calculan como \\[\\begin{equation} e = Y - \\widehat{Y} \\tag{3.13} \\end{equation}\\] Ejemplo 3.5 Utilizando la base de datos Imacec , se debe considerar un modelo que estudie el valor del Imacec de Minería a base del Imacec de Industria y del Año de medición, con el fin de determinar los beta estimados, los valores ajustados y los errores del modelo, mediante las fórmulas explicadas anteriormente. Los modelos poblacional y ajustado son: Modelo poblacional: \\(Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Año}} + \\beta_2X_{\\text{Imacec Industria}} + \\epsilon\\) Modelo ajustado: \\(\\widehat{Y}_{\\text{Imacec Minería}} = \\widehat{\\beta}_0 + \\widehat{\\beta}_1X_{\\text{Año}} + \\widehat{\\beta}_2X_{\\text{Imacec Industria}}\\) # Cargamos la base de datos del Imacec df = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv") # Para conformar la matriz de covariables (X) extraemos las columnas relevantes de la base de datos X = df[,c(1,4)] # Año e Imacec de Industria # Agregamos la columna de unos que debe ir antes de las otras X = cbind(1, X) # Cambiamos el formato de X a matriz X = as.matrix(X) # Extraemos la variable independiente (en formato de matriz) Y = as.matrix(df$Mineria) # Determinemos los estimadores de los beta betas.gorro = solve(t(X)%*%X)%*%t(X)%*%Y # El comando solve() calcula la inversa de una matriz. # el operador %*% es para multiplicar matrices. # El comando t() es para calcular una matriz traspuesta de una matriz. Los valores estimados de los beta son betas.gorro ## [,1] ## 1 3293.7998054 ## Ano -1.5984756 ## Industria 0.3224822 Los valores ajustados son y.gorro = X%*%betas.gorro head(y.gorro) ## [,1] ## [1,] 100.19527 ## [2,] 98.13138 ## [3,] 101.96892 ## [4,] 102.09791 ## [5,] 102.13016 ## [6,] 100.87248 Los residuos del modelo son residuos = Y - y.gorro head(residuos) ## [,1] ## [1,] -3.6952686 ## [2,] -5.6313828 ## [3,] -0.8689205 ## [4,] -10.7979133 ## [5,] -1.9301616 ## [6,] -4.6724811 La ecuación de regresión ajustada es: \\[ \\widehat{Y}_{\\text{Imacec Minería}} = 3293.79 -1.59X_{\\text{Año}} + 0.32X_{\\text{Imacec Industria}} \\] El modelo ajustado del ejemplo 3.5 se elabora con el siguiente comando en R: modelo = lm(Mineria ~ Ano + Industria, data = df) modelo ## ## Call: ## lm(formula = Mineria ~ Ano + Industria, data = df) ## ## Coefficients: ## (Intercept) Ano Industria ## 3293.7998 -1.5985 0.3225 La interpretación de los beta estimados es similar a la vista en regresión lineal simple, aunque la estructura de la expresión ya no es una recta como tal. Considerando la salida correspondiente al ejemplo 3.5: \\(\\widehat{\\beta}_0\\): en la salida de R tiene el nombre de Intercept, su interpretación es igual a la vista en regresión lineal, es decir, corresponde al valor esperado de \\(y\\) cuando las covariables tienen un valor nulo (igual a 0). Respecto al ejemplo, se interpreta que, cuando se está en el año 0 y, el valor del Imacec de industria es de 0 puntos, entonces, el valor promedio (o esperado) del Imacec de Minería es de \\(\\widehat{\\beta}_0 = 3293.79\\). Este valor carece de sentido, ya que el Imacec se empezó a utilizar en 1984, por lo que sería recomendable ajustar los años para considerar el tiempo inicial en 0 (1984). \\(\\widehat{\\beta}_j\\): dado un cambio en una unidad de medida de variable \\(x_j\\) (considerando que el resto de covariables se mantiene constante), en promedio, la variable \\(y\\) se ve afectada (aumenta o disminuye) en \\(\\widehat{\\beta}_j\\) unidades. Respecto al ejemplo: \\(\\widehat{\\beta}_1 = -1.598\\): Por cada año que transcurre, el Imacec de Minería disminuye en promedio \\(1.598\\) unidades. Considerando que el resto de covariables se mantiene constante. \\(\\widehat{\\beta}_2 = 0.322\\): Por cada unidad que aumenta el Imacec de Industria, el Imacec de Minería aumenta en promedio \\(0.322\\) unidades. Considerando que el resto de covariables se mantiene constante. Ejercicio 3.21 Utilizando la base de datos Pacientes: Ajuste un modelo para estudiar la presión arterial en reposo, a partir de la edad, frecuencia cardíaca máxima alcanzada y el nivel de colesterol del paciente. Interprete los parámetros estimados. Escriba el modelo poblacional y la ecuación de regresión ajustada. Ejercicio 3.22 Utilizando la base de datos Ingreso: Ajuste un modelo para estudiar la variable Logro a partir de las variables LEN y NEM. Interprete los parámetros estimados. Escriba el modelo poblacional y la ecuación de regresión ajustada. 3.3.2 Covariables cualitativas En un modelo de regresión lineal es posible utilizar variable cualitativas, para ello es necesario usar variables indicadoras que toman los valores 0 o 1 (Kutner et al., 2004). Por ejemplo, consideremos un extracto de la base de datos del Imacec del ejemplo 3.5, el cual contenga únicamente los valores asociados a los meses de enero y febrero. extracto = df[df$Mes %in% c("ene", "feb"),] str(extracto) ## 'data.frame': 10 obs. of 4 variables: ## $ Ano : int 2018 2018 2019 2019 2020 2020 2021 2021 2022 2022 ## $ Mes : chr "ene" "feb" "ene" "feb" ... ## $ Mineria : num 96.5 92.5 92 82.2 94 91.2 92.5 85.9 87.5 81.4 ## $ Industria: num 99.6 93.2 101.9 93.2 100.8 ... Suponiendo que, se desea estudiar el Imacec de Minería a través del Imacec de Industria y el mes de medición, el modelo poblacional es el siguiente: \\[Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Imacec Industria}} + \\beta_2I_{\\text{Mes = febrero}} + \\epsilon\\] La covariable \\(I_{\\text{Mes = febrero}}\\) corresponde a una indicatriz, esta función vale 1 para el mes que se especifica (febrero en este caso) y 0 para el mes que no se observa (la generalización correcta es: 0 para todo valor distinto a febrero). El valor del Mes para el cual la indicatriz vale 0 se llama categoría de referencia. Ajustando el modelo en R se obtiene el siguiente resumen. modelo_con_categorias = lm(Mineria ~ Industria + Mes, data = extracto) summary(modelo_con_categorias) ## ## Call: ## lm(formula = Mineria ~ Industria + Mes, data = extracto) ## ## Residuals: ## Min 1Q Median 3Q Max ## -5.2251 -3.5988 -0.2889 3.3713 5.6703 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 111.086 110.750 1.003 0.349 ## Industria -0.186 1.108 -0.168 0.871 ## Mesfeb -6.920 6.945 -0.996 0.352 ## ## Residual standard error: 4.563 on 7 degrees of freedom ## Multiple R-squared: 0.3722, Adjusted R-squared: 0.1929 ## F-statistic: 2.075 on 2 and 7 DF, p-value: 0.196 Es posible apreciar, que de los betas estimados, el que está asociado a la variable Mes solo corresponde al valor de febrero. En este sentido, la interpretación de \\(\\widehat{\\beta}_2\\) es la siguiente: Cuando el mes de medición es en febrero, el Imacec de Minería es en promedio 6.92 unidades inferior al mes de enero. La ecuación de regresión ajustada es: \\[\\widehat{Y}_{\\text{Imacec Minería}} = 111.086 - 0.186X_{\\text{Imacec Industria}} - 6.920I_{\\text{Mes = febrero}}\\] La forma en la que R selecciona la categoría de referencia es alfanumérica, sin embargo, es posible asignarla manualmente mediante el comando as.factor(). Para modelos que consideren variables con más opciones de categoría, se debe agregar una indicatriz por cada categoría a excepción de la categoría de referencia. Por ejemplo, si consideramos un modelo que estudie el el Imacec de Minería a través del Imacec de Industria y el Mes, siendo está última una variable con tres opciones (marzo, abril y mayo). El modelo poblacional es el siguiente: \\[ Y_{\\text{Imacec Minería}} = \\beta_0 + \\beta_1X_{\\text{Imacec Industria}} + \\beta_2I_{\\text{Mes = abril}} + \\beta_3I_{\\text{Mes = mayo}} + \\epsilon \\] Se puede observar, que dado el modelo poblacional planteado, la categoría de referencia de la variable Mes corresponde a marzo. Ejercicio 3.23 Utilizando la base de datos Pacientes, ajuste el siguiente modelo. \\[ Y_{\\text{Logro}} = \\beta_0 + \\beta_1I_{\\text{Sexo = Hombre}} + \\beta_2X_{\\text{NEM}} + \\epsilon \\] Luego, Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Ejercicio 3.24 La base de datos CO2 (propia de R) contiene datos de una experimento sobre la tolerancia al frío de la especie de pasto Echinochloa crus-galli. Las columnas son las siguientes: Plant: Identificador del tipo de planta. Type: Lugar de origen de la planta. Treatment: indica si la planta fue refrigerada (chilled) o no (nonchilled). conc: Concentraciones ambientales de dióxido de carbono (ml/L). uptake: Tasas de absorción de dióxido de carbono (umol/\\(m^2\\) seg) de las plantas. Ajuste el siguiente modelo: \\[ Y_{\\text{uptake}} = \\beta_0 + \\beta_1I_{\\text{Type = Mississippi}} + \\beta_2I_{\\text{Treatment = chilled}} + \\beta_3X_{\\text{conc}} + \\epsilon \\] Luego, Escriba la ecuación de regresión ajustada. Interprete los betas estimados. 3.3.3 Pruebas de hipótesis Las hipótesis de no nulidad asociadas a cada uno de los betas se plantean de la misma forma que se ha visto en el caso de regresión lineal simple. La única diferencia radica en el valor- p de la prueba F-statistic, el cual es diferente al valor-p de la prueba asociada a \\(\\widehat{\\beta}_1\\). Considerando el modelo ajustado en el ejemplo 3.5, la ecuación de regresión ajustada es: \\[ \\widehat{Y}_{\\text{Imacec Minería}} = 3293.79 -1.59X_{\\text{Año}} + 0.32X_{\\text{Imacec Industria}} \\] El resumen del modelo ajustado en R es el siguiente. summary(modelo) ## ## Call: ## lm(formula = Mineria ~ Ano + Industria, data = df) ## ## Residuals: ## Min 1Q Median 3Q Max ## -14.3329 -4.0632 -0.4713 4.8539 12.2941 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 3293.7998 1328.2346 2.480 0.0165 * ## Ano -1.5985 0.6590 -2.426 0.0189 * ## Industria 0.3225 0.1407 2.291 0.0261 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 6.238 on 51 degrees of freedom ## Multiple R-squared: 0.154, Adjusted R-squared: 0.1209 ## F-statistic: 4.643 on 2 and 51 DF, p-value: 0.01405 Respecto a las pruebas de hipótesis de cada uno de los beta, \\[\\begin{equation} \\notag \\begin{split} H_0:&\\beta_j = 0\\\\ H_1:&\\beta_j \\neq 0\\\\ \\end{split} \\end{equation}\\] Se observa, que todos lo betas estimados son significativos considerando una confianza del 95%. De manera similar, se aprecia que el valor-p (0.01405) asociado a la prueba de hipótesis de nulidad conjunta es menor a 0.05, por lo cual, se asume que al menos uno de los beta que acompañan a las covariables es distinto de cero. \\[\\begin{equation} \\notag \\begin{split} H_0:& \\beta_1 = \\ldots = \\beta_k = 0\\\\ H_1:&\\text{ Al menos uno de los beta es distinto de 0}\\\\ \\end{split} \\end{equation}\\] Ejercicio 3.25 Plantear y estudiar las hipótesis asociadas al modelo ajustado en el ejercicio 3.24. Ejercicio 3.26 La base de datos airquality (propia de R) contiene mediciones diarias de la calidad del aire en Nueva York, de mayo a septiembre de 1973. Las columnas son las siguientes: Ozone: Ozono medio en partes por billón. Solar.R: Radiación solar en Langley. Wind: Velocidad promedio del viento en millas por hora. Temp: Temperatura máxima diaria en grados Fahrenheit. Month: Mes de medición. Day: Día de medición. Elimine los datos faltantes de la base de datos utilizando el comando na.omit(). Considere el siguiente modelo \\[ Y_{\\text{Ozone}} = \\beta_0 + \\beta_1X_{\\text{Solar.R}} + \\beta_2X_{\\text{Temp}} + \\beta_3X_{\\text{Wind}} + \\epsilon \\] Luego, Ajuste el modelo R. Escriba la ecuación de regresión ajustada. Interprete los beta estimados. Estudie las hipótesis asociadas a los betas. 3.3.4 Métricas Al igual que en la regresión lineal simple, contamos con los valores de Residual standard error y con el Multiple R-squared. Sin embargo, este último no es óptimo es su interpretación, ya que un modelo de regresión lineal múltiple mientras más covariables utilice, mayor será su \\(R^2\\), aunque estas no sean significativas. Para penalizar esto, se debe observar el Adjusted R-squared, el cual corrige este valor, según la cantidad de covariables que se utilizan en el modelo. Y al igual que para el \\(R^2\\), se desean valores altos, dándose la misma interpretación al valor. Respecto al ejemplo 3.5 la salida de resumen del modelo en R es: # Guardamos el resumen como una variable resumen = summary(modelo) # Consultamos las métricas de manera directa print(c("Error estándar residual" = resumen$sigma, "R cuadrado ajustado" = resumen$adj.r.squared)) ## Error estándar residual R cuadrado ajustado ## 6.2382266 0.1208535 Residual standard error: corresponde a la desviación estándar de los residuos, la cual, toma una valor de 6.238. Este número se utiliza para comparar modelos, prefiriendo aquel que tenga un menor valor. Adjusted R-squared: El valor del \\(R^2\\) ajustado toma una valor de 0.1209, lo cual, indica que un 12.09% del comportamiento (variabilidad) del Imacec de Minería (variable independiente) es explicado por las covariables (es decir, el modelo) a través de una relación lineal múltiple. Este valor, también se suele ocupar para comparar modelos, prefiriéndose un modelo con mayor \\(R^2\\) ajustado. Ejercicio 3.27 Interprete las métricas del modelo desarrollado en el ejercicio 3.26. 3.3.5 Supuestos Al igual que en la regresión lineal simple, lo supuestos a verificar son: Linealidad: se requiere que la relación entre la variable de estudio y cada una de las covariables sea lineal. Sin embargo, cuando se tiene una gran cantidad de covariables es mejor estudiar el gráfico de residuos (eje Y) versus los valores ajustados \\(\\widehat{Y}_i\\) (eje X); se busca que no existan patrones o formas. Normalidad: Los residuos estandarizados tiene distribución normal con media 0 y varianza 1. Procedimiento idéntico al utilizado en la regresión lineal simple. Homocedasticidad: Los residuos estandarizados tienen varianza constante. Procedimiento idéntico al utilizado en la regresión lineal simple. Independencia: Los residuos estandarizados son independientes. Procedimiento idéntico al utilizado en la regresión lineal simple. Por otro lado, aparece un nuevo fenómeno llamado colinealidad entre las variables predictoras (multicolinealidad). La colinealidad indica que las covariables están correlacionadas entre si (correlación lineal). Es normal y esperable que esto suceda en alguna medida con las covariables de una base de datos. El problema surge, cuando hay como mínimo dos variables cuya correlación es fuerte, ya que esto provoca que ambas variables traten de explicar la misma “información” (variabilidad) de la variable respuesta. En temas posteriores, se abordarán técnicas para evitar la ocurrencia de este fenómeno. Ejemplo 3.6 Utilizando el modelo ajustado en el ejemplo 3.5, verifique los supuestos para la regresión construida. modelo = lm(Mineria ~ Ano + Industria, data = df) Linealidad ggplot(data = data.frame("Y_Gorro" = df$Mineria, "Residuos" = residuals(modelo)), aes(x = Residuos, y = Y_Gorro)) + geom_point() + labs(y = "Valores \\n ajustados") Existe un claro patrón lineal, por lo cual, no se estaría cumpliendo con el supuesto de linealidad. Normalidad r_e = rstandard(modelo) # residuos estandarizados shapiro.test(x = r_e) ## ## Shapiro-Wilk normality test ## ## data: r_e ## W = 0.98827, p-value = 0.8738 Haciendo uso de la prueba de hipótesis de Shapiro, se obtiene un valor-p de 0.837, por lo que, considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, se asume normalidad de los residuos. Homocedasticidad df$Valores.ajustados = modelo$fitted.values ggplot(data = df, aes(x = Valores.ajustados, y = r_e)) + geom_point() + geom_hline(yintercept = 0) + labs(x = "Valores ajustados", y = "Residuos estandarizados") No se evidencia patrones en la amplitud de los residuos, por lo que se asume homocedasticidad. Verificamos mediante la prueba de hipótesis correspondiente bptest(formula = Mineria ~ Ano + Industria, data = df) ## ## studentized Breusch-Pagan test ## ## data: Mineria ~ Ano + Industria ## BP = 1.4598, df = 2, p-value = 0.482 Con un valor-p de 0.482 y, considerando una confianza del 95%, no existe suficiente evidencia estadística para rechazar \\(H_0\\), es decir, se refuerza lo concluido mediante el gráfico. Independencia dwtest(formula = Mineria ~ Ano + Industria, data = df, alternative = "two.sided") ## ## Durbin-Watson test ## ## data: Mineria ~ Ano + Industria ## DW = 1.1949, p-value = 0.0009229 ## alternative hypothesis: true autocorrelation is not 0 Con un valor-p de 0.0009 y, considerando una confianza del 95%, existe suficiente evidencia estadística para rechazar \\(H_0\\), por lo que se asume que los residuos no son independientes. Ejercicio 3.28 Considere los modelos ajustados en: El ejercicio 3.24. El ejercicio 3.26. Estudie los supuestos del modelo, además escriba las hipótesis asociadas a los supuestos cuando corresponda. 3.4 Selección de variables La selección de métodos le permite especificar cómo se introducen las variables independientes en el análisis. Usando diferentes métodos, puede construir una variedad de modelos de regresión a partir del mismo conjunto de variables. Dentro de las utilidades de usar un método para la selección de variables están: Evitar la colinealidad entre las covaribles. Generar modelos parsimoniosos. A continuación se dan a conocer algunos de los métodos de selección de variables. 3.4.1 Forward Corresponde a un procedimiento de selección de variables paso a paso en el que las variables se ingresan secuencialmente en el modelo. La primera variable considerada para entrar en la ecuación de regresión es la que tiene la mayor correlación positiva o negativa con la variable dependiente. Esta variable se ingresa en la ecuación solo si cumple el criterio de entrada. Si se ingresa la primera variable, la variable independiente que no está en la ecuación y que tiene la mayor correlación parcial se considera a continuación. El procedimiento se detiene cuando no hay variables que cumplan con el criterio de entrada. Los pasos detallados son los siguientes: Sea \\(X_1\\) la primera variable en ingresar al modelo, la que corresponde al predictor con mayor coeficiente de correlación lineal en valor absoluto con la variable respuesta. Ajustar el modelo \\(Y \\sim X_1\\). Si el modelo es significativo, continuar la selección. En caso contrario, reportar el modelo \\(Y = \\beta_0\\). Ajustar el modelo \\(Y \\sim X_1 + X_j\\) para todo \\(j = 2, \\ldots , (p -1)\\). Ingresar al modelo la variable con el mayor estadístico \\(F\\) parcial dado \\(X_1\\) (el menor valor-p) que sea significativo. Si no existen predictores significativos, reportar el modelo \\(Y \\sim X_1\\). Proseguir hasta que: Se llegue a un número predeterminado de predictores en el modelo, o No se obtengan estadísticos \\(F\\) significativos. El estadístico \\(F\\) mencionado en la metodología forward prueba la siguiente hipótesis: \\[\\begin{equation} \\begin{split} H_0 &: \\text{ La correlación parcial entre } X_j \\text{ e } Y, \\text{ dados } X_1, \\ldots , X_{j-1}, \\text{ es igual a cero}\\\\ H_1 &: \\text{ La correlación parcial entre } X_j \\text{ e } Y, \\text{ dados } X_1, \\ldots , X_{j-1}, \\text{ es distinta cero} \\end{split} \\tag{3.14} \\end{equation}\\] Más detalles del funcionamiento de este estadístico en el anexo B.1. Ejemplo 3.7 Considerando el ejercicio 3.15, elabore un modelo para estudiar la proporción de logro obtenida en el diagnóstico de lenguaje, seleccionado las variables independientes mediante el método forward. datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Ingreso%2Buniversidad.csv") # Planteamos un modelo vacío sin covariables, solo intercepto modelo.nulo = lm(Logro ~ 1, data = datos) # Planteamos un modelo con todas las covariables modelo.total = lm(Logro ~ ., data = datos) modelo.final = step(modelo.nulo, # Modelo nulo scope = list(lower = formula(modelo.nulo), # Rango inicial de modelos examinados upper = formula(modelo.total)), # Rango final de modelos examinados direction = "forward", # Método de selección de variables trace = 0, # Si es igual a 0, no imprime todos los modelos que va elaborando, solo imprime el modelo final test = "F") # Estadístico utilizado summary(modelo.final) ## ## Call: ## lm(formula = Logro ~ LEN + NEM + Sexo, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.31796 -0.07033 0.00162 0.07968 0.26073 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -2.960e-01 7.173e-02 -4.126 5.44e-05 *** ## LEN 9.961e-04 1.013e-04 9.833 < 2e-16 *** ## NEM 3.372e-04 8.732e-05 3.861 0.000153 *** ## SexoMujer 2.665e-02 1.644e-02 1.621 0.106621 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.1129 on 196 degrees of freedom ## Multiple R-squared: 0.3775, Adjusted R-squared: 0.3679 ## F-statistic: 39.61 on 3 and 196 DF, p-value: < 2.2e-16 ¿Qué es posible comentar respecto a la inclusión de la variable Sexo en el modelo? Ejercicio 3.29 Considerando el ejercicio 3.24, elabore un modelo para estudiar la tasa de absorción de dióxido de carbono de las plantas, seleccionado las variables independientes mediante el método forward. Interprete los betas estimados, analice las pruebas de hipótesis asociadas a los betas e interprete el \\(R^2\\) ajustado del modelo. Se recomienda aplicar el siguiente código de manera previa: data = CO2 data$Plant = factor(data$Plant, ordered = F) Ejercicio 3.30 Considerando el ejercicio 3.26, elabore un modelo para estudiar la concentración de Ozono en el aire, seleccionado las variables independientes mediante el método forward. Interprete los betas estimados, analice las pruebas de hipótesis asociadas a los betas e interprete el \\(R^2\\) ajustado del modelo. 3.4.2 Backward Al contrario de la metodología forward, la metodología backward realiza una eliminación de variables considerando como punto de partida el modelo que contiene todas las covariables. Los pasos detallados son los siguientes: Ajustar el modelo completo \\((p − 1)\\) veces, de modo de obtener los \\((p − 1)\\) estadísticos \\(F\\) parciales, dado que todas las variables restantes ya están en el modelo. Eliminar el predictor con el menor estadístico \\(F\\) parcial (mayor valor-p) que no sea significativo. En caso de ser todos significativos, reportar el modelo completo. Ajustar el modelo con los \\((p − 2)\\) predictores restantes, de modo de obtener los estadísticos \\(F\\) parciales de cada uno de ellos. Eliminar el predictor con el menor estadístico \\(F\\) parcial (mayor valor-p) que no sea significativo. En caso de ser todos significativos, reportar el modelo con \\((p − 2)\\) predictores. Proseguir hasta que: Se llegue a un número predeterminado de predictores en el modelo, o Todos los estadísticos \\(F\\) parciales sean significativos. El estadístico \\(F\\) es el mismo que el aplicado en la metodología forward. Ejemplo 3.8 Considerando el ejercicio 3.26, elabore un modelo para estudiar la concentración de Ozono, seleccionado las variables independientes mediante el método backward. datos = airquality datos = na.omit(datos) # Planteamos un modelo vacío sin covariables, solo intercepto modelo.nulo = lm(Ozone ~ 1, data = datos) # Planteamos un modelo con todas las covariables modelo.total = lm(Ozone ~ ., data = datos) modelo.final = step(modelo.total, # Modelo total scope = list(lower = formula(modelo.nulo), # Rango inicial de modelos examinados upper = formula(modelo.total)), # Rango final de modelos examinados direction = "backward", # Método de selección de variables trace = 0, # Si es igual a 0, no imprime todos los modelos que va elaborando, solo imprime el modelo final test = "F") # Estadístico utilizado summary(modelo.final) ## ## Call: ## lm(formula = Ozone ~ Solar.R + Wind + Temp + Month, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -35.870 -13.968 -2.671 9.553 97.918 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -58.05384 22.97114 -2.527 0.0130 * ## Solar.R 0.04960 0.02346 2.114 0.0368 * ## Wind -3.31651 0.64579 -5.136 1.29e-06 *** ## Temp 1.87087 0.27363 6.837 5.34e-10 *** ## Month -2.99163 1.51592 -1.973 0.0510 . ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 20.9 on 106 degrees of freedom ## Multiple R-squared: 0.6199, Adjusted R-squared: 0.6055 ## F-statistic: 43.21 on 4 and 106 DF, p-value: < 2.2e-16 Ejercicio 3.31 En un estudio para explicar la tasa máxima de flujo de seis sectores de drenaje después de una tormenta, se desea analizar la relación entre el logaritmo de esta tasa (logq) y los siguientes predictores (contaminacion.txt), a través de un modelo de regresión lineal múltiple: area: área del sector de drenaje. area2: área impermeabilizada. pendiente: pendiente media del sector. largo: largo del flujo. absorbencia: índice de absorbencia de la superficie (0: absorbencia total, 100: no absorbencia). capacidad: capacidad estimada de almacenamiento del suelo. infiltracion: tasa de infiltración del agua en el suelo. lluvia: pulgadas de lluvia caída. tiempo: tiempo en el cual la lluvia excedió 1/4 pulgadas/hora. Determine dos modelos utilizando las metodologías forward y backward. Compare ambos modelos mediante el \\(R^2\\) ajustado. ¿Cuál modelo eligiría para estudiar la varible logq? 3.5 Predicción de observaciones Es natural estar interesado en estudiar nuevas observaciones en un estudio, por ejemplo, si se construye una regresión lineal simple para estudiar el valor de dólar a través del PIB y el ICC, es posible que surja la pregunta ¿cuál será el valor del dólar para una PIB e ICC determinado? (considere que dichos valores del PIB e ICC no se encuentran en la muestra). Para responder a esto, es posible construir un denominado intervalo de predicción. Sin embargo, existe otro tipo de intervalo muy común, denominado intervalo de confianza. La distinción entre estos dos tipos de intervalos es la siguiente (Fahrmeir, 2013, página 125): Un intervalo de predicción es un intervalo asociado con una variable aleatoria aún por observar, con una probabilidad específica de que la variable aleatoria se encuentre dentro del intervalo. Un intervalo de confianza es un intervalo asociado a un parámetro. Se supone que el parámetro no es aleatorio sino desconocido, y el intervalo de confianza se calcula a partir de los datos, con una probabilidad específica de que el intervalo contenga al parámetro. Consideremos la base de datos airquality del ejercicio 3.26. Para visualizar la diferencia entre los dos tipos de intervalos ajustemos una regresión lineal simple para estudiar la tasa de absorción del dióxido de carbono a través de la temperatura. datos = airquality datos = na.omit(datos) modelo = lm(Ozone ~ Temp, data = datos) # Modelo Al momento de obtener la información de los intervalos de confianza y predicción se incluye el valor central del intervalo (el mismo para ambos), además del valor inferior y superior de cada uno. I_confianza = predict.lm(modelo, interval = "confidence") # Intervalos de confianza I_prediccion = predict.lm(modelo, interval = "prediction") # Intervalos de predicción head(I_confianza,3) ## fit lwr upr ## 1 15.77429 8.958438 22.59014 ## 2 27.96984 22.697411 33.24227 ## 3 32.84806 28.001893 37.69423 head(I_prediccion,3) ## fit lwr upr ## 1 15.77429 -32.12231 63.67089 ## 2 27.96984 -19.73159 75.67127 ## 3 32.84806 -14.80814 80.50426 El gráfico 3.3 refleja los dos tipos de intervalo. df_grafico = data.frame("y" = datos$Ozone, "x" = datos$Temp, "Confianza_lower" = I_confianza[,2], "Confianza_upper" = I_confianza[,3], "Prediccion_lower" = I_prediccion[,2], "Prediccion_upper" = I_prediccion[,3]) library(ggplot2) ggplot(data = df_grafico, aes(x = x, y = y)) + geom_point() + geom_smooth(method = "lm", formula = y ~ x, se = FALSE, linewidth = 0.5) + geom_line(aes(x = x, y = Confianza_lower, color = "IC"), linetype = 2) + geom_line(aes(x = x, y = Confianza_upper, color = "IC"), linetype = 2) + geom_line(aes(x = x, y = Prediccion_lower, color = "IP"), linetype = 2) + geom_line(aes(x = x, y = Prediccion_upper, color = "IP"), linetype = 2) + labs(x = "Temperatura" , y = "Ozono", color = "Intervalos") Figura 3.3: Intervalo de confianza y predicción Ahora, para responder a preguntas como ¿cuál sería la concentración de ozono a una temperatura de 90.34 grados Fahrenheit? se debe reportar el intervalo de predicción, el cual, en R, es al 95% de confianza por defecto. # Creamos una nueva base de datos para poder consultar el intervalo de predicción # Se debe tener el cuidado de que las columnas tengan el mismo nombre que base usada # para construir el modelo de regresión lineal aux = data.frame("Temp" = 90.34) # Solo incluimos la(s) variable(s) independiente(s) predict.lm(modelo, newdata = aux, interval = "prediction") ## fit lwr upr ## 1 72.70312 24.71044 120.6958 La salida de R indica, que la predicción de la concentración de ozono asociado a una medición de temperatura de 90.34 grados Fahrenheit sería de 72.70312 partes por billón, mientras que, el intervalo de predicción al 95% de confianza es \\((24.71044, 120.6958)\\). Por otro lado, si se desea conocer el intervalo de confianza asociado a un valor promedio (esperado o ajustado) del ozono asociado a una temperatura de 90.34 grados Fahrenheit, se debe efectuar el siguiente comando. predict.lm(modelo, newdata = aux, interval = "confidence") ## fit lwr upr ## 1 72.70312 65.24199 80.16425 La salida de R indica, que el valor promedio de la concentración de ozono asociado a una medición de temperatura de 90.34 grados Fahrenheit sería de 72.70312 partes por billón, mientras que, el intervalo de confianza al 95% de confianza es \\((65.24199, 80.16425)\\). Ejercicio 3.32 Utilizando la base del ejercicio 3.31 realice lo siguiente: Ajuste en R un modelo de regresión lineal para estudiar el logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) a través de las pulgadas de lluvia caída. Escriba la ecuación de regresión ajustada. Interprete los betas estimados. Elabore un gráfico de dispersión entre la variable dependiente e independiente del modelo de regresión lineal, que contenga los intervalos de confianza y predicción, diferenciándolos por colores. Determine el intervalo de predicción de logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) asociado a una cantidad de lluvia caída de 3.435 pulgadas. Interprete. Determine el intervalo de confianza del valor promedio del logaritmo de la tasa máxima de flujo de seis sectores de drenaje después de una tormenta (logq) asociado a una cantidad de lluvia caída de 3.435 pulgadas. Interprete. Ejercicio 3.33 Las mujeres ocupan aproximadamente la mitad de la población mundial, pero cuando se trata de la fuerza laboral total de un país, el porcentaje de trabajadores masculinos y femeninos rara vez es similar. Esto es aún más prominente para los países en desarrollo y subdesarrollados. Si bien varias razones, como el acceso insuficiente a la educación, las supersticiones religiosas y la falta de infraestructuras adecuadas, son responsables de esta discrepancia, va mucho más allá. Y para mostrar los efectos de múltiples factores socioeconómicos sobre la participación de la mujer en la fuerza laboral total, se ha considerado el porcentaje de empleo femenino en la fuerza laboral total, entre otros. El conjunto de datos (Empleo+femenino.csv) se eligió de una encuesta realizada en la población de Bangladesh. La base de datos contiene los siguientes datos: Year: Año de medición. PerFemEmploy: Relación entre empleo y población (%) de mujeres de 15 años o más. Ratio_MaletoFemale: Relación entre la tasa de participación de mujeres y hombres en la fuerza laboral. La tasa de participación en la fuerza laboral es la proporción de la población de 15 años o más que es económicamente activa. Wage.Salaried: Trabajadores asalariados, mujeres (% del empleo femenino). Los trabajadores asalariados (empleados) son aquellos trabajadores que ocupan el tipo de trabajos definidos como “trabajos de empleo remunerado”. A continuación: Ajuste en R un modelo mediante la metodología forward para estudiar la variable PerFemEmploy. Escriba el modelo poblacional. Escriba el modelo ajustado. Escriba la ecuación de regresión ajustada. Interprete los parámetros estimados. Estudie las pruebas de hipótesis de no nulidad (individual y conjunta). Determine el intervalo de predicción de la variable PerFemEmploy asociada a una tasa de participación de mujeres y hombres en la fuerza laboral igual a 37.543 en el año 2020. Interprete. Determine el intervalo de confianza del valor promedio de la variable PerFemEmploy asociada a una tasa de participación de mujeres y hombres en la fuerza laboral igual a 45.121 en el año 2021. Interprete. Interprete el \\(R^2\\) ajustado. Estudie los supuestos del modelo. Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Fahrmeir, L. (2013). Regression: Models, methods and applications. Springer. Healy, K. (2019). Data visualization: A practical introduction. Princeton University Press. Hintze, J. L., & Nelson, R. D. (1998). Violin plots: A box plot-density trace synergism. The American Statistician, 52(2), 181–184. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in r. Springer. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Wasserman, W. (2004). Applied linear regression models (Vol. 4). McGraw-Hill/Irwin New York. Ratner, B. (2009). The correlation coefficient: Its values range between +1/−1, or do they? Journal of Targeting, Measurement and Analysis for Marketing, 17(2), 139–142. https://doi.org/10.1057/jt.2009.5 Rowlingson, B. (2016). Data analysis with r. Springer. Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association, 21(153), 65–66. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley. "],["estimadores.html", "A Estimadores A.1 EMC en RLS A.2 EMC en RLM", " A Estimadores A.1 EMC en RLS El proceso de obtención de los estimadores de mínimos cuadrado en una regresión lineal simple es el siguiente: \\[\\begin{equation} \\begin{split} S(\\beta_0,\\beta_1) &= \\sum_{i=1}^n\\epsilon_i^2 = \\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2 \\end{split} \\tag{A.1} \\end{equation}\\] Para determinar el estimador de \\(\\beta_0\\) se calcula la derivada parcial la función \\(S(\\cdot)\\) respecto a este parámetro. \\[\\begin{equation} \\begin{split} \\frac{\\partial S}{\\partial\\beta_0} &= \\frac{\\partial }{\\partial\\beta_0}\\left(\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2\\right)\\\\ &= \\sum_{i=1}^n 2(Y_i - [\\beta_0 + \\beta_1X_i])(-1)\\\\ &= -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])\\\\ \\end{split} \\tag{A.2} \\end{equation}\\] Igualando a cero y despejando el parámetro, el estimador es: \\[\\begin{equation} \\begin{split} &-2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i]) = 0\\\\ &\\sum_{i=1}^n (Y_i - \\beta_0 - \\beta_1X_i) = 0\\\\ &\\sum_{i=1}^n Y_i - n\\beta_0 - \\beta_1\\sum_{i=1}^nX_i = 0\\\\ &\\sum_{i=1}^n Y_i - \\beta_1\\sum_{i=1}^nX_i = n\\beta_0\\\\ &\\widehat{\\beta}_0 = \\bar{Y} - \\beta_1\\bar{X} \\\\ \\end{split} \\tag{A.3} \\end{equation}\\] Para determinar el estimador de \\(\\beta_1\\) se calcula la derivada parcial la función \\(S(\\cdot)\\) respecto a este parámetro. \\[\\begin{equation} \\begin{split} \\frac{\\partial S}{\\partial\\beta_1} &= \\frac{\\partial }{\\partial\\beta_1}\\left(\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])^2\\right)\\\\ &= \\sum_{i=1}^n 2(Y_i - [\\beta_0 + \\beta_1X_i])(-X_i)\\\\ &= -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])X_i\\\\ \\end{split} \\tag{A.4} \\end{equation}\\] Igualando a cero. \\[\\begin{equation} \\begin{split} -2\\sum_{i=1}^n (Y_i - [\\beta_0 + \\beta_1X_i])X_i &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\beta_0X_i - \\beta_1X_i^2) &= 0\\\\ \\end{split} \\tag{A.5} \\end{equation}\\] Reemplazamos el estimador obtenido en (A.3). \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n (Y_iX_i - (\\bar{Y} - \\beta_1\\bar{X})X_i - \\beta_1X_i^2) &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i + \\beta_1\\bar{X}X_i - \\beta_1X_i^2) &= 0\\\\ \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) + \\beta_1\\sum_{i=1}^n(\\bar{X}X_i - X_i^2) &= 0\\\\ \\end{split} \\tag{A.6} \\end{equation}\\] Cada una de las sumatorias se puede reescribir de la siguiente manera: \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n(\\bar{X}X_i - X_i^2) &= \\sum_{i=1}^n(\\bar{X}X_i - X_i^2 + \\bar{X}^2 + \\bar{X}X_i - \\bar{X}^2 - \\bar{X}X_i)\\\\ &= \\sum_{i=1}^n(\\bar{X}X_i - X_i^2 + \\bar{X}^2 + \\bar{X}X_i - \\bar{X}^2 - \\bar{X}X_i)\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2 + \\sum_{i=1}^n\\bar{X}(\\bar{X}-X_i)\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2 + 0\\\\ &= -\\sum_{i=1}^n(X_i -\\bar{X})^2\\\\ \\end{split} \\tag{A.7} \\end{equation}\\] \\[\\begin{equation} \\begin{split} \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) &= \\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i + Y_i\\bar{X} + \\bar{Y}\\bar{X} - Y_i\\bar{X} - \\bar{Y}\\bar{X})\\\\ &= \\sum_{i=1}^n (Y_i(X_i - \\bar{X}) - \\bar{Y}(X_i - \\bar{X})) + \\sum_{i=1}^n(Y_i\\bar{X} - \\bar{Y}\\bar{X}) \\\\ &= \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) + 0 \\\\ &= \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X})\\\\ \\end{split} \\tag{A.8} \\end{equation}\\] Reemplazando (A.7) y (A.8) en la ecuación (A.6), el estimador de \\(\\beta_1\\) es: \\[\\begin{equation} \\begin{split} &\\sum_{i=1}^n (Y_iX_i - \\bar{Y}X_i) + \\beta_1\\sum_{i=1}^n(\\bar{X}X_i - X_i^2) = 0 \\\\ &\\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) - \\beta_1\\sum_{i=1}^n(X_i -\\bar{X})^2 = 0 \\\\ &\\beta_1\\sum_{i=1}^n(X_i -\\bar{X})^2 = \\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X}) \\\\ &\\widehat{\\beta}_1 = \\frac{\\displaystyle\\sum_{i=1}^n (Y_i - \\bar{Y})(X_i - \\bar{X})}{\\displaystyle\\sum_{i=1}^n(X_i -\\bar{X})^2} \\\\ \\end{split} \\tag{A.9} \\end{equation}\\] Luego, se puede reescribir el estimador de \\(\\beta_0\\) de la siguiente manera: \\[\\begin{equation} \\begin{split} &\\widehat{\\beta}_0 = \\bar{Y} - \\widehat{\\beta}_1\\bar{X} \\\\ \\end{split} \\tag{A.10} \\end{equation}\\] A.2 EMC en RLM El proceso de obtención de los estimadores de mínimos cuadrado en una regresión lineal múltiple corresponde a la minimización de la suma cuadrática de los errores. \\[\\begin{equation} \\begin{split} S(\\beta) = \\epsilon^t\\epsilon &= (Y - X\\beta)^t(Y - X\\beta)\\\\ &= (Y^t - \\beta^tX^t)(Y - X\\beta)\\\\ &= Y^tY - Y^tX\\beta - \\beta^tX^tY + \\beta^tX^tX\\beta\\\\ \\end{split} \\tag{A.11} \\end{equation}\\] Luego, derivando respecto a \\(\\beta\\). \\[\\begin{equation} \\begin{split} \\frac{S(\\beta)}{\\partial \\beta} &= - Y^tX - X^tY + 2X^tX\\beta\\\\ &= - 2X^tY + 2X^tX\\beta\\\\ \\end{split} \\tag{A.12} \\end{equation}\\] Igualando a cero y despejando la matriz \\(\\beta\\). \\[\\begin{equation} \\begin{split} - 2X^tY + 2X^tX\\beta &= 0\\\\ 2X^tX\\beta &= 2X^tY\\\\ X^tX\\beta &= X^tY\\\\ \\widehat{\\beta} &= (X^tX)^{-1}X^tY\\\\ \\end{split} \\tag{A.13} \\end{equation}\\] "],["estadísticos.html", "B Estadísticos B.1 Estadístico F del método de selección Forward", " B Estadísticos B.1 Estadístico F del método de selección Forward El estadístico \\(F\\) utilizado en la metodología forward para la selección de variables de un modelo de regresión lineal múltiple es: \\[\\begin{equation} F = \\displaystyle\\frac{(SCR_{\\text{modelo previo}} - SCR_{\\text{modelo propuesto}})/k}{SCR_{\\text{modelo completo}}/(n-p)} \\sim F_{k, n-p} \\tag{B.1} \\end{equation}\\] donde: \\(SCR_{\\text{modelo incial}}\\): es la suma cuadrática de los errores del modelo inicial (con un parámetro menos que el modelo propuesto). \\(SCR_{\\text{modelo propuesto}}\\): es la suma cuadrática de los errores del modelo con el nuevo predictor incluido. \\(SCR_{\\text{modelo completo}}\\): es la suma cuadrática de los errores del modelo con todos los predictores seleccionados. \\(k\\): es la cantidad de predictores añadidos de un modelo a otro; en este caso corresponde siempre al valor de 1. \\(n\\): cantidad de observaciones. \\(p\\): cantidad de parámetros del modelo completo (betas). La distribución \\(F\\) con \\(n_1\\) y \\(n_2\\) grados de libertad tiene la siguiente función de densidad: \\[\\begin{equation} f(x) = \\frac{\\Gamma(n_1/2+n_2/2)}{\\Gamma(n_1/2)\\Gamma(n_2/2)}\\left(\\frac{n_1}{n_2}\\right)^{n_1/2}x^{n_1/2-1}\\left(1+\\frac{n_1x}{n_2}\\right)^{-(n_1 + n_2)/2}, \\text{ }x>0 \\tag{B.2} \\end{equation}\\] Considerando la base de datos del ejercicio 3.15 y el modelo generado en el ejemplo 3.7: \\[ Y_{\\text{Logro}} = \\beta_0 + \\beta_1X_{\\text{LEN}} + \\beta_2X_{\\text{NEM}} + \\beta_3I_{\\text{Sexo=Mujer}} + \\epsilon, \\text{ } \\epsilon \\sim N(0,\\sigma^2I) \\] El modelo ajustado es datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Ingreso%2Buniversidad.csv") modelo = lm(Logro ~ LEN + NEM + Sexo, data = datos) anova(modelo) ## Analysis of Variance Table ## ## Response: Logro ## Df Sum Sq Mean Sq F value Pr(>F) ## LEN 1 1.26194 1.26194 99.0403 < 2.2e-16 *** ## NEM 1 0.21880 0.21880 17.1721 5.076e-05 *** ## Sexo 1 0.03348 0.03348 2.6277 0.1066 ## Residuals 196 2.49736 0.01274 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 La tabla anova da cuenta del estadístico \\(F\\) asociado a cada covariable a medida que ingresa en el modelo (en orden descendente). El estadístico asociado a cada covariable se calcula manualmente de la siguiente manera: modelo_nulo = lm(Logro ~ 1, data = datos) modelo_propuesto0 = lm(Logro ~ LEN, data = datos) modelo_propuesto1 = lm(Logro ~ LEN + NEM, data = datos) modelo_propuesto2 = lm(Logro ~ LEN + NEM + Sexo, data = datos) # Modelo completo # Estadístico F para la covariable LEN SCR_modeloprevio = sum(residuals(modelo_nulo)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto0)^2) k = 1 n = dim(datos)[1] p = length(modelo_propuesto2$coefficients) # Cantidad de parámetros del modelo completo SCR_modelocompleto = sum(residuals(modelo_propuesto2)^2) F_LEN = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_LEN ## [1] 99.04031 # Estadístico F para la covariable NEM SCR_modeloprevio = sum(residuals(modelo_propuesto0)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto1)^2) F_NEM = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_NEM ## [1] 17.17213 # Estadístico F para la covariable Sexo SCR_modeloprevio = sum(residuals(modelo_propuesto1)^2) SCR_modelopropuesto = sum(residuals(modelo_propuesto2)^2) F_Sexo = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p)) F_Sexo ## [1] 2.627705 Cada uno de estos estadísticos distribuye \\(F_{1,196}\\). El criterio de rechazo es \\[ F \\geq F_{k, n-p}^{1-\\alpha} \\] El valor-p de cada estadístico es: 1-pf(F_LEN,1,196) ## [1] 0 1-pf(F_NEM,1,196) ## [1] 5.07611e-05 1-pf(F_Sexo,1,196) ## [1] 0.1066211 tal como se aprecia en la salida del comando anova(). "],["referencias.html", "Referencias", " Referencias Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10a ed). Cengage Learning. Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole. Fahrmeir, L. (2013). Regression: Models, methods and applications. Springer. Healy, K. (2019). Data visualization: A practical introduction. Princeton University Press. Hintze, J. L., & Nelson, R. D. (1998). Violin plots: A box plot-density trace synergism. The American Statistician, 52(2), 181–184. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in r. Springer. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Wasserman, W. (2004). Applied linear regression models (Vol. 4). McGraw-Hill/Irwin New York. Micheaux, P. L. de, Drouilhet, R., & Liquet, B. (2013). R and its documentation. In The r software: Fundamentals of programming and statistical analysis (pp. 141–150). Springer New York. https://doi.org/10.1007/978-1-4614-9020-3_6 Peng, R. D. (2016). R programming for data science. Leanpub. https://bookdown.org/rdpeng/rprogdatascience/ Ratner, B. (2009). The correlation coefficient: Its values range between +1/−1, or do they? Journal of Targeting, Measurement and Analysis for Marketing, 17(2), 139–142. https://doi.org/10.1057/jt.2009.5 Rowlingson, B. (2016). Data analysis with r. Springer. Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association, 21(153), 65–66. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley. Wickham, H. (2009). Ggplot2: Elegant graphics for data analysis. Springer. "],["404.html", "Página no encontrada", " Página no encontrada La página que buscas o no existe o no se encuentra disponible. "]] diff --git a/docs/style.css b/docs/style.css index e82755d..e942594 100644 --- a/docs/style.css +++ b/docs/style.css @@ -150,12 +150,12 @@ declarada la versión de pandoc a utilizar */ /*-----------------------------------------------------------------*/ /*-----------------------------------------------------------------*/ /* Cuadro de color negro para los ejemplos */ +/* Eliminamos la opcion color: black;, lo que permite que texto dentro del marco cambie de color según el tema */ .blackbox { padding: 1em; margin-bottom: 1em; margin-top: 1em; - background: white; - color: black; + background: rgba(240, 240, 240, 0); border: 2px solid black; border-radius: 5px; }