DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN ...
Transcript of DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN ...
UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA
ESCUELA DE SISTEMAS DEPARTAMENTO DE INVESTIGACIÓN DE OPERACIONES
DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN COMPONENTES DE
SOFTWARE LIBRE
Por: Ana Luisa Manrique Leonett Tutor: Profesor Mariano José Durán N Co-Tutor: Profesor Francisco Rivas V
PROYECTO DE GRADO
Presentado ante la Ilustre Universidad de Los Andes
como requisito final para optar al
Título de Ingeniero de Sistemas
MÉRIDA, VENEZUELA
Mayo, 2007
i
A mi mamá
A mi esposo Gabriel
A mi hermana Luisana
ii
AGRADECIMIENTOS
A Dios Todopoderoso y al Nazareno, por darme fuerza e iluminarme en mi
camino.
A la Ilustre Universidad de Los Andes, por los conocimientos adquiridos.
Al Profesor Mariano Durán y Familia, gracias por su dedicación,
orientación y consejos.
Al Profesor Francisco Rivas, por su valiosa colaboración.
A mi mamá, gracias por creer en mí en todo momento y estar siempre a mi
lado, esta meta es tuya.
A mi esposo Gabriel, gracias por tu apoyo incondicional, hoy vemos
realizado uno de tantos sueños.
A mi Nonna Sarina, gracias por tu cariño, apoyo y consejos para concluir
este sueño.
iii
DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL,
BASADO EN COMPONENTES DE SOFTWARE LIBRE
por
Ana Luisa Manrique Leonett
RESUMEN
El presente trabajo de investigación analiza un software estadístico denominado R-
Commander; desarrollado en componentes libres. Para la validación de este paquete
estadístico se utilizaron datos del actual Sistema Nacional de Información Estadísticas
Forestales del País; donde previamente fueron identificadas un conjunto de variables de
uso común en el sector forestal; aplicándoles diferentes métodos estadísticos tales como:
estadísticas descriptivas, prueba de hipótesis para una media y diferencia de medias,
estimación de parámetros por intervalos, análisis de regresión lineal simple y múltiple.
Se diseño un manual de usuario para el uso de R-Commander; interfaz gráfica que
permite acceder a muchas capacidades del entorno estadístico R.
Los resultados de la investigación demuestran que las variables recabadas producto
aprovechamiento forestal del país pueden ser analizadas aplicándole los diferentes
métodos mencionados anteriormente; análisis que serán más confiables al ser
implementado en nuevo Sistema Nacional de Información Estadísticas Forestales
(SNIEF) para la recolección de datos provenientes del sector forestal del país.
Palabras claves: software libre, R project for statistical computing, estadísticas
forestales, métodos estadísticos y análisis de regresión.
iv
Índice General
1. Introducción 1
2. Antecedentes – Marco Teórico 5
2.1 Situación actual del sector Forestal en Venezuela, perspectiva de
desarrollo…………………………………………………………
5
2.2 Producción Forestal ……………………………………………… 6
2.2.1 Producción de Madera en Rola ……………………………… 6
2.2.2 Producción Industrial ……………………………………….. 7
2.2.2.1 Industria Mecánica ……………………………………. 7
2.2.2.2 Industria Química ……………………………………. 8
2.3 Aspecto Social ……………………………………………………. 10
2.4 Identificación de los requerimientos y necesidades del SNIEF ….. 12
2.5 Mecanismo para la captura de la información procedente de otras
organizaciones gubernamentales, no gubernamentales y sector
privado. Situación actual ……………………………………….
14
2.6 Niveles de circulación de la información Estadística Forestal en el
Ministerio del Poder Popular para el Ambiente …………………..
16
2.7 Objetivos del SNIEF …………………………………………….. 18
2.8 El Software Libre ………………………………………………. 19
2.9 Ventajas del Software Libre para Venezuela ……………………. 21
2.10 R Project Statistical for Computer.………………….....................
21
2.11 Introducción al Análisis Estadístico, Conceptos Básicos ………. 22
2.12 Análisis de Regresión Lineal ……………………………………
26
2.12.1 Regresión Lineal Simple ………………………………….. 27
2.12.1.1 Propiedades de los Estimadores de Mínimos
Cuadrados…………………………………………..
28
2.12.1.2 Estimación de la varianza para el término del error
en la regresión ……………………………………...
29
v
Índice General
2.12.1.3 Varianza del modelo de regresión ……………………. 29
2.12.2 Regresión Lineal Múltiple ………………………………… 30
2.12.2.1 Prueba de Hipótesis en la Regresión Lineal Múltiple 35
2.12.2.2 Verificación de Supuestos: Análisis de Residuales …
37
3. Resultados y Análisis ………………………………………………….. 39
3.1 Desarrollo del Manual R-Commander; acceso, uso y aplicación
del mismo …………………………………………………………
39
3.1.1 El Entorno R-Commander ……………………………………
39
3.1.2 Instalación del R y del paquete Rcmdr………………………..
41
3.1.3 Acceso del Rcmdr……….. ………………………………….. 42
3.1.4 Manejo de Datos …………………………………………….. 48
3.2 Identificación de las variables del sector forestal publicada en los
Anuarios Estadísticos Forestales del país………………………….
58
3.2.1 Variables identificadas en los módulos existentes…………… 58
3.3 Aplicación Estadística usando R Project (R-Commander) a las
variables del sector forestal.............................................................
67
3.3.1 Estadísticas descriptivas........................................................... 68
3.3.2 Estimación de paràmetros por intervalos ................................. 83
3.3.3 Prueba de Hipótesis para una media ………………………… 84
3.3.4 Prueba de Hipótesis para dos medias ………………………... 87
3.3.5 Regresión Lineal Simple …………………………………….. 90
3.3.6 Regresión Lineal Múltiple ……………………………………. 103
5. Conclusiones ……………………. ……………………………………. 120
. Bibliografía …………………………………………………………….. 121
1. Planillas de captura de la información forestal ……………………… 124
2. Comandos de R-Commander para ejecutar diferentes métodos
estadísticos ……………………………………………………………..
136
vi
Índice de Figuras
1
Dirección General de Bosques. Estructura Organizativa………………….. 14
2
Estructura Organizativa de la Dirección Estadal Ambiental ……………… 15
3
Niveles de circulación de la información Estadística Forestal en el
Ministerio del Poder Popular para el Ambiente …………………………...
17
4
Objetivos del SNIEF ……………………………………………………... 18
5
Ventana de Consola de R ............................................................................. 40
6
Ventana del entorno de R Commander …………………………………… 40
7
Sistema Nacianal de Información Estadísticas Forestales . Módulos
existentes para las Industrias Forestales en Venezuela ……………………
58
8
Resúmenes estadísticos. Datos ASE01 …………………………………… 71
9
Resúmenes Numéricos Estadísticos. Datos ASE01 ………………………. 72
10
Resultado Intervalos de confianza. Datos: ASE01 ……………………….. 84
11
Resultados para la Prueba de hipótesis para una media Datos: ASE01 …... 87
12
Resultado de la prueba de hipótesis para diferencia de medias. Datos:
ASE01……………………………………………………………………..
89
13
Resultado del test de correlación. Datos: ASE03RLS ……………………. 92
14
Nube de puntos para SAL_PROCM y PEROB-NOBR .Datos:
ASE03RLS ………………………………………………………………...
93
15
Resultados del modelo de regresión lineal simple. Datos: ASE03RLS …... 95
16
Gráfica de comparación de cuantiles(QQ). Datos: ASE03RLS …………... 97
17
Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLS …….. 98
18
Gráfico para detectar independencia de los errores. Datos:ASE03RLS ….. 100
19
Gráficas Básicas de Diagnósticos. Datos: ASE03RLS …………………… 100
20
Resultados de la Prueba de Breusch-Pagan. Datos: ASE03RLS …………. 101
21
Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLS ………….
102
22
Resultados del modelo de regresión lineal múltiple con todas las
variables. Datos: ASE03RLM ……………………………………………..
106
23
Matriz de Correlación para los datos: ASE03RLM ………………………. 107
24
Resultados de la Regresión paso a paso (Stepwise). Datos: ASE03RLM 109
vii
Índice de Figuras
25
Resultado del modelo de Regresión paso a paso y Resumen de la Tabla
ANOVA. Datos: ASE03RLM ……………………………………………..
111
26
Matriz de diagrama de dispersión para el modelo Stepwise. Datos:
ASE03RLM ………………………………………………………………..
112
27
Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLM …… 114
28
Gráfico para detectar independencia de los errores. Datos: ASE03RLM … 115
29
Gráficas básicas de Diagnósticos. Datos: ASE03RLM …………………... 116
30
Resultados del Test de Normalidad. Datos: ASE03RLM ………………… 117
31
Resultados de la Prueba de Breusch-Pagan. Datos: ASE03RLM ………… 118
32
Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLM ………... 119
viii
Índice de Tablas
1
Producción Nacional de Madera en Rola (m3 rollizos), por Modalidades
de Aprovechamiento. Periodo 1993 – 2003..................................................
7
2
Producción Nacional de Madera y sus Derivados por Tipo de Industria.
Período 1995-2001 ………………………………………………………...
8
3
Composición de la Materia Prima para la Producción
de Papeles,
Cartulinas y Cartón ………………………………………………………...
9
4
Tipo de Industria y la cantidad existente en el país según reportes del
Ministerio del Poder Popular para el Ambiente para el periodo 2001 y
2003 ………………………………………………………………………..
9
5
Datos para la regresión lineal múltiple ……………………………………. 31
6
Tabla ANOVA en el análisis de regresión………………………………. 37
7
Resumen de las Variables identificadas de los bloques 1 y 2 de todas las
planillas……………………………………………………………………………
59
8
Resumen de las variables. Planilla Industria Aserrio…………………….. 60
9
Resumen de las variables. Planilla machihembradora, carpintería,
mueblería, Depósitos y Afines……………………………………………..
61
10
Resumen de las variables. Planilla Industria Tableros Contrachapados ….. 63
11
Resumen de las variables. Planilla Industria Tableros y Aglomerados…… 65
12
Resumen de las variables. Planilla Industria Carbón Vegetal……………... 66
13
Resumen de las variables en los Módulos existentes ……………………... 67
14
Resúmenes estadísticos por grupo de los datos ASE01 …………………... 76
1
Capítulo 1. Introducción
Desde la década de los años 60, se inició el proceso de recolección de
información estadística forestal en el país, por intermedio del Ministerio de Agricultura
y Cría, sección de Bosques donde se registraba manualmente información sobre la
producción nacional por especie y Entidad Federal.
Más tarde, en el año 1979, se crea el Ministerio del Ambiente y de los Recursos
Naturales Renovables, se continuó registrando información estadística forestal y
divulgando cifras sobre la materia.
Luego, en el año 1992, se implementó un sistema automatizado que facilitó el
procesamiento de información para generar las publicaciones oficiales del Anuario
Estadística Forestales, posibilitando la divulgación de información en la materia con
una periodicidad de dos años.
El Anuario Estadísticas Forestales contiene información sobre el sector forestal,
producción nacional de madera en rola, producción nacional de productos secundarios,
industria mecánica, industria química de la madera, comercialización de productos
forestales maderables y no maderables, indicadores macroeconómicos del sector forestal
entre otra. El mismo se ha convertido en un insumo relevante para las labores que
realiza el planificador, gerente, estudiante, ciudadano común, investigador, académico,
entre otros usuarios de la información, que hoy en día deben acudir con más frecuencia a
la revisión, análisis y uso de los datos estadísticos.
El gobierno venezolano a través del Ministerio del Poder Popular para el
Ambiente ha suscrito un convenio con la Organización Internacional de Maderas
Tropicales (OIMT), con el fin de automatizar el Sistema de las Estadísticas Forestales
del país, a fin de mejorar la captura de la información y poder disponer de información
estadística forestal confiable y oportuna, como un elemento estratégico en la
2
formulación de políticas orientadas al manejo y aprovechamiento sustentable de los
recursos forestales.
Actualmente la Universidad de Los Andes, Facultad de Ciencias Forestales y
Ambientales, conjuntamente con el Ministerio del Poder Popular para el Ambiente están
desarrollando el Sistema Nacional de Información Estadística Forestal (SNIEF); cuyo
objetivo general es satisfacer las necesidades de información estadística del Sector
Forestal, para facilitar los procesos de toma de decisiones de los diferentes usuarios de
la misma. Para lograr este objetivo general se plantea la consecución de tres objetivos
específicos:
1) Generación del Anuario Estadístico y los Boletines.
2) Implementación de un módulo de Supervisión y Control.
3) Implementación de un modulo de Análisis Estadístico con el uso de
herramientas de software libre, específicamente R.
El presente trabajo se centra en el tercer objetivo específico del Sistema Nacional
de Información Estadística Forestal de Venezuela (SNIEF); enmarcado dentro del
término de Investigación. Este se refiere a la utilización de datos para determinar
tendencias, así como de estudios puntuales de los datos; aplicándoles diferentes métodos
estadísticos tales como: Estadísticas Descriptivas, Prueba de Hipótesis para una media y
diferencia de dos medias, Estimación de parámetros por intervalos y Análisis de
Regresión, entre otros.
Objetivos:
Como objetivo general de esta investigación se plantea analizar un software
estadístico, desarrollado en componentes libres, denominado “R project”,
específicamente “R-Commander”.
3
Objetivos Específicos:
1. Acceder, usar y aplicar R project, específicamente Rcmdr.
2. Identificar las variables de uso común en las estadísticas forestales del país.
3. Probar y validar el programa R-Commander en el análisis estadístico de las
variables del sector forestal.
4. Elaborar un manual de usuario de R-Commander con ejemplos.
Metodología
Para llevar a cabo esta investigación se realizó una secuencia de pasos
presentados a continuación:
1) Revisión de los antecedentes del Sistema Nacional de Información de Estadística
Forestal (SNIEF), revisión bibliográfica de Métodos Estadísticos y consultas
web.
2) Selección del programa estadístico, que en cumplimiento al Decreto 3390
referente al Software Libre se escogió “R Project for Statistical Computing”
versión 2.4.0, paquete “R-Commander” versión 1.2.6 (GUI).
3) Consultas web con el diseñador del programa (Jhon Fox) para aclarar dudas
acerca de la instalación del mismo.
4) Instalación y análisis del programa “R Project for Statistical Computing” versión
2.4.0, paquete “R-Commander” versión 1.2.6; para la verificación de su
funcionamiento en diferentes equipos de computación.
5) Identificación de las variables asociadas al sector forestal en las planillas de
captura de la información.
6) Revisión de la base de datos del sector forestal y aplicación del software en las
variables asociadas al mismo.
7) Revisión de algunos comandos (stepwise, t.test, shapiro.test) en el Manual
Introductorio de R, para ser ejecutados en R-Commander , debido a que estos no
están de manera directa en el menú mostrado por este paquete.
4
8) Aplicación de R-Commander para diferentes métodos estadísticos a las variables
asociadas del sector forestal.
5
Capítulo 2. Antecedentes - Marco Teórico
2.1 Situación actual del Sector Forestal en Venezuela, perspectiva de desarrollo.
Los bosques naturales existentes y las plantaciones establecidas y por establecer,
debidamente manejados con criterio de sostenibilidad, proveen bienes y servicios
necesarios para el bienestar de la población, sustentando, al mismo tiempo, procesos
económicos y sociales que contribuyen con el normal desenvolvimiento de la sociedad.
Las Industrias que procesan madera y sus derivados, en una cadena que finaliza en
productos como papel y material impreso o componentes para viviendas y su mobiliario,
se complementan con aquellas procesadoras de productos no maderables del bosque,
como alimentos, fibras, látex, resinas y muchos otros.
El amplio espectro de productos aprovechables de los bosques naturales y de las
plantaciones forestales permite el establecimiento y desarrollo de múltiples y diversas
industrias, a escalas muy variables. Desde plantas industriales de gran escala para la
producción de bienes industriales de consumo masivo, como madera aserrada, tableros,
puertas y ventanas, cartones, papeles, libros y materiales gráficos en general, hasta
organizaciones comunitarias para el aprovechamiento propio y comercial de productos
naturales, tales como aceites y esencias, fibras para vestido, techado y material para
artesanías, alimento y medicina. Las actividades productivas mencionadas permiten
establecer el concepto de producción sustentable bajo manejo, siendo éste el que
garantiza la permanencia del bosque y sus cualidades inherentes; es decir, si bien está
dirigido hacia la obtención de productos de consumo directo o de materias primas
industriales, conserva al bosque y cultiva su potencial productivo o, en el caso de
plantaciones forestales, repone las superficies explotadas, y con ello la capacidad del
ecosistema forestal de mantener tanto la producción como la oferta de servicios
ambientales.
6
Conviene destacar que el conjunto de las actividades forestales, tanto protectoras
como productivas, está entre las que genera más empleo por capital invertido,
requiriendo abundante mano de obra no calificada en el campo. Al mismo tiempo,
ofrece amplias posibilidades de crecimiento y participación aguas abajo en múltiples
actividades transformadoras, industriales y comerciales, en las cuales radica su mayor
potencial de beneficios sociales directos.
Además, los productos forestales son una fuente de divisas en muchos países en
desarrollo. Pero para que lo sigan siendo en el futuro, hay que ordenar y aprovechar con
prudencia los recursos forestales. Es preciso, sobre todo, establecer industrias forestales
para sacar mejor provecho de estos recursos naturales, mediante su transformación en
productos más valiosos para la exportación y el consumo interno.
2.2 La Producción Forestal.
2.2.1 Producción de Madera en Rola
La producción nacional de madera rolliza proviene de tres fuentes, bosques no
manejados cuya explotación se realiza con permisos anuales, bosques aprovechados
bajos planes de manejo forestal y plantaciones forestales. Esta producción ha sido
variable desde el año 1996 hasta el año 2003, como se muestra en la Tabla 1. Para el
caso de las explotaciones anuales la tendencia se ha mantenido hacia la baja;
igualmente, la producción obtenida en las áreas sometidas al manejo forestal ha sido
descendente hasta 1999, con un repunte para los años 2000 y 2001.
La producción de madera rolliza obtenida de las plantaciones de Pino Caribe se
puede indicar que ha estado en ascenso sostenido, variando levemente en los años 1997
y 1998, duplicándose en 1999 para descender nuevamente en los dos últimos años del
período registrado.
7
En general, se puede observar que mientras la producción del bosque natural, se
ha mantenido con una tendencia variable hacia la baja, la proveniente de plantaciones
forestales ha ido adquiriendo importancia como fuente de madera rolliza.
Tabla 1. Producción Nacional de Madera en Rola (m3 rollizos), por Modalidades de Aprovechamiento. Periodo 1993 – 2003
Año Permisos Anuales*
% Manejo Forestal**
% Plantaciones Pino Caribe
% Plantaciones Forestales
(Teca, melina, eucaliptos y acacia)
% Producción Nacional
1996 391.560,450 31,63 430.824,918 34,80 412.882,000 33,35 2.726,700 0,22 1.237.994,07
1997 364.472.050 27,33 385.522,995 28,91 580.967,500 43,57 2.438,385 0,18 1.333.400,92
1998 310.557,290 29,98 312.224,671 30,14 411.874,361 39,76 1.193,118 0,12 1.035.849,44
1999 280.352,460 19,11 274.897,329 18,74 904.767,580 61,68 6.876,095 0,47 1.466.893,46
2000 192.225,161 15,98 216.763,607 18,01 475.000,000 39,48 319.238,160
26,53 1.203.271,92
2001 240.383,563 23,97 186.186,787 18,56 320.000,000 31,91 256.348,540 25,56 1.002.918,89
2002 129.899,690 12,03 113.282,363 10,49 567.000,000 52,51 269.499,802 24,96 1.079.708,85
2003 103.919,752 11,61 140.830,974 15,73 419.600,000 46,87 230.811,063 25,78 895.161,789
Fuente: MARN-DGB. Boletín Estadístico Forestal Nº 5. Años 2002 - 2003 * Terrenos baldíos y privados ** Reservas Forestales y lotes boscosos.
2.2.2 Producción Industrial
2.2.2.1 Industria Mecánica
La producción de madera rolliza se orienta fundamentalmente hacia el
procesamiento mecánico, ya que la industria del papel obtiene su materia prima
principalmente a través de la importación y el reciclaje. La industria del aserrío es la
más importante procesadora de madera rolliza; para 1999 como se muestra en la Tabla
2. existían en el país aproximadamente 300 aserraderos concentrados en los estado
8
Bolívar, Monagas y Barinas con una producción alrededor de los 174.928 m3. La
industria del contrachapado colocaba en el mercado 29.600 m3 provenientes de 18
plantas, mientras que la del aglomerado, en 6 plantas, producía unos 59.000 m3.
Tabla 2. Producción Nacional de Madera y sus Derivados por Tipo de Industria. Período1995-2001
Producción ---------------- Categoría
Unidad de
Medida 1995 1996 1997 1998 1999 2000 2001
Madera Aserrada M3 237.290 192.932 240.784 261.000 174.928 175.263 217.278
Tableros Aglomerados M3 56.402 55.605 60.354 59.440 59.000* 60.066 62.044
Tableros Contrachapados M3 34.380 38.280 33.949 30.400 29.661* 28.798 27.192
Pulpa Tm 146.761 170.225 137.894 136.815 127.906 172.719 176.359
Papel, Cartones y Cartulinas Tm 736.502 623.304 707.743 637.196 547.838 433.942 426.239
Fibras Reciclables Tm 281.326 280.869 263.752 280.275 214.625 241.317 220.458
* Estimaciones Fuente: DGRF – MARN. Boletín Estadístico Forestal. N0 4 Año 2001
2.2.2.2 Industria Química
La industria de papel se abastece principalmente del reciclaje, pulpa de bagazo
de caña y de materia prima importada. Para el año 1999 el 64% del consumo aparente de
materia prima utilizada para la producción de papel era fibras reciclables y del 36% de
pulpa utilizada, un 32% era importado. En la Tabla 3. se muestra la composición de la
materia prima para la producción de papeles, cartulinas y cartón.
9
Tabla 3. Composición de la Materia Prima para la Producción de Papeles, Cartulinas y Cartón
Nacional Importada Consumo aparente
Total Tm
% Consumo Aparente
Total Tm
% Consumo Aparente
Total Tm
% Consumo Aparente
Pulpa 127.906 67,47 61.657 32,53 189.563 35,97
Fibra Reciclable 214.625 63,61 122.808 36,39 337.433 64,03
Total 342.531 65 184.465 35 526.996 100,00
Fuente APROPACA. Informe Anual 1999. Citado por FAO 2002
Las tendencias de la producción de papel, cartulinas, cartón y fibras reciclables
en los últimos años, han tenido un comportamiento estable con ligeras fluctuaciones
hasta 1998, con un marcado descenso en la producción de papeles, cartulinas y cartones,
en los años 2000 y 2001. La producción de pulpa presenta un comportamiento estable,
con ligeras variaciones, incrementándose en los dos últimos años del período registrado.
Los tipos de Industrias y el número de establecimientos en el país para el año
2001-2003 son mostrados en la Tabla 4 .
Tabla 4. Tipo de Industria y la cantidad existente en el país según reportes del Ministerio del Poder Popular para el Ambiente para el periodo 2001- 2003
TIPO DE INDUSTRIA NÚMERO DE ESTABLECIMIENTOS
%
Aserrío 298 14,22 Contraenchapado 18 0,8
Aglomerado 6 0,2 Pulpa y Papel 8 0,3
Carbón Vegetal 27 1,3 Carpintería 1.282 61,19 Depósitos 418 19,95 Palmiteras 3 0,1
Planta de Astillas 1 0,04 Guacalera –Manufacturera
22 1,0 Machihembrado 12 0,6
TOTAL 2.092 100,00
Fuente: MARN-DGB. Boletín Estadístico Forestal Nº 5. Años 2002-2003
10
2.3 Aspecto Social
Aunque muchas plantaciones se han desarrollado para abastecer a grandes
industrias, estos proyectos se han constituido, en muchos casos, en una importante
fuente de materias primas para las comunidades cercanas. Los usos más comunes son la
madera de aserrío, leña, estantillos para cerca y forrajes. Las plantaciones han
significado un elemento que otorga mayor valor a la propiedad.
Destacan las plantaciones de Pino en las sabanas y chaparrales de Anzoátegui y
Monagas, donde el uso de la tierra está sujeto a grandes limitaciones naturales. Algunos
consideran un “milagro ecológico” la adaptación del pino a estas condiciones de suelos
arenosos y pobres en nutrientes, muy deficientes para las actividades agropecuarias y
donde las comunidades no tenían prácticamente ninguna alternativa de desarrollo. El
establecimiento de estas plantaciones le dio valor a la tierra, generó posibilidades de
empleo a los moradores locales y la creación de industrias pequeñas y grandes. El Pino
ha tenido un gran impacto en todo el país, ya que actualmente, es la madera más
económica disponible para las carpinterías. De hecho, esta especie representa la mitad
del consumo de la madera aserrada en Venezuela.
Por otra parte, la Teca ha tenido un rotundo éxito en el manejo forestal del
Estado Barinas. Muchos productores agropecuarios la han incorporado a sus terrenos
como cercas vivas, y han comenzado a plantar pequeños lotes, debido a su alto valor
comercial. Los productos de aclareo (de pequeñas dimensiones) son muy cotizados
como estantillos para cerca y varas de construcción. Los fustes intermedios se utilizan
para machihembrado y los más grandes se dedican a tablas y vigas. Esta especie se
comporta muy bien en el torno, lo que permite la manufactura de diversas artesanías. Se
estima que en Socopó (Estado. Barinas) funcionan más de 200 carpinterías que utilizan
la Teca como materia prima.
La generación de empleo es otro efecto positivo, muy importante porque, al
compararlo con las actividades agropecuarias, representa mayor mano de obra por
11
hectárea y dedicación todo el año. Esto es especialmente significativo en regiones, como
las de oriente, económicamente deprimidas.
El sector forestal genera 2.700 empleos directos y 13.500 empleos indirectos. La
información indica que para 1975 existían 3.022 empleos directos en la industria de
aserrío (MARN-SEFORVEN 1997); entre 1982 y 1983 se incrementó a más de 10.000
empleos directos y 50.000 empleos indirectos (MARN-SEFORVEN, 1991). De 1990 a
1995 el empleo en el sector forestal disminuyó en un 6 %, de 54.200 hasta 51.000
personas, como consecuencia del cierre de plantas en la industria mecánica de la madera
(Monitor Company, 1997).
Entre 1989 y 1995, las compañías de papel y los aserraderos mantuvieron un
empleo estable y la fábrica de los muebles registró un incremento neto de 3% por año;
pero, el empleo en contrachapado disminuyó en un 40% entre 1970 y 1995 y el empleo
en aglomerados con sólo 351 personas en 1996, cayó 15% anual entre 1994 y 1996.
En general, el sector forestal sigue siendo una oportunidad sin explotar para el
empleo en Venezuela. La cadena forestal apenas suministra empleo a 31.000
trabajadores. Se podría afirmar, en cuanto a plantaciones forestales, que el modelo
escogido por Venezuela no arroja resultados óptimos. El país inició plantaciones en gran
escala en los años 70, pero el Estado se convirtió en empresario y manejó la operación
de siembra y extensión, a través de la Corporación Venezolana de Guayana / CVG, el
Ministerio de Agricultura / MAC, la Compañía Nacional de Reforestación – CONARE
y posteriormente, PROFORCA (Monitor Company, 1997). Actualmente, los cambios
cualitativos en la Política Nacional de Bosques y el las orientaciones del órgano rector
del sector, la Dirección General de Bosques (antigua Dirección General del Sector
Forestal), del Ministerio del Poder Popular para el Ambiente, el Plan Nacional de
Desarrollo 2002-2007 y los proyectos relacionados con el Eje de Desarrollo Apure
Orinoco, muestran nuevas opciones sociales, fundadas en alternativas que incluyen
desde la actividad forestal empresarial, a lo largo de ese Eje de Desarrollo hasta las
12
foresterías comunitarias que se promueven en las Reservas Forestales de Occidente, así
como la instalación de diversas industrias asociadas a la cadena forestal.
2.4 Identificación de los requerimientos y necesidades del Sistema Nacional de
Información Forestal.
El gobierno venezolano a través del Ministerio del Poder Popular para el
Ambiente ha suscrito un convenio con la Organización Internacional de Maderas
Tropicales (OIMT), con el fin de automatizar el Sistema de las Estadísticas Forestales
del país, a fin de mejorar la captura de la información y poder disponer de información
estadística forestal confiable y oportuna, como un elemento estratégico en la
formulación de políticas orientadas al manejo y aprovechamiento sustentable de los
recursos forestales. La OIMT, cuenta con experiencias en países tropicales del mundo y
especialmente en Latinoamérica, donde ha financiado proyectos de desarrollo
estadísticos forestales, los mismos son Bolivia, Colombia, Panamá y Perú.
La oficina del SNIEF, con apoyo financiero y técnico de la OIMT, se ha
planteado un proceso de modernización de sus actividades a los fines de adecuar la
información que genera esta dependencia, con los otros organismos competentes en la
materia como el Sistema de Información del Ministerio (SIMA), Instituto Nacional de
Estadística (INE), otros organismos gubernamentales como el Banco Central de
Venezuela (BCV), Universidades, y Organizaciones no Gubernamentales, entre otras.
En el año 2004, se realizó una serie de talleres donde se evaluó el actual sistema
sus fortalezas y debilidades, así como también algunas acciones conducentes al
mejoramiento del sistema.
Algunos de los aspectos más resaltantes de estos talleres realizados en las
Direcciones Ambientales de los cuatro estados involucrados son:
13
Ausencia de información registrada. Se ha observado que existe información
relevante que no esta incorporada en las planillas de registro operacional de las
actividades forestales.
Omisión de datos. En algunos casos la información es presentada de manera
incompleta (precios, empleos, volúmenes, especies, etc.), tanto por las oficinas
del Ministerio del Ambiente a nivel nacional, como por las empresas privadas.
Inconsistencias. Los entes a quienes corresponde suministrar la información, no
manejan un sistema uniforme de conversión de unidades.
Obsolescencia de los sistemas de información de las estadísticas forestales.
Formatos para la recolección de la información con una gran cantidad de
variables que no son relevantes como fuente de información.
Obsolescencia del sistema de red. El equipo que actualmente se utiliza, a nivel
central como servidor no esta en funcionamiento.
Las Direcciones Estadales Ambientales (DEA’s), no disponen de equipos para la
transmisión oportuna de la información.
Objetivos en el corto y mediano plazo:
1. Realizar un Diagnostico del Actual Sistema de Información de Estadísticas
Forestales.
2. Actualizar y mantener el sistema vigente de generación de estadísticas
forestales.
3. Conectar en red y a INTERNET al Sistema de Información de Estadísticas
Forestales bajo la plataforma del Sistema de Información del Ministerio del
Poder Popular para el Ambiente.
4. Crear un sitio en la red en donde se recopile y suministre información a los
usuarios.
5. Generar las publicaciones electrónicas del Anuario Estadísticas Forestales,
Boletines Estadísticos y Directorio de Industrias Forestales de Venezuela.
6. Generar documentos síntesis sobre la situación del sector forestal con base en
el análisis estadístico de los datos.
14
7. Establecer los programas de inducción donde se involucre a los entes
generadores de información, con el fin de obtener información confiable y en
los tiempos estipulados.
2.5 Mecanismos para la captura de la información procedente de otras
organizaciones gubernamentales, no gubernamentales y sector privado. Situación
actual.
El siguiente análisis corresponde a los cuatro nodos iniciales del proyecto de
Actualización y Consolidación del Sistema Nacional de Información Estadística Forestal
de Venezuela. Estos corresponden a los Estados Barinas, Bolívar, Delta Amacuro y
Monagas. Actualmente, la información referente a las Estadísticas Forestales de
Venezuela, está centralizada en el MPPA, en la Dirección General de Bosques (DGB).
En el análisis efectuado a nivel central, se identificaron tres direcciones que manejan de
una u otra forma la información estadística en forma directa: a) Dirección de Política y
Planificación del Bosque, la Dirección de Investigación y proyectos del Bosque y la
Dirección de Bienes y Servicios del Bosque. La Dirección General de Bosques presenta
la siguiente estructura organizativa:
Figura 1. Dirección General de Bosques. Estructura Organizativa. Fuente: Taller primeras Jornadas de Conservación Ministerio del Ambiente 2004. Adaptado.
15
Como se observa en la figura anterior, a nivel central existen cuatro direcciones:
1. Política y Planificación del Bosque
2. Investigación y Proyectos del Bosque
3. Bienes y Servicios del Bosque.
4. Supervisión y Control Forestal. A nivel de los estados existen las
Direcciones Estadales Ambientales (DEA’s), comprendiendo un total de
23 y en cada DEA’s, a un nivel jerárquico menor, pero no menos
importante, están las Áreas Administrativas.
La estructura Organizativa de las DEA’s se muestra en el siguiente figura.
Figura 2. Estructura Organizativa de la Dirección Estadal Ambiental Fuente: Taller primeras Jornadas de Conservación Ministerio del Poder Popular para el Ambiente 2004.
Determinando la ruta de los flujos de información se puede afirmar que el dato
se genera a nivel de las áreas administrativas, quienes envían la información a dos
16
unidades dentro de las DEA’s: a) Conservación Ambiental y b) Ordenación y
Administración Ambiental. Luego estas unidades envían la información a la Dirección
General de Bosques, y a nivel central, se distribuye a las direcciones de: 1) Política y
Planificación del Bosque, 2) Bienes y Servicios del Bosque, y 3) Supervisión y Control
Forestal. El Sistema Nacional de Información de Estadísticas Forestales (SNIEF), esta
adscrito a la Dirección de Política y Planificación de Bosques. Los encargados de
recopilar la información forestal, en la oficina del SNIEF solicitan la información
pertinente, a efectos de elaborar el Anuario Estadístico Forestal y los Boletines, a las
direcciones de Bienes y Servicios del Bosque, y Supervisión y Control Forestal, entre
otras.
Dentro de las DEA’s, la unidad de Conservación Ambiental centraliza la
información relacionada con los planes anuales de corta y los planes de las plantaciones.
La unidad de permisiones centraliza información referente a Volumen de Madera en
Rola, por especie y por estado.
Sin embargo, visitas a las Direcciones Estadales Ambientales y a las Áreas
Administrativas, se pudo observar que a pesar que la información finalmente es
centralizada a nivel de la Dirección General de Bosques, no existe uniformidad en las
rutas que sigue la información desde la generación del dato a nivel de Áreas
Administrativas, hasta llegar a las Direcciones de: Política y Planificación del Bosque,
Bienes y Servicios del Bosque, y Supervisión y Control Forestal.
2.6 Niveles de circulación de la información estadística forestal en el Ministerio del
Poder Popular para el Ambiente.
En la siguiente figura se indica en forma general los flujos de información
estadística forestal, que es producida, manejada y verificada en el Ministerio del Poder
Popular para el Ambiente y los diferentes niveles donde se produce la misma.
17
NIVEL CENTRAL
Procesa y Analiza la Información Solicitada a las Direcciones Estadales.
Solicita información a otras instituciones Prepara Boletines y Anuarios
DIRECCIÓN ESTADAL AMBIENTAL Recolecta, Certifica y verifica la Información de campo, suministrada por las Áreas Administrativas
ÁREAS ADMINISTRATIVAS Recolectan y certifican la información proveniente de los manejadores del Bosque, Información que se transcribe a los formatos existentes para cada caso. En la industria transformadora del recurso forestal, la trascripción de información es realizada por personal de las empresas y el funcionario certifica.
Figura 3. Niveles de circulación de la información Estadística Forestal en el Ministerio
del Poder Popular para el Ambiente.
Los pasos a seguir para la obtención de los datos de las planillas, para todas las
Industrias Forestales y el flujograma se presentan a continuación. Pasos:
1. La industria solicita al MPPA el canje de las guías de circulación.
2. El MPPA realiza inspección en patio y revisión de libros.
3. La industria envía la planilla de “Registro Operacional” a la sede del MPPA.
4. Mensualmente las planillas son remitidas al Nivel Central.
18
2.7 Objetivos del SNIEF
Objetivos del SNIEF, como un sistema integrado de generación de estadísticas,
elemento de control del dato, validez de la información y útil para la toma de
decisiones.
- Descriptiva - Guías de circulación - Análisis Estadístico - Guías inutilizadas (R Software) - Guías de canje - Aprovechamiento de Bosque - Aprovechamiento de Plantaciones - Industria
Figura 4. Objetivos del SNIEF
En esta figura se puede observar tres grandes objetivos del sistema. El primer
objetivo sería la elaboración electrónica de los anuarios y boletines estadísticos. El
acceso a esta información estará disponible a todos los usuarios, a través de Internet. Sin
embargo, el sistema ofrecerá la posibilidad de algunas consultas específicas por parte de
los usuarios. También será posible, para todos los usuarios, disponer de información
actualizada, con retrasos mínimos. En esta etapa, los análisis se harán utilizando las
herramientas de las Estadísticas Descriptivas. Esta información será ofrecida con los
módulos existentes y con la información ampliada con los nuevos módulos incorporados
al sistema.
BD
Anuarios y Boletines
Supervisión y control
Investigación
SNIEF
19
El segundo objetivo, al cual se la ha dado mucha importancia, tiene que ver con
la elaboración de nuevos módulos de supervisión y control, principalmente a través de
los mecanismos de las guías de circulación, que permiten hacer el seguimiento de la
madera en rola desde el origen hasta las diferentes industrias que la procesan. Este
seguimiento a la vez permite chequear la validez de la información suministrada por las
industrias forestales. En base al análisis de las funciones de las direcciones de línea de la
DGB, de las DEA’s y de las áreas Administrativas, el SNIEF podrá generar reportes
específicos necesitados por estas dependencias, necesarios para la toma de decisiones.
Finalmente, el tercer objetivo ha sido enmarcado dentro del término
Investigación. Este se refiere a la utilización de los datos para determinar tendencias, así
como de estudios puntuales de los datos. Diferentes métodos estadísticos serán
analizados para ser aplicados en este módulo tales como: Estadísticas Descriptivas,
Análisis de Regresión, entre otros. La aplicación de los métodos permite hacer el
análisis exploratorio de datos y establecer relaciones entre las variables, así como la
formulación y prueba de hipótesis; los mismos serán aplicados con el software libre R
Project Statistical for Computer, específicamente R-Commander. Resultados útiles para
la investigación en el área forestal y para la toma de decisiones.
En definitiva lo que se quiere es motivar y explicar a la gerencia media y alta
sobre la importancia de las estadísticas forestales para sustentar las decisiones sobre el
manejo, la conservación y desarrollo de los bosques de Venezuela.
2.8 El Software Libre
``Software Libre'' se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir,
estudiar, cambiar y mejorar el software. De modo más preciso, se refiere a cuatro
libertades de los usuarios del software:
La libertad de usar el programa, con cualquier propósito (libertad 0).
La libertad de estudiar cómo funciona el programa, y adaptarlo a sus necesidades
(libertad 1). El acceso al código fuente es una condición previa para esto.
20
La libertad de distribuir copias, para ayudar a la comunidad (libertad 2).
La libertad de mejorar el programa y hacer públicas las mejoras, de modo que
toda la comunidad se beneficie. (libertad 3). El acceso al código fuente es un
requisito previo para esto.
Un programa es software libre si los usuarios tienen todas estas libertades. Así
pues, se debe tener la libertad de distribuir copias, sea con o sin modificaciones, sea
gratis o cobrando una cantidad por la distribución, a cualquiera y en cualquier lugar. El
ser libre de hacer esto significa (entre otras cosas) que no es necesario pedir o pagar
permisos.
También se debe tener la libertad de hacer modificaciones y utilizarlas de
manera privada en el trabajo u ocio, sin ni siquiera tener que anunciar que dichas
modificaciones existen. Si se publican los cambios, no es necesario avisar a nadie en
particular.
La libertad para usar un programa significa la libertad para cualquier persona u
organización de usarlo en cualquier tipo de sistema informático, para cualquier clase de
trabajo, y sin tener obligación de comunicárselo al desarrollador o a alguna otra entidad
específica.
La libertad de distribuir copias debe incluir tanto las formas binarias o
ejecutables del programa como su código fuente, sean versiones modificadas o sin
modificar (distribuir programas de modo ejecutable es necesario para que los sistemas
operativos libres sean fáciles de instalar). Está bien si no hay manera de producir un
binario o ejecutable de un programa concreto (ya que algunos lenguajes no tienen esta
capacidad), pero es necesario tener la libertad de distribuir los formatos encontrados o
desarrollados si es el caso.
Para que las libertades de hacer modificaciones y de publicar versiones
mejoradas tengan sentido, se debe tener acceso al código fuente del programa. Por lo
tanto, la posibilidad de acceder al código fuente es una condición necesaria para el
software libre.
21
Para que estas libertades sean reales, deben ser irrevocables mientras no se haga
nada incorrecto; si el desarrollador del software tiene el poder de revocar la licencia
aunque no le hayas dado motivos, el software no es libre.
``Software libre'' no significa ``no comercial''. Un programa libre debe estar
disponible para uso, desarrollo y distribución comercial.
2.9 Ventajas de Software Libre para Venezuela
El uso del software libre contrarresta el individualismo que difunde el software
licenciado porque se desarrolla bajo una concepción de cooperación entre un grupo de
personas, cooperativas, instituciones del Estado, organizaciones sociales, etc. Con el
Decreto Nº 3.390 se otorga prioridad a la gestión de Gobierno, mediante el uso de esta
tecnología; e igualmente establece la importancia primordial del uso del software libre
en la Administración Pública frente al software propietario o licenciado.
Por lo tanto, una de las ventajas que proporciona la tecnología abierta es que el
resultado de esa práctica es replicable, porque la libertad permite la redistribución de la
experiencia, en la que participa una comunidad de actores. En este sentido el estado
venezolano, a través del gobierno definió como unas de sus políticas en el manejo de la
información la aplicación del uso de software libre, siendo el Ministerio para el Poder
Popular para el Ambiente (MPPA) consecuente a esta política establece como prioridad
el manejo de la información con el uso de esta herramienta.
2.10 R Project Statistical for Computer
R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la
simplicidad y flexibilidad de R. El hecho que R es un lenguaje de programación puede
desaminar a muchos usuarios que piensan que no tienen “alma de programadores”. Esto
no es necesariamente cierto por dos razones. Primero R es un lenguaje interpretado
(como Java) y no compilado (como C, C++, Fortran, Pascal,. . .), lo cual significa que
los comandos escritos en el teclado son ejecutados directamente sin necesidad de
22
construir ejecutables; además existe una interfaz gráfica (GUI) dentro de los paquetes
llamado Rcmdr.
Orientado a Objetos significa que las variables, datos, funciones, resultados, etc.,
se guardan en la memoria activa del computador en forma de objetos con un nombre
específico. El usuario puede modificar o manipular estos objetos con operadores
(aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos).
R es un conjunto integrado de programas para manipulación de datos, cálculo y
gráficos.
Entre otras características dispone de:
Almacenamiento y manipulación efectiva de datos.
Operadores para cálculo sobre variables indexadas (Arrays), en particular
matrices.
Una amplia, coherente e integrada colección de herramientas para análisis de
datos.
Posibilidades graficas para análisis de datos, que funcionan directamente sobre
pantalla o impresora.
Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye
condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.
(Debe destacarse que muchas de las funciones suministradas con el sistema están
escritas en el lenguaje R).
2.11 Introducción al Análisis Estadístico, Conceptos Básicos.
El análisis estadístico o análisis de datos engloba un conjunto de procedimientos
diseñados para seleccionar datos, describirlos y extraer conclusiones de ellos.
Esta moderna ciencia, la estadística, es el resultado de la confluencia de dos
disciplinas independientes: el cálculo de probabilidades, que nace como aproximación
23
matemática a los juegos de azar y la estadística, o ciencia del Estado, dedicada a llevar
registros ordenados (contar, tabular, clasificar, censar, etc.) de los datos del Estado.
Es común encontrar la estadística dividida en dos partes diferentes: la estadística
descriptiva y la estadística inferencial o inductiva. La estadística descriptiva consta de
una serie de procedimientos diseñados para organizar y resumir la información
contenida en un conjunto (muestra) de datos empíricos; es lo que se corresponde con lo
que se ha llamado como descripción de los datos.
La estadística inferencial o inductiva, por su parte, engloba una serie de
estrategias que permiten generalizar (inferir, inducir) las propiedades de ese conjunto de
datos empíricos (muestra) al conjunto total de datos (población) a los que representan;
se corresponde a la extracción de conclusiones. Por supuesto para efectuar esta
generalización (inferencia) de lo concreto a lo general es imprescindible que el conjunto
de datos utilizados para obtener la información (muestra) sea representativo al conjunto
total de datos (población) sobre el que se desea realizar la inferencia (es decir, es
necesario efectuar una correcta selección de los datos).
Población: una población o universo es un conjunto de elementos (sujetos, objetos,
entidades abstractas, etc.) que poseen una o más características específicas en común.
En general, el término población hace referencia al conjunto total de elementos
que se desea estudiar, de manera que una población queda definida cuando se hace
explícita la característica (o características) que esos elementos comparten.
Dependiendo del número de elementos de que constan, unas poblaciones son
finitas (están formadas por un número finito de elementos) y otras infinitas (están
formadas por un número infinito de elementos).
Muestra: una muestra es un subconjunto de elementos de una población. Con el análisis
se intenta: extraer conclusiones referidas a todos los elementos de la población a partir
24
de la observación de solo unos pocos elementos de esa población. Ahora bien, para que
esto sea posible, es necesario, que la muestra utilizada sea representativa de la
población; esto se consigue mediante la técnica de muestreo.
Parámetro: es un valor numérico que describe una característica de una población.
Estadístico: valor numérico que describe una característica de una muestra.
Censo: se refiere al estudio de las características de toda la población.
Estadística descriptiva e inferencial: una de las divisiones de la estadística viene dada
por la separación entre estadística descriptiva y la estadística inferencial. La estadística
descriptiva comprende la aplicación de técnicas con el fin de estudiar un conjunto de
datos, sin elaborar conclusiones para otros datos. Éste conjunto puede representar una
población o una muestra; en ambos casos se debe seguir un conjunto de pasos para
realizar análisis descriptivos; dichos pasos son los siguientes:
a. Recolección de la información (encuestas, planillas, entrevistas, por teléfono,
correo electrónico, boletines, anuarios, experimentos, observacionales, entre
otros).
b. Ordenación de la información.
b.1 Ascendente y descendente.
b.2 Mediante distribuciones de frecuencia simple.
b.3 Mediante intervalos de clase.
c. Representación gráfica de los datos.
c.1 Gráficos de barras e histogramas.
c.2 Gráficos de tallos y hojas, de cajas (box plot), medias.
c.3 Gráficos de tortas.
d. Cálculo de las medidas de tendencia central.
d.1.Media = x ; X .
d.2 Moda = mx ; mX .
25
d.3 Mediana = 5.0x ; 5.0X .
e. Cálculo de las medidas de dispersión.
e.1 Varianza y desviación estándar = 22 ;S
f. Elaboración de las conclusiones solo para los datos estudiados.
La segunda división de la estadística llamada Estadística Inferencial se refiere al
proceso mediante el cual se elaboran conclusiones para la población en base al estudio
de la muestra; es decir, es el proceso mediante el cual se elaboran conclusiones para los
parámetros en base al estudio de los estadísticos.
La estadística inferencial comprende la estimación de parámetros y la prueba de
hipótesis. La estimación de parámetros puede ser puntual y por intervalos. Los
parámetros más comúnmente evaluados son: media ( ), diferencia de medias ( 21 ),
proporción ( ), diferencia de proporciones ( 21 ).
Estimación de parámetros por intervalos: la estadística inferencial se subdivide en
dos partes: a) Estimación de parámetros (puntual y por intervalos), b) Prueba de
hipótesis.
La estimación de parámetros por intervalos consiste en obtener unos limites
inferior y superior que se espera contengan el verdadero valor del parámetro con una
probabilidad de 1 .
26
ˆ ˆ
ˆ
ˆ
ˆ
ˆ ˆ( ) 1
:
ˆlimite inferior:
ˆlimite superior:
:
ˆ :
: tan
K: multiplicador de confianza(depende del modelo proba
P K K
donde
K
K
parametro
estadistico
desviaciones es dar del estadistico
bilistico usado para la inferencia)
: nivel de significacion
1- : nivel de confianza
Los parámetros más comúnmente estimados son la media, diferencia de medias,
proporción, diferencia de proporciones y varianzas. Cálculo de intervalos de confianza
para la media:
Se necesita conocer dos características de la distribución muestral como son:
La esperanza de la variable (estadístico):
( )E x
La desviación estándar de la variable:
/xs s n
Donde para;
0.95 implica 1.96 (modelo normal)K
2.12 Análisis de Regresión Lineal
El análisis de regresión comprende la aplicación de un conjunto de métodos
estadísticos con el fin de analizar las relaciones entre dos o más variables; se tienen tres
tipos de análisis de regresión lineal:
1) Lineal Simple iii XY 10 .
2) Lineal Múltiple ipipii XXY 1,1110 ... .
27
3) Lineal Multivariante ipipin XXYYY 1,111021 ...,...,, .
2.12.1 Regresión Lineal Simple
iii XY 10 .
Como se puede apreciar en el modelo de regresión lineal simple solo se estudia
la relación entre una variable independiente ( X ) y una variable dependiente (Y ). Las
características de este modelo serán estudiadas a continuación.
El Modelo de Regresión Lineal Simple puede ser definido como:
0 1 1 (1)iY X
Donde:
iY es el valor de la variable respuesta en la i-esima observación.
0 y 1son los parámetros del modelo.
iX es la i-esima observación considerada una constante.
i es el error aleatorio con media 0iE y varianza
2 2; y i i j
Son no correlacionados, por lo tanto su covarianza es cero
i j( , , =0 para todo i, j; i j) ejemplo
Nota: El modelo de regresión (1) es llamado simple, lineal en los parámetros y lineal en
la variable independiente X. Simple porque solo tiene una variable independiente, lineal
en los parámetros porque ningún parámetro aparece elevado a una potencia o
multiplicado o dividido por otro parámetro, y lineal en la variable independiente porque
esta solo aparece elevada a la potencia uno. Un modelo como este es llamado modelo
de primer orden.
Aspectos importantes de este modelo:
1. La respuesta Y en la i-ésima observación es la suma de dos componentes: 1) el
termino constante 0 1+ iX
y 2) el termino aleatorio i . Por lo tanto Yi es una
variable aleatoria.
28
2. Dado que 0iE , entonces se tiene que:
0 1 0 1 0 1i i i i iE Y E X X E X
Deduciéndose que para el modelo de regresión:
0 1E Y X .
3. La respuesta de Yi en la i-esima observación cuando cae fuera de la ecuación de
regresión es medida por la cantidad i .
4. Se asume que el error tiene varianza constante 2 . Por lo tanto se deduce que la
variable independiente iY
tiene la misma varianza 2 2iY , ya que
2 2 20 1 i iX , de manera que el modelo (1) asume que la
distribución probabilística de Y tiene la misma varianza, independientemente del
nivel de la variable dependiente X.
5. Los errores se asumen que no están correlacionados, lo que supone que cualquier
respuesta en Yi no tiene efecto en otra respuesta Yj.
6. En resumen, el modelo de regresión (1), implica que la respuesta Yi tiene una
función de probabilidad con media 0 1i iE Y X
y varianza 2 , igual para
cualquier nivel de X. Adicionalmente dos respuestas y i jY Y son
incorrelacionadas.
2.12.1.1 Propiedades de los Estimadores Mínimos Cuadrados
El teorema de Gauss-Markov establece que:
“bajo las condiciones del modelo de regresión (1), los estimadores
mínimos cuadrados 0 1 y b b
son insesgados y tiene la varianza
mínima entre todos los estimadores lineales insesgados”.
Este teorema establece que 0 1 y b b son insesgados, por lo tanto:
0 0 1 1 y E b E b ,
29
Lo que quiere decir, primero que ninguno de estos estimadores tiende a
subestimar o sobrestimar sistemáticamente 0 1 y . En segundo lugar estos estimadores
son los más precisos, porque que tienen la mínima varianza.
2.12.1.2 Estimación de la varianza para el término error en la regresión
La varianza del error en el modelo (1) necesita ser estimada para así tener una
medida de la variabilidad de la distribución probabilística de Y. También es necesario
conocer la varianza del error para poder hacer inferencias con respecto a la ecuación de
regresión y para predecir los valores de Y.
Varianza para una población con una sola variable. En este caso la varianza
poblacional 2 es estimada por la varianza muestral 2s y esta viene dada por la
ecuación:
Esta varianza es una estimación insesgada de 2 . La varianza muestral es
llamada cuadrado medio, porque la suma de cuadrados ha sido dividida por el número
apropiado de grados de libertad.
2.12.1.3 Varianza del modelo de regresión
La lógica para desarrollar un estimador de 2 para el modelo de regresión es la
misma utilizada para una población con una variable. Ahora la desviación de cada
observación de Yi debe ser calculada alrededor de su propia media estimada iY . Se
desprende que las desviaciones son los residuales:
ˆi i iY Y e
y la suma de cuadrados apropiada es:
2
2 1
( )
1
n
i ii
Y Ys
n
30
2 2
1 1
ˆ( )n n
i i ii i
SCE Y Y e
La suma de cuadrados del error tiene n-2 grados de libertad, que se han perdido
debido a que ha habido que calcular 0 1 y b b , para poder obtener el estimado iY . De
forma que el Cuadrado Medio de Error (CME) es:
2 2ˆ( )
2 2 2i i iY Y eSCE
CMEn n n
El cuadrado medio del error esun estimador insesgado de 2
Un estimador de la desviación estándar , es simplemente CME
2.12.2 Regresión Lineal Múltiple
ipipii XXY 1,1110 ...
En muchos problemas de regresión intervienen más de una variable de regresión.
Por ejemplo el rendimiento de una reacción química puede depender de la temperatura,
presión, y concentración del catalizador. En este caso se requieren al menos tres
variables de regresión.
El problema general consiste en ajustar el modelo
kk xxxy ...22110 (1)
Se conoce como problema de regresión lineal múltiple. Usualmente, los
parámetros desconocidos i
se denominan coeficientes de regresión. El modelo de la
ecuación (1) describe un hiperplano en el espacio de k dimensiones de las variables de
regresión ix .
El método de mínimos cuadrados de usa para estimar los coeficientes de
regresión en la ecuación (1). Supongamos que kn
observaciones están disponibles.
Sea ijx la j-ésimos observación o nivel de la variable jx . Los datos se acomodan como
en la tabla que se muestra a continuación. El procedimiento para hacer la estimación
2E CME
31
requiere que el componente aleatorio del error tenga 0E y 0V y que las 2 no
estén correlacionadas.
En términos de los datos, este modelo es
j
k
iiji
jkjkjji
x
xxxy
10
22110 ...
(2)
j = 1,2,…, n
Tabla 5. Datos para la regresión lineal múltiple.
y x1 x2 …
xk
y1
y2
.
.
.
yn
x11
x12
.
.
. x1n
x21
x22
.
.
. x2n
…
...
…
xk1
xk2
.
.
. xkn
Al igual que en el caso de la regresión lineal simple, la ordenada en el origen se
define como
kk xxx ...221100
En donde n
j ijj xn
x1
1es el nivel promedio para la i-ésima variable de
regresión. El modelo se transforma en
k
jjiijij xxy
10 j = 1,2,…, n
Y la función de mínimos cuadrados es
n
j
k
iiijii xxyL
1
2
10
Será conveniente definir
32
n
j
n
j
n
jij
ijjijii n
x
xxxS1 1
2
122 j = 1,2,…, k
n
j
n
jsj
n
jrj
sjrj
n
jssjrrjsrrs n
xS
xxxxxxSS1
11
1
sr
n
j
n
jij
n
ji
ijj
n
jjijjiy n
xy
xyxxyS1
11
1
j = 1,2,…,k
Obsérvese que Sii es la suma de cuadrados corregida de la i-ésima variable de
regresión, Srs es la suma corregida de los productos cruzados entre xr y xs y Siy es la
suma corregida de los productos cruzados entre xj e y.
Los estimadores de mínimos cuadrados para k,...,, 10 deben satisfacer
0ˆˆ211ˆ,...,ˆˆ0
1,0
k
uuujuo
n
ji xxy
L
k
0ˆˆ211ˆ,...,ˆˆ
1,0
jij
k
uuujuo
n
ji
j
xxxxyL
k
j = 1,2,…, k
Al simplificar las ecuaciones anteriores y usando la ecuación de suma corregida
entre productos cruzados se obtiene las ecuaciones normales de mínimos cuadrados
iyikkii
n
jj
SSSS
yn
12211
10
ˆ...ˆˆ
ˆ j = 1, 2,…, k
Se puede notar que hay 1kp ecuaciones normales, para cada coeficiente de
regresión desconocido. La solución para las ecuaciones normales serán los estimadores
de mínimos cuadrados kˆ,...,ˆ,ˆ
10 .
33
Es más sencillo resolver ecuaciones matriciales si primero se expresan en
notación matricial de las ecuaciones normales en forma paralela a la deducción de la
ecuación de mínimos cuadrados. El modelo en términos de las observaciones, ecuación
(2), expresado en notación matricial es
XY
donde
ny
y
y
y
.
.
.2
1
knnn
k
k
xxx
xxx
xxx
X
...1
....
....
....
...1
...1
21
22212
12111
k
.
.
.2
1
y
n
.
.
.2
1
En general, “y” es un vector de respuestas (nx1), X es una matriz (nxp) de los
niveles de las variables de regresión,
es un vector de coeficientes de regresión (px1)
y es un vector de errores aleatorios (nx1).
Si se desea determinar un vector de estimadores de mínimos cuadrados ˆ
que
minimice
XXyXyyXXXyyXxL 2
Entonces L se puede expresarse como
XyXyLn
jj
1
2
34
porque yX
es una matriz 11x , o un escalar, y su transpuesta XyyX
es el
mismo escalar. Los estimadores de mínimos cuadrados deben satisfacer la expresión
0ˆ22 XXyXL
lo que implica que
yXXX ˆ (3)
Estas son las ecuaciones normales de mínimos cuadrados. Para resolver las
ecuaciones normales se deben multiplicar ambos miembros de la ecuación (3) por la
inversa XX . Por lo tanto el estimador de mínimos cuadrados es
yXXX 1ˆ
Fácilmente se verifica que la forma matricial de las ecuaciones normales es
idéntica a la forma escalar. Expresando la ecuación (3) en detalle se obtiene que en
general
ky
y
y
n
jj
kkkkk
k
k
S
S
S
y
SSS
SSS
SSS
n
.
.
.
ˆ
.
.
.
ˆ
ˆ
ˆ
...0
.......
....
....
...0
...0
0...00
2
1
1
2
1
0
21
22212
11211
Si se lleva a cabo la multiplicación matricial indicada, se produce la forma
escalar de la ecuaciones normales. En esta forma, fácilmente se verifica que XX es una
matriz simétrica (pxp) y que X’y es un vector columna (px1). Los elementos de la
35
diagonal de XX corresponden a la suma de cuadrados de las columnas de X y los
elementos fuera de la diagonal corresponden a los productos cruzados de las columnas
de X .
Las propiedades estadísticas del estimador de mínimos cuadrados ˆ pueden
investigarse fácilmente. Considerando primero el sesgo
ˆ
ˆ
ˆ
ˆ
11
1
1
E
XXXXXXXEE
XXXXEE
yXXXEE
ya que 0E y 11 XXXX . Por lo tanto, ˆ es un estimados insesgado de .
Las propiedades de variancia de ˆ
se expresan mediante la matriz de
covariancia:
ˆˆˆˆˆ EEECov
que consiste en una matriz simétrica cuyo i-ésimo elemento de la diagonal principal de
la variancia de iˆ , y cuyo ij-ésimo elemento, es la covariancia entre i
ˆ
y jˆ . La matriz
de covariancia de ˆ es:
12ˆ XXCov
2.12.2.1 Pruebas de Hipótesis en la Regresión Lineal Múltiple
Si se desea probar hipótesis que se refieren a los parámetros del modelo de
regresión lineal múltiple; requiere de la suposición adicional de que los errores sean
2,0NID . Una consecuencia directa de esta suposición es que la observaciones yi son
k
i iji xNID1
2,0 .
36
Para probar si la regresión lineal múltiple es significativa se logra de la siguiente
manera
0
0...
1
210
i
k
H
H al menos una i
El rechazo de 0H en esta ecuación implica que al menos una variable en el
modelo contribuye significativamente al ajuste. El procedimiento para probar esta
ecuación es una generalización del procedimiento usado para probar la regresión lineal
simple. La suma total de cuadrados yyS se descompone en la suma de cuadrados de
regresión y el la suma de cuadrados del error.
ERyy SSSSS
y si 0:0 iH es verdadera, 22/ kRSS , donde el número de grados de libertad para
2 es igual al número de variables en el modelo. También se puede mostrar que
21
2/ knESS y que ESS y RSS son independientes. Por lo tanto el procedimiento para
probar 0:0 iH consiste en calcular
E
R
E
Ro MS
MS
knSS
kSSF
1//
y rechazar 0H si 1,0 knFF . Este procedimiento se resume en una tabla de análisis de
variancia como la que se muestra a continuación. Antes se mostrará la formula para
calcular la suma de cuadrados de regresión RSS .
37
k
iiyiyy
k
iiyi
n
j
n
jj
jE
n
j
ky
y
n
jj
kjE
E
n
jjjE
SSSn
y
ySS
S
S
y
ySS
yXyyXyXySS
yySS
111
2
12
1
1
1
102
1
2
ˆˆ
.
.
.ˆ,...,ˆ,ˆ
ˆˆˆ
ˆ
Tabla 6.Tabla ANOVA en el análisis de regresión.
Fuente de
variación
Suma de cuadrados
Grados de
libertad
Media de
cuadrados
0F
Regresión RSS k
RMS ER MSMS /
Error o residuo
ESS 1kn EMS
Total yyS 1n
Así, puesto que REyy SSSSS , se observa que la suma de cuadrados de
regresión es
k
iiyiR SSS
1
ˆ
2.12.2.2 Verificación de supuestos: Análisis de Residuales
Los análisis de los residuales, esto es, las diferencias yy ˆ
entre los valores de
y
y los correspondientes valores predichos, a menudo proporciona información que nos
permite modificar y mejorar un modelo de regresión. Estas modificaciones pueden
38
hacerse por cualquiera de tres razones: (1) el componente determinístico del modelo no
se especificó correctamente. (2) se violan uno o más de los supuestos de
y (3) los
datos empleados para ajustar el modelo contienen uno o más valores fuera de lo común.
Un residual de regresión se define como la diferencia entre un valor observado
de y y el valor predicho correspondiente:
yysidual ˆRe
39
Capítulo 3. Resultados y Análisis
3.1 Desarrollo del Manual R-Commander; acceso, uso y aplicación del mismo.
En esta sección se exponen los resultados obtenidos del análisis efectuado al R-
Commander. Se explica el proceso de instalación y acceso del programa, se describe de
manera detallada los menús que lo integran y el manejo de los datos; para facilitar la
interacción del mismo con futuros usuarios.
3.1.1 El entorno R-Commander
El paquete R es una colección de programas libres diseñada para el análisis
estadístico de datos, que permite desde los análisis descriptivos más sencillos (como
tablas de frecuencias simples) a procedimientos inferenciales más complejos (como el
análisis de varianza o el análisis de componentes principales). R realiza tres funciones
esenciales: (1) leer datos, (2) especificar el tipo de análisis que se quiere realizar con
esos datos y (3) mostrar los resultados obtenidos tras los análisis. La interpretación de
los resultados es tarea del usuario.
R-Commander es una Interfaz Gráfica de Usuario (GUI) creada por John Fox,
éste es un método para facilitar la interacción del usuario con el computador a través de
la utilización de un conjunto de imágenes y objetos pictóricos (iconos, ventanas, entre
otras); permite acceder a muchas capacidades del entorno estadístico R sin que el
usuario tenga que conocer el lenguaje de comandos propio de este entorno. Es
importante resaltar que en R el usuario especifica de manera escrita el comando que se
quiera ejecutar; a diferencia de Rcmdr los comandos internos se ejecutan de manera
visible; haciendo que el usuario disminuya los errores de sintaxis al escribir los mismos.
Esta es una de las características que hacen del GUI particularmente atractivo para el
uso introductorio, ocasional e incluso de manera cotidiana. Al iniciar R-Commander, se
presentan dos ventanas, mostradas en la Figura 5. y la Figura 6. a continuación:
40
Figura 5. Ventana de Consola de R
Figura 6. Ventana del entorno de R-Commander.
41
La figura 5., corresponde a la ventana consola de R. Aquí se ejecutan comandos
de R, para lo cual es necesario conocer el lenguaje R y su sintaxis. La figura 6.,
corresponde a la ventana del entorno de R-Commander, que evita precisamente tener
que usar dicho lenguaje de comandos, al menos para las tareas que se encuentran
implementadas dentro de dicho entorno.
No obstante, R-Commander no pretende ocultar el lenguaje R. Observando la
ventana de R-Commander, la misma se encuentra dividida en tres subventanas:
Instrucciones, Resultados y Mensajes. Cada vez que, a través de los menús de R-
Commander se acceda a las capacidades de R (gráficos, procedimientos estadísticos,
modelos, etc.), en la ventana instrucciones se muestra el comando R que ejecuta la tarea
que se haya solicitado, y la ventana resultados muestra la salida de dicho comando. De
este modo, aunque el usuario no conozca el lenguaje de comandos de R, simplemente
observando lo que va apareciendo en la ventana instrucciones se irá familiarizando (y
con un poco de interés, también aprendiendo) con dicho lenguaje. El usuario puede
introducir comandos directamente en dicha ventana, y pulsar el botón “Ejecutar” los
comandos serán ejecutados y el resultado se mostrará en la ventana resultados. Las
instrucciones pueden guardarse y volver a ser ejecutado directamente otras veces con
otros conjuntos de datos diferentes, sin que el usuario tenga que desplazarse por todo el
sistema de menús para volver a realizar las mismas tareas.
3.1.2 Instalación de R y del paquete Rcmdr
Microsoft Windows
Requiere tener acceso a Internet:
1. Descargar el fichero ejecutable
http://cran.r-project.org/bin/windows/base/R-2.4.0-win32.exe
2. Ejecutar el programa R, ya instalado.
3. En el menú Packages, seleccionar Set CRAN mirror.
4. En el cuadro de dialogo, escoger el país de su preferencia y pulsar OK.
5. En el menú Packages, seleccionar Install package(s)
42
6. Escoger Rcmdr y aceptar.
También en Internet puede ser copiado el paquete Rcmdr y guardado en
cualquier medio de almacenamiento (CD, Pen-Drive, diskets, otros) de su preferencia;
luego al abrir la consola de R se deben ejecutar los siguientes comandos:
Packages -> Install package(s) -> from local zip file
En la ventana mostrada se debe ubicar el archivo (Rcmdr) guardado; y de esta
manera ya estará cargado dicho paquete en R.
El acceso a las funciones implementadas en R-Commander es muy simple y se
realiza utilizando el ratón para seleccionar, dentro del menú situado en la primera línea
de la ventana, la opción a la que se quiera acceder.
3.1.3 Acceso del Rcmdr
Existen dos maneras de cargar R-Commander en la ventana consola de R:
a. Acceder mediante la escritura del siguiente comando en la ventana consola de R.
> library("Rcmdr") ; seguidamente de un enter se tendrá acceso a R-commander.
b. Buscar en los paquetes de R el Rcmdr; que previamente debe ser cargado (ver
instalación de R y del paquete Rcmdr) y pulsar OK.
43
44
Barra de menús
Fichero: para abrir los archivos con instrucciones a ejecutar, o para guardar datos,
resultados, sintaxis, etc.
Editar: las típicas opciones para cortar, pegar, borrar, etc.
45
Datos: menú para manipular de datos (creación de datos, importación desde otros
programas, etc.).
Estadísticos: ejecutar métodos estadísticos.
Gráficos: menú para crear gráficos estadísticos; este se activa una vez cargados los
datos.
46
Modelos: definición y uso de modelos específicos para el análisis de datos. Este menú
de modelos contiene las siguientes opciones: seleccionar el modelo activo, resumir el
modelo, añadir las estadísticas de las observaciones a los datos, intervalos de
confianza, prueba de la hipótesis, diagnósticos numéricos y gráficas. Estas ultimas tres
opciones tienen una serie de opciones mostradas al ser activadas. Es importante tener en
cuenta que para esta opción presentada se debe tener activo un modelo.
Distribuciones: probabilidades, cuantiles y gráficos de las distribuciones de
probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.).
47
Herramientas: permite cargar librerías y definición del entorno.
Ayuda: información sobre R-Commander (en inglés).
Barra de elementos activos
Consta de:
Datos: nombre del conjunto de datos activo, es decir, el que se toma por omisión en el
momento de ejecutar una orden. El botón extremo izquierdo muestra el nombre del dato
activo. Inicialmente <No hay datos activos>. Si el usuario presiona este botón, podrá
elegir entre los datos actualmente en memoria (si existe más de una base de datos). La
mayoría de los menús y de los diálogos en Rcmdr se refieren a los datos activos.
48
Editar datos: hace aparecer una cuadricula donde es posible modificar el contenido del
conjunto actual de datos.
Visualizar datos: muestra el contenido del conjunto actual de datos.
Modelo: para un mismo conjunto de datos se pueden crear diferentes modelos de
análisis (de regresión lineal, de componentes principales...). El botón extremo derecho
indica el nombre del modelo lineal estadístico activo, inicialmente <No hay modelo
activo>; también pueden estar activos cada uno de los modelos aplicados a la base de
datos.
Inmediatamente debajo del menú está la ventana de instrucciones; los comandos
generados por el GUI se copian automáticamente en esta ventana, el usuario puede
corregir el texto en la ventana de instrucciones o escribir sus propios comandos en la
misma ventana; seguidamente seleccionar lo escrito y presionar el botón que está a la
derecha debajo de dicha ventana; llamado “Ejecutar”; o si lo prefiere oprimir
simultáneamente las teclas Ctrl.-r.
Debajo de la ventana de instrucciones existe una ventana de resultados para la
salida. Los comandos ejecutados aparecen repetidos resaltados con el color rojo y la
salida en azul marino (como en la consola de R).
Al final de la ventana de Rcmdr se encuentra una pequeña ventana gris de texto
para los mensajes. Los mensajes de errores aparecerán en la misma en texto de color
rojo, las advertencias en texto de color verde y los demás mensajes en azul marino.
4.1.4 Manejo de datos
Rcmdr asume que hay datos activos, estos se encuentran en la memoria de R, el
usuario puede elegir entre ellos, pero solamente uno de ellos estará activo. Cuando se
49
inicia una sesión en Rcmdr, no hay datos activos. Rcmdr proporciona varias maneras de
conseguir los datos:
El usuario puede introducir los datos directamente con los comandos Datos >
Nuevos datos… esta es una opción razonable para un número pequeño de datos.
El usuario podrá importar datos desde un archivo de texto existente o desde
paquetes estadísticos tales como: SPSS, Stata, Minitab, así como importarlos
desde Excel u otra hoja de cálculos; también existe la opción de leer datos desde
paquetes adjuntos.
El usuario puede leer datos que se encuentren dentro de R, escribiendo el nombre
de los datos o seleccionando los datos en una ventana de diálogo.
Los siguientes comandos se realizan a través del menú Datos, cuyas opciones se
mostrarán a continuación:
Nuevos datos: para introducir nuevos datos por el teclado. Requiere dar un nombre a los
datos nuevos, que no puede contener espacios ni caracteres especiales.
Importar datos: permite leer datos contenidos en un archivo. Soporta varios formatos:
texto, SPSS, Minitab, Excel, entre otros.
Datos en paquetes R: contiene una colección de datos de ejemplo, previniendo si el
usuario quiere hacer uso del programa pero no dispone de datos.
Datos activos: aquí se manipula el conjunto de datos activo.
Seleccionar los datos activos: elegir el conjunto de datos activo entre los
que hay disponibles en ese momento en la sesión.
Ayuda sobre los datos activos (si es posible): algunos conjuntos de
datos (como los de ejemplo) contienen una descripción.
50
Variable de los datos activos: lista los nombres de las variables del
conjunto de datos.
Establecer nombre de casos: a veces una variable no es tal, sino que
contiene los nombres de los casos. Esta opción permite indicárselo a R.
Filtrar los datos activos: si se quiere que los análisis subsiguientes se
realicen sobre un subconjunto de los casos, aquí podemos indicar una
expresión de filtro. El filtro construye un nuevo conjunto de datos, cuyo
nombre conviene indicar; en caso contrario, la selección se hace
permanente (se eliminan los casos que no pasan el filtro).
Eliminar los casos sin datos: en algunas variables, puede que se
desconozca el valor para cierto caso: se trata de un dato ausente
(missing). Esta opción elimina los casos con algún dato ausente.
Exportar los datos activos: para guardar una tabla con el conjunto de
datos activo en un archivo de texto.
Modificar variables de los datos activos: para realizar trasformaciones en los datos.
Recode variables: crea una nueva variable a partir de una ya existente.
Sirve para agrupar datos cuantitativos en intervalos.
Calcular una nueva variable: crea una nueva variable a partir de una
formula, la cual puede involucrar al resto de las variables.
Add observations numbers to data set: agrega columnas de datos
observacionales a los datos existentes.
Tipificar variables: para tipificar variables cuantitativas.
Convert numeric variable to factor: indica al programa que los
números no representan cantidades, sino caracteres.
Segmentar variable numérica: simplifica la agrupación de datos
cuantitativos en intervalos, aunque por ello es menos flexible que Recode
variables.
Renombrar variables: cambia el nombre de la variable.
Eliminar variables de los datos: elimina la variable.
51
Obtención de datos: podemos introducir datos directamente, leerlos de un archivo ya
existente, o bien utilizar datos que R trae de ejemplo.
Creación de un conjunto de datos nuevo: esta opción es conveniente cuando el
conjunto de datos es pequeño. Para conjuntos de datos mayores, es mas cómodo crear un
archivo de datos por otros medios (por ejemplo, desde una hoja de cálculo o una base de
datos) y luego importarlos.
Lo primero que hay que tener en cuenta y no olvidar es que los conjuntos de
datos (data set, data frame) están organizados de forma matricial, donde las filas se
refieren a los casos (individuos, unidades u observaciones) de la muestra y las columnas
a las variables.
Para introducir nuevos datos se debe escoger a la opción Nuevos datos del menú
Datos. Se debe introducir entonces el nombre para el conjunto de datos.
52
Para introducir los datos simplemente se coloca el cursor en la celda
correspondiente a cada individuo y variable. Para moverse de una celda a otra se puede
utilizar el ratón, o las teclas del cursor y retorno para el desplazamiento vertical, o las
teclas del cursor y tabulador para el desplazamiento horizontal.
Al introducir los datos, se observa que R da por omisión nombre a las variables
(var1, var2,...) y define sus características. En principio, una variable puede ser
numérica (numeric) o de caracteres (character). Si se desea cambiar el nombre o definir
el tipo de variable hay que pulsar en la cabecera de la columna correspondiente.
Son factores las variables caracteres, sirven para representar variables
cualitativas, es decir, aquellas cuyos valores toman un número finito de modalidades.
53
Luego de renombrar las variables la ventana del editor se mostrará de la siguiente
manera:
En la ventana de Rcmdr deberán aparecer los datos escritos de manera activa,
mostrándose así:
Importar datos de un archivo externo
El archivo externo puede contener datos en formato de texto puro (ASCII) o en
alguno de los formatos binarios soportados. En ambos casos ha de recurrirse al menú
Datos / Importar datos.
Los archivos de texto (columnas de números) representan la forma más universal
para intercambio de datos. Para importar datos de texto se elegirá la opción desde un
archivo de texto, que abriría el cuadro de dialogo Leer datos de archivo de texto.
54
Es necesario indicar:
Introducir nombre de los datos: para el conjunto construido a partir de los datos del
archivo.
Nombres de las variables en el fichero: si el archivo contiene los nombres de las
variables en la primera fila.
Indicador de datos ausentes: como se indica si un campo no contiene valores, esto es,
que se considera un valor ausente. Por omisión, el indicador es NA (not available, no
disponible). Puede dejarse así a menudo, pues si un campo de una variable numérica
está vacío, también se considera ausente.
Separador de campos: indique el carácter que separa los campos, bien espacio en
blanco, comas, tabuladores, o cualquier otro carácter que se puede especificar.
Carácter decimal: si se utiliza punto o coma para separar los decimales de la parte
entera.
55
En el caso de archivos binarios, se pueden abrir archivos guardados desde otros
programas estadísticos, como SPSS y Minitab. Así, para abrir un archivo SPSS elegimos
desde datos SPSS en el menú Datos / Importar datos.
R incluye en su distribución una colección importante de datos de todo tipo. Para
ver una descripción breve de los datos disponibles, elija la opción Listar datos en
paquetes del menú Datos en paquetes.
Si alguno resulta de interés, escoja, en el mismo menú, la opción Leer datos de
paquete adjunto. Indique el paquete y el conjunto de datos buscado, que se convertirá en
el conjunto de datos activo. Dentro de esta opción datos en paquetes podemos leer datos
desde paquete adjunto.
56
Se mostrará una ventana de leer datos desde paquetes; donde se ha seleccionado
los datos prestige, del paquete activo de car; si el usuario sabe el nombre de los datos a
seleccionar entonces solo debe escribirlo en el campo mostrado; sino solo debe
presionar doble clic sobre los datos y este automáticamente aparecerá escrito en el
campo correspondiente.
Luego, de presionar correcto, los datos estarán cargados en Rcmdr.
57
Estos datos pueden ser visualizados y se mostrarán de la siguiente manera:
58
3.2 Identificación de las variables del sector forestal publicadas en los Anuarios
Estadísticos Forestales del país.
En esta sección se identifican las variables que integran cada uno de los
Módulos existentes en el Sistema Nacional de Información Estadística Forestal
(SNIEF).
Figura 7. Sistema Nacional de Información Estadística Forestales (SNIEF). Módulos
existentes para las Industrias Forestales en Venezuela.
3.2.1 Variables identificadas en los módulos existentes
La revisión de este módulo permitió identificar el conjunto de variables que se
capturan en estas planillas (ver Apéndice 1).
En la Tabla 7. se identifican en primera instancia las variables comunes para los
módulos existentes; descritas por los bloques: 1. Identificación y Fechas, 2. Datos de
carácter Administrativo.
SNIEF
MODULOS EXISTENTES INDUSTRIAS FORESTALES
- Industria de Aserrío - Industria de Carpintería - Industria de Contrachapado - Industria de Aglomerado -
Industria de Carbón Vegetal
59
Tabla 7. Resumen de las Variables identificadas de los bloques 1 y 2 de todas las planillas.
Bloque Título del Bloque Variables Fundamentales 01 Identificación y fechas Año
Mes
DEA: Dirección Estadal Ambiental.
Estado
02 Datos de carácter Administrativo Nro. Empleados
Total Sueldos
Nro. Obreros
Total salario ultima semana
Capacidad instalado (M3/Año, M2/Año,
Kg/Año).
Capacidad utilizada (M3/Año, M2/Año,
Kg/Año)
Industria de Aserrio
En la Tabla 8. se muestran el conjunto de variables identificadas de la
Industria de Aserrio, de estas se identifican 9 variables asociadas al área forestal,
que son:
1. Estado (Procedencia Madera en Rola)
2. Número de Rolas
3. Volumen Madera en Rola
4. Especies
5. Precio Madera en Rola
6. Estado (Destino Madera Aserrada)
7. Volumen Madera Aserrada
8. Especie de Madera Aserrada
9. Precio Madera Aserrada
(Tabla, Tablones, Listones, Cuartones y Forros).
60
Tabla 8. Resumen de las variables. Planilla Industria Aserrio.
Bloque Título del Bloque Variables 03 Procedencia Madera en Rola Estado
Número de Rolas Volumen Madera en Rola
04 Destino de la Madera Aserrada Vendida País Estado Ciudad Volumen Madera Aserrada
05 Movimiento mensual de la Madera en Rola
Existencia mes anterior
Entradas Mes
Salidas del mes a) Procesada b) Vendida
Saldo
Especies Número de Rolas Volumen mensual Madera en Rola
06 Movimiento mensual de Madera Aserrada
Mes Anterior
Producción del mes
Salida del mes
Saldo
Especies Volumen Mensual madera Aserrada
07 Precio de venta de la Madera Aserrada Especies Precio de madera Aserrada:
Tablas
Tablones
Listones
Cuartones
Forros Precio de Madera en Rola
Industria de Machihembradora, Carpintería, Mueblería, Depósitos y
Afines.
En la Tabla 9. se muestran el conjunto de variables identificadas de la
Industria de Machihembradora, Carpintería, Mueblería, Depósitos y Afines, de estas
se identifican 12 variables asociadas al área forestal, que son:
61
1. Estado (Procedencia de Madera Aserrada)
2. Empresa de la Procedencia de la Madera en Aserrada
3. Ciudad (Procedencia de la Madera).
4. Tipo de Producto ( descripción del producto)
5. Cantidades del Producto (m2, m3, Kg., unidades)
6. Estado ( destino del producto )
7. Ciudad (destino del producto)
8. Empresa ( destino del producto)
9. Especies usada en la producción
10. Tipo de producto ( descripción del producto)
11. Cantidad de producto
12. Precio promedio venta del producto
Tabla 9. Resumen de las variables. Planilla machihembradora, carpintería, mueblería, Depósitos y Afines.
Bloque Título del Bloque Variables 03 Procedencia de la Madera Aserrada Empresa
Estado 04 Destino / Comercialización Estado
Ciudad Empresa Cantidad (m2, m3, Kg., unidades)
05 Movimiento mensual de la madera y producto
Existencia mes anterior
Entrada mes actual
Salida mes actual
Saldo
Especies Cantidad (m2, m3, Kg., unidades) Precio promedio venta
62
Industria Tableros Contrachapados
En la Tabla 10. se muestran el conjunto de variables identificadas de la
Industria de Tableros Contrachapados, de estas se identifican 18 variables asociadas
al área forestal, que son:
1. País
2. Estado
3. Ciudad
4. Volumen Madera en Rola
5. Volumen Tableros movilizados
6. Especies
7. Número de rolas
8. Volumen Madera en Rola
9. Precio de compra Rolas
10. Volumen Contrachapados (producidos)
11. Volumen panelforte (producidos)
12. Especie usadas en la producción
13. Cantidades vendidas Contrachapado
14. Precio de venta Contrachapado
15. Espesores de Contrachapados Vendidos
16. Cantidades vendidas Panelforte
17. Precio de Venta Panelforte
18. Espesores de Panelforte vendidas
63
Tabla 10. Resumen de las variables. Planilla Industria Tableros Contrachapados.
Bloque Título del Bloque Variables 03 Procedencia de la Madera en Rola País
Estado Ciudad Volumen
04 Destino del producto manufacturado País Estado Ciudad Volumen
05 Movimiento mensual de la madera en Rola
Existencia
Entradas mes
Procesadas
Vendidas
Saldo
Especie Número de Rolas Volumen Precio de Compra Rolas
06 Producción a Nivel de Prensa Especie Volumen Contrachapados (4mm/8mm) Volumen Panelforte
07 Venta del producto Especie Contrachapados
Espesor
Precio unitario
Cantidad (m2) Panelforte
Espesor
Precio unitario
Cantidad (m2) 08 Cantidad del producto acabado
(Producción del mes) Contrachapado Panelforte Tripa Compuesto
64
Industria Tableros y Aglomerados
En la Tabla 11. se muestran el conjunto de variables identificadas de la
Industria de Tableros y Aglomerados, de estas se identifican 16 variables asociadas
al área forestal, que son:
1. Especie
2. Número de Rolas
3. Volumen
4. Cantidad de Tableros Particulares
5. Cantidad de Tableros Mixtos
6. Cantidad Aglomerados
7. Producción mensual en Prensa de Aglomerados.
8. Producción mensual de Prensa en Mixtos
9. Destino Mercado Nacional en Aglomerados
10. Destino Exportación Aglomerados
11. Destino Mercado Nacional Mixtos
12. Destino Exportación Mixtos
13. Cantidades vendidas Aglomerados
14. Precio unitario del Aglomerado
15. Cantidades vendidas Mixtos
16. Precio unitario de los Mixtos
65
Tabla 11. Resumen de las variables. Planilla Industria Tableros y Aglomerados.
Bloque Título del Bloque Variables 03 Movimiento de
Madera en Rola
Mes anterior
Mes actual
Procesadas
Vendidas
Sueldo
Especie Procedencia Número de Rolas Volumen
04 Dimensiones de las Partículas Cara Alma
05 Cantidad de Producto acabado (m3/mes)
Tablero de partículas Tablero mixtos Aglomerados
06 Producción mensual en Prensa (m2) Especie Aglomerados Mixto
07 Medidas del Producto acabado Aglomerados
Ancho (m)
Largo (m)
Espesor (mm) 08 Destino de la Producción Especie
Aglomerados
Mercado Nacional
Export Mixtas
Mercado Nacional
Export 09 Ventas del producto Especie
Aglomerados
Espesor (mm)
Valor unitario (Bs./m2)
Cantidad (m2, Bs.) Mixtos
Espesor (mm)
Valor unitario (Bs./m2)
Cantidad (m2, Bs.)
66
Industria del Carbón Vegetal
En la Tabla 12. se muestran el conjunto de variables identificadas de la
Industria de Tableros y Aglomerados, de estas se identifican 9 variables asociadas al
área forestal, que son:
1. País
2. Estado
3. Procedencia
4. Especie
5. Volumen – Cantidad (Kg. / TM)
6. Rendimiento
7. Especie usada en la Producción
8. Cantidad del Producto
9. Cantidad de materia prima en la Empresa
Tabla 12. Resumen de las variables. Planilla Industria Carbón Vegetal.
Bloque Título del Bloque Variables 04 Procedencia de la materia prima País
Estado Reserva Forestal Terreno Baldío Fundo particular Terreno INTI Terreno CVG Espécie Volumen Rendimiento
05 Movimiento mensual de la materia prima
Existencia mes anterior
Entrada mes actual
Salidas del mes Procesada Vendida
Saldo
Especie Cantidad de la materia prima(Kg./ TM) Cantidad del producto:
Existencia
Producción
Salida
Destino
Saldo
67
Del total de planillas analizadas de los módulos existentes para la recolección de
la información forestal son mostradas en la Tabla 13. resumiendo el total de variables
asociadas al sector forestal en un conjunto de 65 variables en su totalidad y se muestra el
número de variables existentes por cada una de las Industrias Forestales.
Tabla 13. Resumen de las variables en los Módulos existentes.
Módulos Existentes Variables Totales
Variables Asociadas al Sector Forestal
1. Industria de Aserrío 35 9 2. Industria Machimbradora,
Carpintería, Mueblería, Depósitos y Afines.
20 12
3. Industria Contrachapado 22 17 4. Industria Tableros y Aglomerados 41 18 5. Industria Carbón Vegetal 17 9
Total actual 135 65
3.3 Aplicación Estadística usando R project (R-Commander); a las variables del
sector forestal.
En esta sección, se utiliza la información de las variables asociadas al sector
forestal existentes en la base de datos original del SNIEF del Ministerio del Poder
Popular para el Ambiente. Las variables analizadas y utilizadas para aplicar los métodos
estadísticos se pueden clasificar en dos categorías: cuantitativas (salario, días efectivos
al mes, volumen de madera procesada en m3, etc.) y cualitativas (meses, especie, estado,
etc.). Los métodos aplicados a las variables cuantitativas comprenden: cálculo de las
estadísticas descriptivas, estimación de parámetros por intervalos, prueba de hipótesis
para una media y diferencia de medias, análisis de regresión lineal simple y múltiple.
Por lo tanto, se seleccionaron variables representativas para realizar los análisis
mencionados, los cuales pueden ser aplicados para el resto de las variables asociadas al
sector forestal.
Los comandos de R para los diferentes métodos estadísticos aplicados a las
diferentes variables asociadas al sector forestal pueden ser vistos en el Apéndice 2.
68
3.3.1. Estadísticas descriptivas
En esta sección se aplican los pasos necesarios para realizar estadísticas
descriptivas utilizando R-Commander.
Para esta aplicación se tienen los datos de Industria de Aserrio para el año 2.003;
los mismos provienen de las bases de datos del Sistema Nacional de Información de
Estadísticas Forestales (SNIEF). Las variables a ser analizadas: mes de suministro de la
información (1,2,…,12), número de obreros promedio por Industria, Salario devengado
la ultima semana del mes.
Nota: En esta versión se encontrarán comandos tanto en español como en inglés.
Pasos:
1) Cargar los datos
Comandos:
Datos -> Importar datos -> from text file or clipboard
69
2) Al aparecer la ventana Datos del archivo de Texto (Read Data From Text File or
Clipboard), se deben completar cada uno de los campos y opciones presentadas,
especificando el formato de cómo estén guardados los datos; para este caso el
nombre del archivo en Rcmdr es: ASE01
Después de presionar Correcto aparecerá la ventana donde se debe ubicar el
archivo a importar (ASE01.csv); previamente guardado en Excel con extensión .cvs.
Una vez cargados los datos en Rcmdr aparecerá en pantalla el comando interno
utilizado por el mismo y un mensaje en la parte inferior indicando el nombre de los
datos importados y el número de filas – columnas. Así mismo, en el menú principal al
Visualizar los datos aparecerá el archivo con los datos como se muestra a continuación
(los mismos, luego de ser visualizados se deben de cerrar para continuar trabajando con
Rcmdr).
70
3) Cálculo de las Estadísticas Descriptivas.
Para obtener los estadísticos Mínimo, primer cuartil, mediana, media, tercer
cuartil y valor máximo para cada una de las variables en la base de datos, se deben
activar los comandos:
Estadísticos -> Resúmenes -> Datos activos
71
La salida se mostrará en la ventana de resultados
Figura 8. Resúmenes estadísticos. Datos ASE01
Para complementar esta salida se ejecutan los siguientes comandos.
Estadísticos -> Resúmenes -> Resúmenes numéricos
72
Al ejecutar los comandos anteriores aparecerá la ventana de Resúmenes
numéricos en donde se debe seleccionar la(s) variable(s) objeto de estudio. En este
caso se seleccionan: número de obreros: NRO_OBRE, salario devengado la ultima
semana del mes: SAL_SEM, seguidamente presionar Correcto.
Figura 9.Resúmenes Numéricos Estadísticos. Datos ASE01
73
Interpretación de resultados
Interpretando las dos salidas y analizando la variable número de obreros
promedio por Industria de Aserrio (NRO_OBRE); se tiene que el número mínimo de
obreros por Industria es 1 y el máximo 41, con una mediana de 9. El número promedio
de obreros por industria es de 11.09 con una desviación estándar de 7.6368; para un
tamaño de muestra de 803 datos; ésta información corresponde al año 2.003. Un análisis
similar puede ser hecho para las demás variables.
Supóngase que se desea obtener estos mismos estadísticos para cada una de las
variables analizadas, pero discriminadas por el mes. Los pasos a seguir para lograr este
resultado implican:
1) Convertir la variable mes en un factor
Comandos:
Datos -> Modificar variables… -> Convert numeric variables…
74
En esta ventana se debe seleccionar la variable a convertir en factor (MESES); si
se desea modificar el nombre de la misma y crear una nueva variable esta deberá ser
escrita en Nuevo nombre de la variable o prefijo para variables múltiples (New
variable name or prefix for multiple variables) (MESESF); seguidamente presionando
Correcto. Una vez convertida la variable en factor se procederá a realizar la Estadística
descriptiva clasificada por grupos para los datos.
Comandos:
Estadísticos -> Resúmenes -> Resúmenes Numéricos
Al aparecer la ventana de Resúmenes numéricos se seleccionarán las variables
objeto de estudio (NRO_OBRE, SAL_SEM).
75
Se debe seleccionar el comando Resumir por grupos… y seleccionar MESESF
(variable convertida a factor); seguidamente presionando Correcto en ambas ventanas.
Los resultados se muestran en R Commander de la siguiente manera:
Un resumen de los resultados anteriores se muestra en la tabla siguiente:
76
Tabla 14.Resúmenes estadísticos por grupo de los datos ASE01
NRO_OBRE SAL_SEM
MESES mean sd mean sd
1 9.948.276 7.937.082 51993.41 18654.38
2 10.707.692 7.447.154 51934.77 18994.57
3 10.657.143 7.162.474 50612.84 12981.07
4 11.014.493 8.101.367 53690.38 15753.90
5 10.971.014 7.762.980 53994.61 15176.25
6 10.605.634 7.626.043 55046.99 18895.13
7 10.493.333 8.042.746 54971.16 16301.36
8 11.814.286 7.684.528 58676.23 19206.58
9 11.460.317 7.768.475 56357.29 15740.80
10 11.424.242 7.569.291 62909.52 20226.24
11 11.718.750 7.828.456 61844.80 20230.32
12 11.301.587 7.019.868 67300.00 22604.82
Donde: MESES: mes de suministro de la información
NRO_OBRE: número de obreros en la Industria Aserrío
SAL_SEM: salario devengado semanal
Algunas opciones gráficas de R Commander:
a. Histogramas
b. Gráficas de tallos y hojas (steam and leaf).
c. Diagrama de caja (box plot).
d. Gráficas de las medias.
a. Histogramas
La variable a la cual se le va a realizar el histograma es NRO_OBRE. Este
gráfico al igual que el de tallos y hojas proporciona información acerca de la
distribución de la(s) variable(s) estudiada(s); es decir, si los datos se distribuyen
normalmente si existe algún grado de asimetría positiva o negativa.
Comandos:
77
Gráficas -> Histogramas…
Se debe seleccionar la variable NRO_OBRE, seguidamente presionar Correcto.
78
b. Gráficas de tallos y hojas (steam and leaf).
Comandos:
Gráficas -> gráficas de tallos y hojas…
79
Seleccionar la variable NRO_OBRE, presionar Correcto.
80
c. Diagrama de caja (box plot).
Comandos:
Gráficas -> Diagrama de caja…
Seleccionar la variable NRO_OBRE, presionar Correcto.
81
d. Gráficas de las medias.
El siguiente gráfico se realiza con los datos desagregados, en este caso
discriminados por mes.
Comandos:
Gráficas -> Gráficas de las medias…
82
Seleccionar la variable respuesta NRO_OBRE, presionar Correcto.
83
3.3.2 Estimación de parámetros por intervalos
Para calcular los intervalos de confianza de los salario promedio semanal
(SAL_SEM) de la base de datos ASE01. se deben de seguir los siguientes pasos:
1. Cargar la base de datos ASE01 (ver introducción al R- Commander)
2. Como se quiere calcular el intervalo de confianza para la variable
SAL_SEM de la base de datos ASE01, se debe escribir en la ventana de
instrucciones el siguiente comando:
t.test(ASE01$SAL_SEM)
donde:
t.test: comando para calcular intervalos de confianza (95%).
ASE01: datos activos
SAL_SEM: variable escogida para calcular los intervalos de
confianza.
Una vez escrito el comando, se debe seleccionar “Ejecutar”, seguidamente en
la ventana de resultados se mostrará la salida deseada.
84
Figura 10. Resultados de intervalos de confianza. Datos: ASE01
Interpretación
Se espera que el verdadero valor promedio de los salarios semanales se
encuentre en el intervalo [55259.47; 57825.34], con un nivel de confianza del 95%.
3.3.3 Prueba de hipótesis para una media.
En esta sección se mostrará como formular una prueba de hipótesis utilizando
diferentes modelos probabilísticos, como el modelo t de student, normal entre otros.
Los datos utilizados para esta prueba serán ASE01 correspondientes a la
información suministrada por la Industria de Aserrío durante el año 2.003;
específicamente se trabajará con la variable salario devengado en la última semana
(SAL_SEM). Supóngase que el salario mínimo establecido para ese año fue de 250.000
Bs. y se desea determinar si en la Industria de Aserrio cumplió con lo establecido por el
gobierno.
Para realizar este ejercicio se debe calcular el salario devengado mensual
(SAL_MEN); resultante de multiplicar salario devengado ultima semana (SAL_SEM)
por cuatro.
85
Pasos:
1. Calcular nueva variable.
Comandos:
Datos -.> Modificar variable de los datos activos -> Calcular nueva variable...
Se debe escribir el Nombre de la nueva variable (SAL_MEN) y colocar la Expresión a
calcular (SAL_SEM*4).
86
Formulación de las hipótesis.
Es importante resaltar que dependiendo de la hipótesis nula y alternativa
planteada, se define el modelo probabilístico a utilizar para probar la hipótesis nula.
a) Prueba de hipótesis para una media:
0 0 0
1 0 1
H : H : 250000
H : H : 250000
Utilizando R-Commander para probar las hipótesis formuladas, se debe ejecutar
los siguientes comandos:
Estadísticos -> Medias -> Prueba t para una muestra…
87
Figura 11. Resultados para la Prueba de hipótesis para una media Datos: ASE01
Interpretación
Como el valor de p-value es menor de 0.05 se rechaza la hipótesis nula con un
nivel de confianza del 95%; lo que indica que hay evidencia del no cumplimiento del
pago del salario mínimo estipulado.
3.3.4 Prueba de hipótesis para dos medias
Con los datos ASE01 se desea probar si los salarios mensuales promedios del
primer semestre del año 2.003 son iguales a los salarios promedios mensuales del
segundo semestre. Antes de realizar la prueba de hipótesis es necesario crear una nueva
variable que segmente los datos específicamente la variable: MESESF; en los dos
semestres mencionados.
Pasos:
1. Segmentar variable numérica de los datos: ASE01
Comandos:
Datos ->Modificar variable de los datos activos -> Segmentar variable numérica…
88
La Variable a segmentar será MESESF con un Nombre de la nueva variable:
SEMESTRE, se debe seleccionar el Número de segmentos: 2, los Nombres de los
niveles: Número, y el Método de segmentación: Segmentos equidistantes; finalmente
presionar Correcto.
89
2. Prueba de hipótesis para diferencia de medias
Comandos:
Estadísticos -> Medias -> Prueba t para muestras independientes…
Figura 12.Resultado de la prueba de hipótesis para diferencia de medias. Datos: ASE01
90
3.3.5 Regresión Lineal Simple
Con el fin de aplicar el análisis de regresión lineal simple se utilizó los datos de
la Industria de Aserrio correspondientes al año 2.003. Para realizar el análisis de
regresión se seleccionaron aquellas industrias que habían aportado la información
completa referente a los meses de Enero, Marzo, Junio y Octubre (meses = 1, 3, 6,10).
Las variables seleccionadas fueron: Volumen de madera procesada en m3 (Y), número
de empleados (PERAD_NEMP = X1), monto total devengado por el personal
administrativo al mes (PERAD_MMES = X2), número de obreros (PEROB_NOBR =
X3), monto total devengado por los obreros en la ultima semana del mes
(PEROB_MSEM = X4), días efectivos de Aserrio al mes (DIAEFEMES = X5). El
nombre del archivo de datos con las variables anteriormente descritas es ASE03RLS.cvs
(delimitados por coma).
La relación más simple es la de una línea recta xY 10 , donde Y es el
volumen de madera procesada en m3, x el número de obreros, 0
es el intercepto (valor
de Y cuando x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad).
Pasos:
1. Cargar los datos
Comandos:
Datos -> Importar datos -> From text file or clipboard
91
El usuario deberá introducir el Nombre de los datos: ASE03RLS y Seleccionar
otro separador de campos, especificar “ ;” finalmente presionar Correcto. Si se desea
ver los datos cargados solo deberá presionar en el menú principal de Rcmdr Visualizar
datos.
2. Análisis de correlación:
Cálculo del coeficiente de correlación de Pearson ( r ) éste coeficiente mide el
grado de asociación que existe entre dos variables. r
asume valores entre -1 y 1; es un
indicador útil para determinar que puede existir relación entre x y Y .
Comandos:
Estadísticos -> Resúmenes -> Correlation test
Al aparecer la ventana Prueba de Correlación (Correlation test), se debe seleccionar la
variables x: PEROB_NOBR y Y: SAL_PROCM; seguidamente Correcto.
92
Figura 13.Resultados del test de correlación. Datos: ASE03RLS
El coeficiente de correlación r = 0.4718 indicando una correlación positiva, la
prueba de hipótesis aplicada 0:oH y 0:1H , da como resultado un p-value de
01.010*97.9 6 , indicando que se debe rechazar la hipótesis nula y aceptar la
hipótesis alternativa que señala la existencia de una correlación significativa
estadísticamente, entre PEROB_NOBR y SAL_PROCM.
Una forma de observar la asociación entre las variables x y Y es mediante la
graficación de la nube de puntos. Los comandos son:
93
Gráficas -> Diagramas de dispersión
En la ventana presentada (Diagrama de dispersión) el usuario debe seleccionar
la variable “x” (SAL_PROCM) y la variable “y” (PEROB_NOBR); para que solo se
muestre la nube de puntos se deben se desmarcar los identificadores de puntos.
Figura 14.Nube de puntos para SAL_PROCM y PEROB_NOBR .Datos: ASE03RLS
94
3. Determinación de la ecuación de regresión:
Para calcular los coeficientes ( b0 y b1) se debe de aplicar los siguientes
comandos:
Estadísticos -> Ajuste de modelos -> Modelo lineal
En la ventana de Modelo lineal el usuario debe introducir la formula del modelo;
para su facilidad las variables podrán ser seleccionadas con un doble clip para ser
enviada a la formula indicando Y: SAL_PROCM y x: PEROB_NOBR - 1; escogiendo
dentro de la formula del modelo -1; luego presionar Correcto.
95
Figura 15.Resultados del modelo de regresión lineal simple. Datos: ASE03RLS.
La ecuación de regresión según los resultados presentados es la siguiente:
5,9745Y x
con un coeficiente de correlación ajustado de 0,7399 .
4. Análisis de los supuestos del modelo.
Para realizar el análisis de residuales es recomendable agregar a la base de datos
los errores (Residuals, Studenttized residuals) y los Y estimados (Fitted values), los
cuales serán utilizados mas adelante; deben de ejecutarse los siguientes comandos:
Modelos -> Añadir las estadísticas de las observaciones a los datos...
Al mostrar la ventana se debe oprimir correcto.
96
4.1 Supuesto de normalidad
Comandos:
Gráficas -> Gráficas de comparación de cuantiles(QQ)
En la ventana mostrada luego de ejecutar los comandos se debe seleccionar los
errores estudentizados (Studenttized residuals), en la Distribución se debe marcar
Normal; finalmente oprimir Correcto.
97
Figura 16. Gráfica de comparación de cuantiles(QQ). Datos: ASE03RLS
4.2 Supuestos de varianzas homogéneas
Comandos:
Gráficas -> Diagrama de Dispersión
Se deben de seleccionar como variable x: Fitted y como variable Y: rstudent; sin
identificador de puntos.
98
Figura 17. Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLS
99
4.3 Para crear una variable “tiempo” en los datos cargados se deben de ejecutar los
siguientes comandos:
Datos -> Modificar variable de los datos activos -> Add observations numbers to data set
Luego, para detectar la independencia de errores se deben de ejecutar los
siguientes comandos:
Gráficas -> Diagrama de Dispersión
Se deben de seleccionar como variable x: ObsNumber y como variable Y:
rstudent.
100
Figura 18.Gráfico para detectar independencia de los errores. Datos:ASE03RLS
4.4 Gráficas básicas de diagnósticos
Comandos:
Modelos -> Gráficas -> Gráficas de básica de diagnósticos
Figura 19.Gráficas básicas de Diagnósticos. Datos: ASE03RLS.
101
4.5 Prueba de Breush – Pagan para heterocedasticidad
Comandos:
Modelos -> Diagnósticos numéricos -> Prueba de Breush – Pagan para heterocedasticidad..
En la ventana de Prueba de Breush-Pagan debe ser seleccionado el estadístico
del contraste: (Studenttized), formula de la varianza: Valores ajustados (Fitted values);
seleccionar la variable para ser enviada a la formula; finalmente presionar Correcto. La
prueba de Breush-Pagan produce la misma salida seleccionando los fitted o
PEROB_NOBR.
Figura 20.Resultados de la Prueba de Breush-Pagan. Datos: ASE03RLS
102
4.6 Prueba de Durbin-Watson para autocorrelación
Comandos:
Modelos -> Diagnósticos numéricos -> Prueba de Durbin-Watson para autocorrelación
En la ventana de Prueba de Durbin-Watson se selecciona la hipótesis
alternativa 0rho ; seguidamente presionar Correcto.
Figura 21.Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLS.
103
3.3.6 Regresión Lineal Múltiple.
Para aplicar análisis de regresión lineal múltiple se utilizó los datos de la
Industria de Aserrio correspondientes al año 2.003, las industrias que habían aportado la
información completa referente a los meses de Enero, Marzo, Junio y Octubre (meses =
1, 3, 6,10). Las variables seleccionadas fueron: Volumen de madera procesada en m3
(SAL_PROCM = Y), número de empleados (PERAD_NEMP = X1), monto total
devengado por el personal administrativo al mes (PERAD_MMES = X2), número de
obreros (PEROB_NOBR = X3), monto total devengado por los obreros en la ultima
semana del mes (PEROB_MSEM = X4), días efectivos de Aserrio al mes
(DIAEFEMES = X5).
El nombre del archivo de datos con las variables anteriormente descritas es
ASE03RLM.cvs (delimitados por coma).
Para este ejercicio el modelo viene expresado por
1 1 2 2 3 3 4 4 5 5i i i i i i iY x x x x x , donde Yi es el volumen de madera procesada
en m3, X1 es el número de empleados (PERAD_NEMP), X2 es el monto total
devengado por el personal administrativo al mes (PERAD_MMES), X3 es el número de
obreros (PEROB_NOBR), X4 es el monto total devengado por los obreros en la ultima
semana del mes (PEROB_MSEM), X5 son los días efectivos de Aserrio al mes
(DIAEFEMES).
Pasos:
1. Cargar los datos
Comandos:
Datos -> Importar datos -> From text file or clipboard
Al seleccionar los comandos anteriores aparecerá la siguiente ventana:
104
El usuario deberá introducir el Nombre de los datos: ASE03RLM y seleccionar
otro Separador de campos, especificar “ ;” finalmente presionar Correcto. Si desea ver
los datos cargados solo deberá presionar en el menú principal de R-Commander
Visualizar Datos.
105
2. Cálculo de los coeficiente de correlación
El usuario deberá activar un modelo si este ya se encuentra dentro de R
Commander o aplicar los siguientes comandos:
Estadísticos -> Ajuste de modelos -> Modelo lineal…
Al activarse esta ventana se debe seleccionar la formula del modelo:
SAL_PROCM ~ DIAEFEMES + PERAD_MMES + PERAD_NEMP +
PEROB_MSEM + PEROB_NOBR – 1; seguidamente oprimir Correcto.
106
Figura 22. Resultados del modelo de regresión lineal múltiple con todas las variables. Datos: ASE03RLM.
Para el cálculo de los coeficientes de correlación, tenemos:
Comandos:
Estadísticos -> Resúmenes -> Matriz de correlaciones…
En la ventana de Matriz de correlaciones el usuario debe seleccionar (presionar
de manera simultáneamente la tecla ctrl y el raton seleccionar las variables); todas las
variables existentes en los datos. Tipo de correlación: Pearson; seguidamente presionar
Correcto.
107
Figura 23.Matriz de Correlación. Datos: ASE03RLM.
3. Aplicación de la regresión paso a paso (Stepwise), con el fin de descartar
variables no relevantes para el modelo.
En la parte introductoria de R Commander se expuso entre una de sus funciones
la opción de conocer un poco más los comandos dentro de R; estos pueden ser escritos
en la ventana de instrucciones de Rcmdr y luego ejecutarlos; esta referencia se hace,
debido a que el análisis de regresión paso a paso no se encuentra de manera directa en el
menú principal del mismo, por lo tanto debe ser ejecutado de la siguiente manera:
Tener activo el modelo de regresión lineal; para este caso es
1 1 2 2 3 3 4 4 5 5i i i i i i iY x x x x x ; explicado en el paso 2.
En la ventana de instrucciones se debe escribir el siguiente comando:
step( nombre del modelo activo)
step(LinearModel.6)
Donde:
step: es el comando utilizado en R para realizar el análisis de regresión paso a
paso.
Nombre del modelo activo: LinearModel.6, para este caso.
108
Una vez escrito el comando se debe mandar a ejecutar; puede ser
seleccionándolo como aparece en la figura anterior o colocar el cursor en la línea de
comando y oprimir Ejecutar.
109
Los resultados serán mostrados en la ventana de resultados:
Figura 24. Resultados de la Regresión paso a paso (Stepwise). Datos: ASE03RLM.
110
De acuerdo a este procedimiento el modelo final seleccionado fue:
5_ 1,91* 1,5*10 _ 3,104* _ 1SAL PROCM DIAEFEMES PERAD MMES PEROB NOBR
4. Cálculo del coeficiente de relación múltiple, coeficiente de determinación y tabla
del ANOVA para el modelo seleccionado en el paso anterior.
Comandos:
Estadísticos -> ajuste de modelos -> Modelo lineal…
Formula del modelo:
SAL_PROCM~DIAEFEMES+PERAD_MMES+ PEROB_NOBR – 1
111
Figura 25. Resultados del modelo de Regresión paso a paso y Resumen de la Tabla ANOVA. Datos: ASE03RLM.
5. Análisis gráfico de los supuestos: Análisis de residuales
5.1 Matriz de diagramas de dispersión
Comandos:
Gráficas -> Matriz de diagramas de dispersión…
Seleccionar todas las variables del modelo; dependiente e independientes. Para
obtener los gráficos de dispersión y la curva del ajuste de mínimos cuadrados para las
variables por pares, junto con el plot de normalidad para cada variable; en la ventana de
Matriz de diagrama de dispersión debe seleccionarse la línea de mínimos cuadrados y
en la diagonal la gráfica QQ normales; seguidamente presionar Correcto.