DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN ...

UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA

ESCUELA DE SISTEMAS DEPARTAMENTO DE INVESTIGACIÓN DE OPERACIONES

DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN COMPONENTES DE

SOFTWARE LIBRE

Por: Ana Luisa Manrique Leonett Tutor: Profesor Mariano José Durán N Co-Tutor: Profesor Francisco Rivas V

PROYECTO DE GRADO

Presentado ante la Ilustre Universidad de Los Andes

como requisito final para optar al

Título de Ingeniero de Sistemas

MÉRIDA, VENEZUELA

Mayo, 2007

i

A mi mamá

A mi esposo Gabriel

A mi hermana Luisana

ii

AGRADECIMIENTOS

A Dios Todopoderoso y al Nazareno, por darme fuerza e iluminarme en mi

camino.

A la Ilustre Universidad de Los Andes, por los conocimientos adquiridos.

Al Profesor Mariano Durán y Familia, gracias por su dedicación,

orientación y consejos.

Al Profesor Francisco Rivas, por su valiosa colaboración.

A mi mamá, gracias por creer en mí en todo momento y estar siempre a mi

lado, esta meta es tuya.

A mi esposo Gabriel, gracias por tu apoyo incondicional, hoy vemos

realizado uno de tantos sueños.

A mi Nonna Sarina, gracias por tu cariño, apoyo y consejos para concluir

este sueño.

iii

DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL,

BASADO EN COMPONENTES DE SOFTWARE LIBRE

por

Ana Luisa Manrique Leonett

RESUMEN

El presente trabajo de investigación analiza un software estadístico denominado R-

Commander; desarrollado en componentes libres. Para la validación de este paquete

estadístico se utilizaron datos del actual Sistema Nacional de Información Estadísticas

Forestales del País; donde previamente fueron identificadas un conjunto de variables de

uso común en el sector forestal; aplicándoles diferentes métodos estadísticos tales como:

estadísticas descriptivas, prueba de hipótesis para una media y diferencia de medias,

estimación de parámetros por intervalos, análisis de regresión lineal simple y múltiple.

Se diseño un manual de usuario para el uso de R-Commander; interfaz gráfica que

permite acceder a muchas capacidades del entorno estadístico R.

Los resultados de la investigación demuestran que las variables recabadas producto

aprovechamiento forestal del país pueden ser analizadas aplicándole los diferentes

métodos mencionados anteriormente; análisis que serán más confiables al ser

implementado en nuevo Sistema Nacional de Información Estadísticas Forestales

(SNIEF) para la recolección de datos provenientes del sector forestal del país.

Palabras claves: software libre, R project for statistical computing, estadísticas

forestales, métodos estadísticos y análisis de regresión.

iv

Índice General

1. Introducción 1

2. Antecedentes – Marco Teórico 5

2.1 Situación actual del sector Forestal en Venezuela, perspectiva de

desarrollo…………………………………………………………

5

2.2 Producción Forestal ……………………………………………… 6

2.2.1 Producción de Madera en Rola ……………………………… 6

2.2.2 Producción Industrial ……………………………………….. 7

2.2.2.1 Industria Mecánica ……………………………………. 7

2.2.2.2 Industria Química ……………………………………. 8

2.3 Aspecto Social ……………………………………………………. 10

2.4 Identificación de los requerimientos y necesidades del SNIEF ….. 12

2.5 Mecanismo para la captura de la información procedente de otras

organizaciones gubernamentales, no gubernamentales y sector

privado. Situación actual ……………………………………….

14

2.6 Niveles de circulación de la información Estadística Forestal en el

Ministerio del Poder Popular para el Ambiente …………………..

16

2.7 Objetivos del SNIEF …………………………………………….. 18

2.8 El Software Libre ………………………………………………. 19

2.9 Ventajas del Software Libre para Venezuela ……………………. 21

2.10 R Project Statistical for Computer.………………….....................

21

2.11 Introducción al Análisis Estadístico, Conceptos Básicos ………. 22

2.12 Análisis de Regresión Lineal ……………………………………

26

2.12.1 Regresión Lineal Simple ………………………………….. 27

2.12.1.1 Propiedades de los Estimadores de Mínimos

Cuadrados…………………………………………..

28

2.12.1.2 Estimación de la varianza para el término del error

en la regresión ……………………………………...

29

v

Índice General

2.12.1.3 Varianza del modelo de regresión ……………………. 29

2.12.2 Regresión Lineal Múltiple ………………………………… 30

2.12.2.1 Prueba de Hipótesis en la Regresión Lineal Múltiple 35

2.12.2.2 Verificación de Supuestos: Análisis de Residuales …

37

3. Resultados y Análisis ………………………………………………….. 39

3.1 Desarrollo del Manual R-Commander; acceso, uso y aplicación

del mismo …………………………………………………………

39

3.1.1 El Entorno R-Commander ……………………………………

39

3.1.2 Instalación del R y del paquete Rcmdr………………………..

41

3.1.3 Acceso del Rcmdr……….. ………………………………….. 42

3.1.4 Manejo de Datos …………………………………………….. 48

3.2 Identificación de las variables del sector forestal publicada en los

Anuarios Estadísticos Forestales del país………………………….

58

3.2.1 Variables identificadas en los módulos existentes…………… 58

3.3 Aplicación Estadística usando R Project (R-Commander) a las

variables del sector forestal.............................................................

67

3.3.1 Estadísticas descriptivas........................................................... 68

3.3.2 Estimación de paràmetros por intervalos ................................. 83

3.3.3 Prueba de Hipótesis para una media ………………………… 84

3.3.4 Prueba de Hipótesis para dos medias ………………………... 87

3.3.5 Regresión Lineal Simple …………………………………….. 90

3.3.6 Regresión Lineal Múltiple ……………………………………. 103

5. Conclusiones ……………………. ……………………………………. 120

. Bibliografía …………………………………………………………….. 121

1. Planillas de captura de la información forestal ……………………… 124

2. Comandos de R-Commander para ejecutar diferentes métodos

estadísticos ……………………………………………………………..

136

vi

Índice de Figuras

1

Dirección General de Bosques. Estructura Organizativa………………….. 14

2

Estructura Organizativa de la Dirección Estadal Ambiental ……………… 15

3

Niveles de circulación de la información Estadística Forestal en el

Ministerio del Poder Popular para el Ambiente …………………………...

17

4

Objetivos del SNIEF ……………………………………………………... 18

5

Ventana de Consola de R ............................................................................. 40

6

Ventana del entorno de R Commander …………………………………… 40

7

Sistema Nacianal de Información Estadísticas Forestales . Módulos

existentes para las Industrias Forestales en Venezuela ……………………

58

8

Resúmenes estadísticos. Datos ASE01 …………………………………… 71

9

Resúmenes Numéricos Estadísticos. Datos ASE01 ………………………. 72

10

Resultado Intervalos de confianza. Datos: ASE01 ……………………….. 84

11

Resultados para la Prueba de hipótesis para una media Datos: ASE01 …... 87

12

Resultado de la prueba de hipótesis para diferencia de medias. Datos:

ASE01……………………………………………………………………..

89

13

Resultado del test de correlación. Datos: ASE03RLS ……………………. 92

14

Nube de puntos para SAL_PROCM y PEROB-NOBR .Datos:

ASE03RLS ………………………………………………………………...

93

15

Resultados del modelo de regresión lineal simple. Datos: ASE03RLS …... 95

16

Gráfica de comparación de cuantiles(QQ). Datos: ASE03RLS …………... 97

17

Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLS …….. 98

18

Gráfico para detectar independencia de los errores. Datos:ASE03RLS ….. 100

19

Gráficas Básicas de Diagnósticos. Datos: ASE03RLS …………………… 100

20

Resultados de la Prueba de Breusch-Pagan. Datos: ASE03RLS …………. 101

21

Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLS ………….

102

22

Resultados del modelo de regresión lineal múltiple con todas las

variables. Datos: ASE03RLM ……………………………………………..

106

23

Matriz de Correlación para los datos: ASE03RLM ………………………. 107

24

Resultados de la Regresión paso a paso (Stepwise). Datos: ASE03RLM 109

vii

Índice de Figuras

25

Resultado del modelo de Regresión paso a paso y Resumen de la Tabla

ANOVA. Datos: ASE03RLM ……………………………………………..

111

26

Matriz de diagrama de dispersión para el modelo Stepwise. Datos:

ASE03RLM ………………………………………………………………..

112

27

Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLM …… 114

28

Gráfico para detectar independencia de los errores. Datos: ASE03RLM … 115

29

Gráficas básicas de Diagnósticos. Datos: ASE03RLM …………………... 116

30

Resultados del Test de Normalidad. Datos: ASE03RLM ………………… 117

31

Resultados de la Prueba de Breusch-Pagan. Datos: ASE03RLM ………… 118

32

Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLM ………... 119

viii

Índice de Tablas

1

Producción Nacional de Madera en Rola (m3 rollizos), por Modalidades

de Aprovechamiento. Periodo 1993 – 2003..................................................

7

2

Producción Nacional de Madera y sus Derivados por Tipo de Industria.

Período 1995-2001 ………………………………………………………...

8

3

Composición de la Materia Prima para la Producción

de Papeles,

Cartulinas y Cartón ………………………………………………………...

9

4

Tipo de Industria y la cantidad existente en el país según reportes del

Ministerio del Poder Popular para el Ambiente para el periodo 2001 y

2003 ………………………………………………………………………..

9

5

Datos para la regresión lineal múltiple ……………………………………. 31

6

Tabla ANOVA en el análisis de regresión………………………………. 37

7

Resumen de las Variables identificadas de los bloques 1 y 2 de todas las

planillas……………………………………………………………………………

59

8

Resumen de las variables. Planilla Industria Aserrio…………………….. 60

9

Resumen de las variables. Planilla machihembradora, carpintería,

mueblería, Depósitos y Afines……………………………………………..

61

10

Resumen de las variables. Planilla Industria Tableros Contrachapados ….. 63

11

Resumen de las variables. Planilla Industria Tableros y Aglomerados…… 65

12

Resumen de las variables. Planilla Industria Carbón Vegetal……………... 66

13

Resumen de las variables en los Módulos existentes ……………………... 67

14

Resúmenes estadísticos por grupo de los datos ASE01 …………………... 76

1

Capítulo 1. Introducción

Desde la década de los años 60, se inició el proceso de recolección de

información estadística forestal en el país, por intermedio del Ministerio de Agricultura

y Cría, sección de Bosques donde se registraba manualmente información sobre la

producción nacional por especie y Entidad Federal.

Más tarde, en el año 1979, se crea el Ministerio del Ambiente y de los Recursos

Naturales Renovables, se continuó registrando información estadística forestal y

divulgando cifras sobre la materia.

Luego, en el año 1992, se implementó un sistema automatizado que facilitó el

procesamiento de información para generar las publicaciones oficiales del Anuario

Estadística Forestales, posibilitando la divulgación de información en la materia con

una periodicidad de dos años.

El Anuario Estadísticas Forestales contiene información sobre el sector forestal,

producción nacional de madera en rola, producción nacional de productos secundarios,

industria mecánica, industria química de la madera, comercialización de productos

forestales maderables y no maderables, indicadores macroeconómicos del sector forestal

entre otra. El mismo se ha convertido en un insumo relevante para las labores que

realiza el planificador, gerente, estudiante, ciudadano común, investigador, académico,

entre otros usuarios de la información, que hoy en día deben acudir con más frecuencia a

la revisión, análisis y uso de los datos estadísticos.

El gobierno venezolano a través del Ministerio del Poder Popular para el

Ambiente ha suscrito un convenio con la Organización Internacional de Maderas

Tropicales (OIMT), con el fin de automatizar el Sistema de las Estadísticas Forestales

del país, a fin de mejorar la captura de la información y poder disponer de información

estadística forestal confiable y oportuna, como un elemento estratégico en la

2

formulación de políticas orientadas al manejo y aprovechamiento sustentable de los

recursos forestales.

Actualmente la Universidad de Los Andes, Facultad de Ciencias Forestales y

Ambientales, conjuntamente con el Ministerio del Poder Popular para el Ambiente están

desarrollando el Sistema Nacional de Información Estadística Forestal (SNIEF); cuyo

objetivo general es satisfacer las necesidades de información estadística del Sector

Forestal, para facilitar los procesos de toma de decisiones de los diferentes usuarios de

la misma. Para lograr este objetivo general se plantea la consecución de tres objetivos

específicos:

1) Generación del Anuario Estadístico y los Boletines.

2) Implementación de un módulo de Supervisión y Control.

3) Implementación de un modulo de Análisis Estadístico con el uso de

herramientas de software libre, específicamente R.

El presente trabajo se centra en el tercer objetivo específico del Sistema Nacional

de Información Estadística Forestal de Venezuela (SNIEF); enmarcado dentro del

término de Investigación. Este se refiere a la utilización de datos para determinar

tendencias, así como de estudios puntuales de los datos; aplicándoles diferentes métodos

estadísticos tales como: Estadísticas Descriptivas, Prueba de Hipótesis para una media y

diferencia de dos medias, Estimación de parámetros por intervalos y Análisis de

Regresión, entre otros.

Objetivos:

Como objetivo general de esta investigación se plantea analizar un software

estadístico, desarrollado en componentes libres, denominado “R project”,

específicamente “R-Commander”.

3

Objetivos Específicos:

1. Acceder, usar y aplicar R project, específicamente Rcmdr.

2. Identificar las variables de uso común en las estadísticas forestales del país.

3. Probar y validar el programa R-Commander en el análisis estadístico de las

variables del sector forestal.

4. Elaborar un manual de usuario de R-Commander con ejemplos.

Metodología

Para llevar a cabo esta investigación se realizó una secuencia de pasos

presentados a continuación:

1) Revisión de los antecedentes del Sistema Nacional de Información de Estadística

Forestal (SNIEF), revisión bibliográfica de Métodos Estadísticos y consultas

web.

2) Selección del programa estadístico, que en cumplimiento al Decreto 3390

referente al Software Libre se escogió “R Project for Statistical Computing”

versión 2.4.0, paquete “R-Commander” versión 1.2.6 (GUI).

3) Consultas web con el diseñador del programa (Jhon Fox) para aclarar dudas

acerca de la instalación del mismo.

4) Instalación y análisis del programa “R Project for Statistical Computing” versión

2.4.0, paquete “R-Commander” versión 1.2.6; para la verificación de su

funcionamiento en diferentes equipos de computación.

5) Identificación de las variables asociadas al sector forestal en las planillas de

captura de la información.

6) Revisión de la base de datos del sector forestal y aplicación del software en las

variables asociadas al mismo.

7) Revisión de algunos comandos (stepwise, t.test, shapiro.test) en el Manual

Introductorio de R, para ser ejecutados en R-Commander , debido a que estos no

están de manera directa en el menú mostrado por este paquete.

4

8) Aplicación de R-Commander para diferentes métodos estadísticos a las variables

asociadas del sector forestal.

5

Capítulo 2. Antecedentes - Marco Teórico

2.1 Situación actual del Sector Forestal en Venezuela, perspectiva de desarrollo.

Los bosques naturales existentes y las plantaciones establecidas y por establecer,

debidamente manejados con criterio de sostenibilidad, proveen bienes y servicios

necesarios para el bienestar de la población, sustentando, al mismo tiempo, procesos

económicos y sociales que contribuyen con el normal desenvolvimiento de la sociedad.

Las Industrias que procesan madera y sus derivados, en una cadena que finaliza en

productos como papel y material impreso o componentes para viviendas y su mobiliario,

se complementan con aquellas procesadoras de productos no maderables del bosque,

como alimentos, fibras, látex, resinas y muchos otros.

El amplio espectro de productos aprovechables de los bosques naturales y de las

plantaciones forestales permite el establecimiento y desarrollo de múltiples y diversas

industrias, a escalas muy variables. Desde plantas industriales de gran escala para la

producción de bienes industriales de consumo masivo, como madera aserrada, tableros,

puertas y ventanas, cartones, papeles, libros y materiales gráficos en general, hasta

organizaciones comunitarias para el aprovechamiento propio y comercial de productos

naturales, tales como aceites y esencias, fibras para vestido, techado y material para

artesanías, alimento y medicina. Las actividades productivas mencionadas permiten

establecer el concepto de producción sustentable bajo manejo, siendo éste el que

garantiza la permanencia del bosque y sus cualidades inherentes; es decir, si bien está

dirigido hacia la obtención de productos de consumo directo o de materias primas

industriales, conserva al bosque y cultiva su potencial productivo o, en el caso de

plantaciones forestales, repone las superficies explotadas, y con ello la capacidad del

ecosistema forestal de mantener tanto la producción como la oferta de servicios

ambientales.

6

Conviene destacar que el conjunto de las actividades forestales, tanto protectoras

como productivas, está entre las que genera más empleo por capital invertido,

requiriendo abundante mano de obra no calificada en el campo. Al mismo tiempo,

ofrece amplias posibilidades de crecimiento y participación aguas abajo en múltiples

actividades transformadoras, industriales y comerciales, en las cuales radica su mayor

potencial de beneficios sociales directos.

Además, los productos forestales son una fuente de divisas en muchos países en

desarrollo. Pero para que lo sigan siendo en el futuro, hay que ordenar y aprovechar con

prudencia los recursos forestales. Es preciso, sobre todo, establecer industrias forestales

para sacar mejor provecho de estos recursos naturales, mediante su transformación en

productos más valiosos para la exportación y el consumo interno.

2.2 La Producción Forestal.

2.2.1 Producción de Madera en Rola

La producción nacional de madera rolliza proviene de tres fuentes, bosques no

manejados cuya explotación se realiza con permisos anuales, bosques aprovechados

bajos planes de manejo forestal y plantaciones forestales. Esta producción ha sido

variable desde el año 1996 hasta el año 2003, como se muestra en la Tabla 1. Para el

caso de las explotaciones anuales la tendencia se ha mantenido hacia la baja;

igualmente, la producción obtenida en las áreas sometidas al manejo forestal ha sido

descendente hasta 1999, con un repunte para los años 2000 y 2001.

La producción de madera rolliza obtenida de las plantaciones de Pino Caribe se

puede indicar que ha estado en ascenso sostenido, variando levemente en los años 1997

y 1998, duplicándose en 1999 para descender nuevamente en los dos últimos años del

período registrado.

7

En general, se puede observar que mientras la producción del bosque natural, se

ha mantenido con una tendencia variable hacia la baja, la proveniente de plantaciones

forestales ha ido adquiriendo importancia como fuente de madera rolliza.

Tabla 1. Producción Nacional de Madera en Rola (m3 rollizos), por Modalidades de Aprovechamiento. Periodo 1993 – 2003

Año Permisos Anuales*

% Manejo Forestal**

% Plantaciones Pino Caribe

% Plantaciones Forestales

(Teca, melina, eucaliptos y acacia)

% Producción Nacional

1996 391.560,450 31,63 430.824,918 34,80 412.882,000 33,35 2.726,700 0,22 1.237.994,07

1997 364.472.050 27,33 385.522,995 28,91 580.967,500 43,57 2.438,385 0,18 1.333.400,92

1998 310.557,290 29,98 312.224,671 30,14 411.874,361 39,76 1.193,118 0,12 1.035.849,44

1999 280.352,460 19,11 274.897,329 18,74 904.767,580 61,68 6.876,095 0,47 1.466.893,46

2000 192.225,161 15,98 216.763,607 18,01 475.000,000 39,48 319.238,160

26,53 1.203.271,92

2001 240.383,563 23,97 186.186,787 18,56 320.000,000 31,91 256.348,540 25,56 1.002.918,89

2002 129.899,690 12,03 113.282,363 10,49 567.000,000 52,51 269.499,802 24,96 1.079.708,85

2003 103.919,752 11,61 140.830,974 15,73 419.600,000 46,87 230.811,063 25,78 895.161,789

Fuente: MARN-DGB. Boletín Estadístico Forestal Nº 5. Años 2002 - 2003 * Terrenos baldíos y privados ** Reservas Forestales y lotes boscosos.

2.2.2 Producción Industrial

2.2.2.1 Industria Mecánica

La producción de madera rolliza se orienta fundamentalmente hacia el

procesamiento mecánico, ya que la industria del papel obtiene su materia prima

principalmente a través de la importación y el reciclaje. La industria del aserrío es la

más importante procesadora de madera rolliza; para 1999 como se muestra en la Tabla

2. existían en el país aproximadamente 300 aserraderos concentrados en los estado

8

Bolívar, Monagas y Barinas con una producción alrededor de los 174.928 m3. La

industria del contrachapado colocaba en el mercado 29.600 m3 provenientes de 18

plantas, mientras que la del aglomerado, en 6 plantas, producía unos 59.000 m3.

Tabla 2. Producción Nacional de Madera y sus Derivados por Tipo de Industria. Período1995-2001

Producción ---------------- Categoría

Unidad de

Medida 1995 1996 1997 1998 1999 2000 2001

Madera Aserrada M3 237.290 192.932 240.784 261.000 174.928 175.263 217.278

Tableros Aglomerados M3 56.402 55.605 60.354 59.440 59.000* 60.066 62.044

Tableros Contrachapados M3 34.380 38.280 33.949 30.400 29.661* 28.798 27.192

Pulpa Tm 146.761 170.225 137.894 136.815 127.906 172.719 176.359

Papel, Cartones y Cartulinas Tm 736.502 623.304 707.743 637.196 547.838 433.942 426.239

Fibras Reciclables Tm 281.326 280.869 263.752 280.275 214.625 241.317 220.458

* Estimaciones Fuente: DGRF – MARN. Boletín Estadístico Forestal. N0 4 Año 2001

2.2.2.2 Industria Química

La industria de papel se abastece principalmente del reciclaje, pulpa de bagazo

de caña y de materia prima importada. Para el año 1999 el 64% del consumo aparente de

materia prima utilizada para la producción de papel era fibras reciclables y del 36% de

pulpa utilizada, un 32% era importado. En la Tabla 3. se muestra la composición de la

materia prima para la producción de papeles, cartulinas y cartón.

9

Tabla 3. Composición de la Materia Prima para la Producción de Papeles, Cartulinas y Cartón

Nacional Importada Consumo aparente

Total Tm

% Consumo Aparente

Total Tm

% Consumo Aparente

Total Tm

% Consumo Aparente

Pulpa 127.906 67,47 61.657 32,53 189.563 35,97

Fibra Reciclable 214.625 63,61 122.808 36,39 337.433 64,03

Total 342.531 65 184.465 35 526.996 100,00

Fuente APROPACA. Informe Anual 1999. Citado por FAO 2002

Las tendencias de la producción de papel, cartulinas, cartón y fibras reciclables

en los últimos años, han tenido un comportamiento estable con ligeras fluctuaciones

hasta 1998, con un marcado descenso en la producción de papeles, cartulinas y cartones,

en los años 2000 y 2001. La producción de pulpa presenta un comportamiento estable,

con ligeras variaciones, incrementándose en los dos últimos años del período registrado.

Los tipos de Industrias y el número de establecimientos en el país para el año

2001-2003 son mostrados en la Tabla 4 .

Tabla 4. Tipo de Industria y la cantidad existente en el país según reportes del Ministerio del Poder Popular para el Ambiente para el periodo 2001- 2003

TIPO DE INDUSTRIA NÚMERO DE ESTABLECIMIENTOS

%

Aserrío 298 14,22 Contraenchapado 18 0,8

Aglomerado 6 0,2 Pulpa y Papel 8 0,3

Carbón Vegetal 27 1,3 Carpintería 1.282 61,19 Depósitos 418 19,95 Palmiteras 3 0,1

Planta de Astillas 1 0,04 Guacalera –Manufacturera

22 1,0 Machihembrado 12 0,6

TOTAL 2.092 100,00

Fuente: MARN-DGB. Boletín Estadístico Forestal Nº 5. Años 2002-2003

10

2.3 Aspecto Social

Aunque muchas plantaciones se han desarrollado para abastecer a grandes

industrias, estos proyectos se han constituido, en muchos casos, en una importante

fuente de materias primas para las comunidades cercanas. Los usos más comunes son la

madera de aserrío, leña, estantillos para cerca y forrajes. Las plantaciones han

significado un elemento que otorga mayor valor a la propiedad.

Destacan las plantaciones de Pino en las sabanas y chaparrales de Anzoátegui y

Monagas, donde el uso de la tierra está sujeto a grandes limitaciones naturales. Algunos

consideran un “milagro ecológico” la adaptación del pino a estas condiciones de suelos

arenosos y pobres en nutrientes, muy deficientes para las actividades agropecuarias y

donde las comunidades no tenían prácticamente ninguna alternativa de desarrollo. El

establecimiento de estas plantaciones le dio valor a la tierra, generó posibilidades de

empleo a los moradores locales y la creación de industrias pequeñas y grandes. El Pino

ha tenido un gran impacto en todo el país, ya que actualmente, es la madera más

económica disponible para las carpinterías. De hecho, esta especie representa la mitad

del consumo de la madera aserrada en Venezuela.

Por otra parte, la Teca ha tenido un rotundo éxito en el manejo forestal del

Estado Barinas. Muchos productores agropecuarios la han incorporado a sus terrenos

como cercas vivas, y han comenzado a plantar pequeños lotes, debido a su alto valor

comercial. Los productos de aclareo (de pequeñas dimensiones) son muy cotizados

como estantillos para cerca y varas de construcción. Los fustes intermedios se utilizan

para machihembrado y los más grandes se dedican a tablas y vigas. Esta especie se

comporta muy bien en el torno, lo que permite la manufactura de diversas artesanías. Se

estima que en Socopó (Estado. Barinas) funcionan más de 200 carpinterías que utilizan

la Teca como materia prima.

La generación de empleo es otro efecto positivo, muy importante porque, al

compararlo con las actividades agropecuarias, representa mayor mano de obra por

11

hectárea y dedicación todo el año. Esto es especialmente significativo en regiones, como

las de oriente, económicamente deprimidas.

El sector forestal genera 2.700 empleos directos y 13.500 empleos indirectos. La

información indica que para 1975 existían 3.022 empleos directos en la industria de

aserrío (MARN-SEFORVEN 1997); entre 1982 y 1983 se incrementó a más de 10.000

empleos directos y 50.000 empleos indirectos (MARN-SEFORVEN, 1991). De 1990 a

1995 el empleo en el sector forestal disminuyó en un 6 %, de 54.200 hasta 51.000

personas, como consecuencia del cierre de plantas en la industria mecánica de la madera

(Monitor Company, 1997).

Entre 1989 y 1995, las compañías de papel y los aserraderos mantuvieron un

empleo estable y la fábrica de los muebles registró un incremento neto de 3% por año;

pero, el empleo en contrachapado disminuyó en un 40% entre 1970 y 1995 y el empleo

en aglomerados con sólo 351 personas en 1996, cayó 15% anual entre 1994 y 1996.

En general, el sector forestal sigue siendo una oportunidad sin explotar para el

empleo en Venezuela. La cadena forestal apenas suministra empleo a 31.000

trabajadores. Se podría afirmar, en cuanto a plantaciones forestales, que el modelo

escogido por Venezuela no arroja resultados óptimos. El país inició plantaciones en gran

escala en los años 70, pero el Estado se convirtió en empresario y manejó la operación

de siembra y extensión, a través de la Corporación Venezolana de Guayana / CVG, el

Ministerio de Agricultura / MAC, la Compañía Nacional de Reforestación – CONARE

y posteriormente, PROFORCA (Monitor Company, 1997). Actualmente, los cambios

cualitativos en la Política Nacional de Bosques y el las orientaciones del órgano rector

del sector, la Dirección General de Bosques (antigua Dirección General del Sector

Forestal), del Ministerio del Poder Popular para el Ambiente, el Plan Nacional de

Desarrollo 2002-2007 y los proyectos relacionados con el Eje de Desarrollo Apure

Orinoco, muestran nuevas opciones sociales, fundadas en alternativas que incluyen

desde la actividad forestal empresarial, a lo largo de ese Eje de Desarrollo hasta las

12

foresterías comunitarias que se promueven en las Reservas Forestales de Occidente, así

como la instalación de diversas industrias asociadas a la cadena forestal.

2.4 Identificación de los requerimientos y necesidades del Sistema Nacional de

Información Forestal.

El gobierno venezolano a través del Ministerio del Poder Popular para el

Ambiente ha suscrito un convenio con la Organización Internacional de Maderas

Tropicales (OIMT), con el fin de automatizar el Sistema de las Estadísticas Forestales

del país, a fin de mejorar la captura de la información y poder disponer de información

estadística forestal confiable y oportuna, como un elemento estratégico en la

formulación de políticas orientadas al manejo y aprovechamiento sustentable de los

recursos forestales. La OIMT, cuenta con experiencias en países tropicales del mundo y

especialmente en Latinoamérica, donde ha financiado proyectos de desarrollo

estadísticos forestales, los mismos son Bolivia, Colombia, Panamá y Perú.

La oficina del SNIEF, con apoyo financiero y técnico de la OIMT, se ha

planteado un proceso de modernización de sus actividades a los fines de adecuar la

información que genera esta dependencia, con los otros organismos competentes en la

materia como el Sistema de Información del Ministerio (SIMA), Instituto Nacional de

Estadística (INE), otros organismos gubernamentales como el Banco Central de

Venezuela (BCV), Universidades, y Organizaciones no Gubernamentales, entre otras.

En el año 2004, se realizó una serie de talleres donde se evaluó el actual sistema

sus fortalezas y debilidades, así como también algunas acciones conducentes al

mejoramiento del sistema.

Algunos de los aspectos más resaltantes de estos talleres realizados en las

Direcciones Ambientales de los cuatro estados involucrados son:

13

Ausencia de información registrada. Se ha observado que existe información

relevante que no esta incorporada en las planillas de registro operacional de las

actividades forestales.

Omisión de datos. En algunos casos la información es presentada de manera

incompleta (precios, empleos, volúmenes, especies, etc.), tanto por las oficinas

del Ministerio del Ambiente a nivel nacional, como por las empresas privadas.

Inconsistencias. Los entes a quienes corresponde suministrar la información, no

manejan un sistema uniforme de conversión de unidades.

Obsolescencia de los sistemas de información de las estadísticas forestales.

Formatos para la recolección de la información con una gran cantidad de

variables que no son relevantes como fuente de información.

Obsolescencia del sistema de red. El equipo que actualmente se utiliza, a nivel

central como servidor no esta en funcionamiento.

Las Direcciones Estadales Ambientales (DEA’s), no disponen de equipos para la

transmisión oportuna de la información.

Objetivos en el corto y mediano plazo:

1. Realizar un Diagnostico del Actual Sistema de Información de Estadísticas

Forestales.

2. Actualizar y mantener el sistema vigente de generación de estadísticas

forestales.

3. Conectar en red y a INTERNET al Sistema de Información de Estadísticas

Forestales bajo la plataforma del Sistema de Información del Ministerio del

Poder Popular para el Ambiente.

4. Crear un sitio en la red en donde se recopile y suministre información a los

usuarios.

5. Generar las publicaciones electrónicas del Anuario Estadísticas Forestales,

Boletines Estadísticos y Directorio de Industrias Forestales de Venezuela.

6. Generar documentos síntesis sobre la situación del sector forestal con base en

el análisis estadístico de los datos.

14

7. Establecer los programas de inducción donde se involucre a los entes

generadores de información, con el fin de obtener información confiable y en

los tiempos estipulados.

2.5 Mecanismos para la captura de la información procedente de otras

organizaciones gubernamentales, no gubernamentales y sector privado. Situación

actual.

El siguiente análisis corresponde a los cuatro nodos iniciales del proyecto de

Actualización y Consolidación del Sistema Nacional de Información Estadística Forestal

de Venezuela. Estos corresponden a los Estados Barinas, Bolívar, Delta Amacuro y

Monagas. Actualmente, la información referente a las Estadísticas Forestales de

Venezuela, está centralizada en el MPPA, en la Dirección General de Bosques (DGB).

En el análisis efectuado a nivel central, se identificaron tres direcciones que manejan de

una u otra forma la información estadística en forma directa: a) Dirección de Política y

Planificación del Bosque, la Dirección de Investigación y proyectos del Bosque y la

Dirección de Bienes y Servicios del Bosque. La Dirección General de Bosques presenta

la siguiente estructura organizativa:

Figura 1. Dirección General de Bosques. Estructura Organizativa. Fuente: Taller primeras Jornadas de Conservación Ministerio del Ambiente 2004. Adaptado.

15

Como se observa en la figura anterior, a nivel central existen cuatro direcciones:

1. Política y Planificación del Bosque

2. Investigación y Proyectos del Bosque

3. Bienes y Servicios del Bosque.

4. Supervisión y Control Forestal. A nivel de los estados existen las

Direcciones Estadales Ambientales (DEA’s), comprendiendo un total de

23 y en cada DEA’s, a un nivel jerárquico menor, pero no menos

importante, están las Áreas Administrativas.

La estructura Organizativa de las DEA’s se muestra en el siguiente figura.

Figura 2. Estructura Organizativa de la Dirección Estadal Ambiental Fuente: Taller primeras Jornadas de Conservación Ministerio del Poder Popular para el Ambiente 2004.

Determinando la ruta de los flujos de información se puede afirmar que el dato

se genera a nivel de las áreas administrativas, quienes envían la información a dos

16

unidades dentro de las DEA’s: a) Conservación Ambiental y b) Ordenación y

Administración Ambiental. Luego estas unidades envían la información a la Dirección

General de Bosques, y a nivel central, se distribuye a las direcciones de: 1) Política y

Planificación del Bosque, 2) Bienes y Servicios del Bosque, y 3) Supervisión y Control

Forestal. El Sistema Nacional de Información de Estadísticas Forestales (SNIEF), esta

adscrito a la Dirección de Política y Planificación de Bosques. Los encargados de

recopilar la información forestal, en la oficina del SNIEF solicitan la información

pertinente, a efectos de elaborar el Anuario Estadístico Forestal y los Boletines, a las

direcciones de Bienes y Servicios del Bosque, y Supervisión y Control Forestal, entre

otras.

Dentro de las DEA’s, la unidad de Conservación Ambiental centraliza la

información relacionada con los planes anuales de corta y los planes de las plantaciones.

La unidad de permisiones centraliza información referente a Volumen de Madera en

Rola, por especie y por estado.

Sin embargo, visitas a las Direcciones Estadales Ambientales y a las Áreas

Administrativas, se pudo observar que a pesar que la información finalmente es

centralizada a nivel de la Dirección General de Bosques, no existe uniformidad en las

rutas que sigue la información desde la generación del dato a nivel de Áreas

Administrativas, hasta llegar a las Direcciones de: Política y Planificación del Bosque,

Bienes y Servicios del Bosque, y Supervisión y Control Forestal.

2.6 Niveles de circulación de la información estadística forestal en el Ministerio del

Poder Popular para el Ambiente.

En la siguiente figura se indica en forma general los flujos de información

estadística forestal, que es producida, manejada y verificada en el Ministerio del Poder

Popular para el Ambiente y los diferentes niveles donde se produce la misma.

17

NIVEL CENTRAL

Procesa y Analiza la Información Solicitada a las Direcciones Estadales.

Solicita información a otras instituciones Prepara Boletines y Anuarios

DIRECCIÓN ESTADAL AMBIENTAL Recolecta, Certifica y verifica la Información de campo, suministrada por las Áreas Administrativas

ÁREAS ADMINISTRATIVAS Recolectan y certifican la información proveniente de los manejadores del Bosque, Información que se transcribe a los formatos existentes para cada caso. En la industria transformadora del recurso forestal, la trascripción de información es realizada por personal de las empresas y el funcionario certifica.

Figura 3. Niveles de circulación de la información Estadística Forestal en el Ministerio

del Poder Popular para el Ambiente.

Los pasos a seguir para la obtención de los datos de las planillas, para todas las

Industrias Forestales y el flujograma se presentan a continuación. Pasos:

1. La industria solicita al MPPA el canje de las guías de circulación.

2. El MPPA realiza inspección en patio y revisión de libros.

3. La industria envía la planilla de “Registro Operacional” a la sede del MPPA.

4. Mensualmente las planillas son remitidas al Nivel Central.

18

2.7 Objetivos del SNIEF

Objetivos del SNIEF, como un sistema integrado de generación de estadísticas,

elemento de control del dato, validez de la información y útil para la toma de

decisiones.

- Descriptiva - Guías de circulación - Análisis Estadístico - Guías inutilizadas (R Software) - Guías de canje - Aprovechamiento de Bosque - Aprovechamiento de Plantaciones - Industria

Figura 4. Objetivos del SNIEF

En esta figura se puede observar tres grandes objetivos del sistema. El primer

objetivo sería la elaboración electrónica de los anuarios y boletines estadísticos. El

acceso a esta información estará disponible a todos los usuarios, a través de Internet. Sin

embargo, el sistema ofrecerá la posibilidad de algunas consultas específicas por parte de

los usuarios. También será posible, para todos los usuarios, disponer de información

actualizada, con retrasos mínimos. En esta etapa, los análisis se harán utilizando las

herramientas de las Estadísticas Descriptivas. Esta información será ofrecida con los

módulos existentes y con la información ampliada con los nuevos módulos incorporados

al sistema.

BD

Anuarios y Boletines

Supervisión y control

Investigación

SNIEF

19

El segundo objetivo, al cual se la ha dado mucha importancia, tiene que ver con

la elaboración de nuevos módulos de supervisión y control, principalmente a través de

los mecanismos de las guías de circulación, que permiten hacer el seguimiento de la

madera en rola desde el origen hasta las diferentes industrias que la procesan. Este

seguimiento a la vez permite chequear la validez de la información suministrada por las

industrias forestales. En base al análisis de las funciones de las direcciones de línea de la

DGB, de las DEA’s y de las áreas Administrativas, el SNIEF podrá generar reportes

específicos necesitados por estas dependencias, necesarios para la toma de decisiones.

Finalmente, el tercer objetivo ha sido enmarcado dentro del término

Investigación. Este se refiere a la utilización de los datos para determinar tendencias, así

como de estudios puntuales de los datos. Diferentes métodos estadísticos serán

analizados para ser aplicados en este módulo tales como: Estadísticas Descriptivas,

Análisis de Regresión, entre otros. La aplicación de los métodos permite hacer el

análisis exploratorio de datos y establecer relaciones entre las variables, así como la

formulación y prueba de hipótesis; los mismos serán aplicados con el software libre R

Project Statistical for Computer, específicamente R-Commander. Resultados útiles para

la investigación en el área forestal y para la toma de decisiones.

En definitiva lo que se quiere es motivar y explicar a la gerencia media y alta

sobre la importancia de las estadísticas forestales para sustentar las decisiones sobre el

manejo, la conservación y desarrollo de los bosques de Venezuela.

2.8 El Software Libre

``Software Libre'' se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir,

estudiar, cambiar y mejorar el software. De modo más preciso, se refiere a cuatro

libertades de los usuarios del software:

La libertad de usar el programa, con cualquier propósito (libertad 0).

La libertad de estudiar cómo funciona el programa, y adaptarlo a sus necesidades

(libertad 1). El acceso al código fuente es una condición previa para esto.

20

La libertad de distribuir copias, para ayudar a la comunidad (libertad 2).

La libertad de mejorar el programa y hacer públicas las mejoras, de modo que

toda la comunidad se beneficie. (libertad 3). El acceso al código fuente es un

requisito previo para esto.

Un programa es software libre si los usuarios tienen todas estas libertades. Así

pues, se debe tener la libertad de distribuir copias, sea con o sin modificaciones, sea

gratis o cobrando una cantidad por la distribución, a cualquiera y en cualquier lugar. El

ser libre de hacer esto significa (entre otras cosas) que no es necesario pedir o pagar

permisos.

También se debe tener la libertad de hacer modificaciones y utilizarlas de

manera privada en el trabajo u ocio, sin ni siquiera tener que anunciar que dichas

modificaciones existen. Si se publican los cambios, no es necesario avisar a nadie en

particular.

La libertad para usar un programa significa la libertad para cualquier persona u

organización de usarlo en cualquier tipo de sistema informático, para cualquier clase de

trabajo, y sin tener obligación de comunicárselo al desarrollador o a alguna otra entidad

específica.

La libertad de distribuir copias debe incluir tanto las formas binarias o

ejecutables del programa como su código fuente, sean versiones modificadas o sin

modificar (distribuir programas de modo ejecutable es necesario para que los sistemas

operativos libres sean fáciles de instalar). Está bien si no hay manera de producir un

binario o ejecutable de un programa concreto (ya que algunos lenguajes no tienen esta

capacidad), pero es necesario tener la libertad de distribuir los formatos encontrados o

desarrollados si es el caso.

Para que las libertades de hacer modificaciones y de publicar versiones

mejoradas tengan sentido, se debe tener acceso al código fuente del programa. Por lo

tanto, la posibilidad de acceder al código fuente es una condición necesaria para el

software libre.

21

Para que estas libertades sean reales, deben ser irrevocables mientras no se haga

nada incorrecto; si el desarrollador del software tiene el poder de revocar la licencia

aunque no le hayas dado motivos, el software no es libre.

``Software libre'' no significa ``no comercial''. Un programa libre debe estar

disponible para uso, desarrollo y distribución comercial.

2.9 Ventajas de Software Libre para Venezuela

El uso del software libre contrarresta el individualismo que difunde el software

licenciado porque se desarrolla bajo una concepción de cooperación entre un grupo de

personas, cooperativas, instituciones del Estado, organizaciones sociales, etc. Con el

Decreto Nº 3.390 se otorga prioridad a la gestión de Gobierno, mediante el uso de esta

tecnología; e igualmente establece la importancia primordial del uso del software libre

en la Administración Pública frente al software propietario o licenciado.

Por lo tanto, una de las ventajas que proporciona la tecnología abierta es que el

resultado de esa práctica es replicable, porque la libertad permite la redistribución de la

experiencia, en la que participa una comunidad de actores. En este sentido el estado

venezolano, a través del gobierno definió como unas de sus políticas en el manejo de la

información la aplicación del uso de software libre, siendo el Ministerio para el Poder

Popular para el Ambiente (MPPA) consecuente a esta política establece como prioridad

el manejo de la información con el uso de esta herramienta.

2.10 R Project Statistical for Computer

R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la

simplicidad y flexibilidad de R. El hecho que R es un lenguaje de programación puede

desaminar a muchos usuarios que piensan que no tienen “alma de programadores”. Esto

no es necesariamente cierto por dos razones. Primero R es un lenguaje interpretado

(como Java) y no compilado (como C, C++, Fortran, Pascal,. . .), lo cual significa que

los comandos escritos en el teclado son ejecutados directamente sin necesidad de

22

construir ejecutables; además existe una interfaz gráfica (GUI) dentro de los paquetes

llamado Rcmdr.

Orientado a Objetos significa que las variables, datos, funciones, resultados, etc.,

se guardan en la memoria activa del computador en forma de objetos con un nombre

específico. El usuario puede modificar o manipular estos objetos con operadores

(aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos).

R es un conjunto integrado de programas para manipulación de datos, cálculo y

gráficos.

Entre otras características dispone de:

Almacenamiento y manipulación efectiva de datos.

Operadores para cálculo sobre variables indexadas (Arrays), en particular

matrices.

Una amplia, coherente e integrada colección de herramientas para análisis de

datos.

Posibilidades graficas para análisis de datos, que funcionan directamente sobre

pantalla o impresora.

Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye

condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.

(Debe destacarse que muchas de las funciones suministradas con el sistema están

escritas en el lenguaje R).

2.11 Introducción al Análisis Estadístico, Conceptos Básicos.

El análisis estadístico o análisis de datos engloba un conjunto de procedimientos

diseñados para seleccionar datos, describirlos y extraer conclusiones de ellos.

Esta moderna ciencia, la estadística, es el resultado de la confluencia de dos

disciplinas independientes: el cálculo de probabilidades, que nace como aproximación

23

matemática a los juegos de azar y la estadística, o ciencia del Estado, dedicada a llevar

registros ordenados (contar, tabular, clasificar, censar, etc.) de los datos del Estado.

Es común encontrar la estadística dividida en dos partes diferentes: la estadística

descriptiva y la estadística inferencial o inductiva. La estadística descriptiva consta de

una serie de procedimientos diseñados para organizar y resumir la información

contenida en un conjunto (muestra) de datos empíricos; es lo que se corresponde con lo

que se ha llamado como descripción de los datos.

La estadística inferencial o inductiva, por su parte, engloba una serie de

estrategias que permiten generalizar (inferir, inducir) las propiedades de ese conjunto de

datos empíricos (muestra) al conjunto total de datos (población) a los que representan;

se corresponde a la extracción de conclusiones. Por supuesto para efectuar esta

generalización (inferencia) de lo concreto a lo general es imprescindible que el conjunto

de datos utilizados para obtener la información (muestra) sea representativo al conjunto

total de datos (población) sobre el que se desea realizar la inferencia (es decir, es

necesario efectuar una correcta selección de los datos).

Población: una población o universo es un conjunto de elementos (sujetos, objetos,

entidades abstractas, etc.) que poseen una o más características específicas en común.

En general, el término población hace referencia al conjunto total de elementos

que se desea estudiar, de manera que una población queda definida cuando se hace

explícita la característica (o características) que esos elementos comparten.

Dependiendo del número de elementos de que constan, unas poblaciones son

finitas (están formadas por un número finito de elementos) y otras infinitas (están

formadas por un número infinito de elementos).

Muestra: una muestra es un subconjunto de elementos de una población. Con el análisis

se intenta: extraer conclusiones referidas a todos los elementos de la población a partir

24

de la observación de solo unos pocos elementos de esa población. Ahora bien, para que

esto sea posible, es necesario, que la muestra utilizada sea representativa de la

población; esto se consigue mediante la técnica de muestreo.

Parámetro: es un valor numérico que describe una característica de una población.

Estadístico: valor numérico que describe una característica de una muestra.

Censo: se refiere al estudio de las características de toda la población.

Estadística descriptiva e inferencial: una de las divisiones de la estadística viene dada

por la separación entre estadística descriptiva y la estadística inferencial. La estadística

descriptiva comprende la aplicación de técnicas con el fin de estudiar un conjunto de

datos, sin elaborar conclusiones para otros datos. Éste conjunto puede representar una

población o una muestra; en ambos casos se debe seguir un conjunto de pasos para

realizar análisis descriptivos; dichos pasos son los siguientes:

a. Recolección de la información (encuestas, planillas, entrevistas, por teléfono,

correo electrónico, boletines, anuarios, experimentos, observacionales, entre

otros).

b. Ordenación de la información.

b.1 Ascendente y descendente.

b.2 Mediante distribuciones de frecuencia simple.

b.3 Mediante intervalos de clase.

c. Representación gráfica de los datos.

c.1 Gráficos de barras e histogramas.

c.2 Gráficos de tallos y hojas, de cajas (box plot), medias.

c.3 Gráficos de tortas.

d. Cálculo de las medidas de tendencia central.

d.1.Media = x ; X .

d.2 Moda = mx ; mX .

25

d.3 Mediana = 5.0x ; 5.0X .

e. Cálculo de las medidas de dispersión.

e.1 Varianza y desviación estándar = 22 ;S

f. Elaboración de las conclusiones solo para los datos estudiados.

La segunda división de la estadística llamada Estadística Inferencial se refiere al

proceso mediante el cual se elaboran conclusiones para la población en base al estudio

de la muestra; es decir, es el proceso mediante el cual se elaboran conclusiones para los

parámetros en base al estudio de los estadísticos.

La estadística inferencial comprende la estimación de parámetros y la prueba de

hipótesis. La estimación de parámetros puede ser puntual y por intervalos. Los

parámetros más comúnmente evaluados son: media ( ), diferencia de medias ( 21 ),

proporción ( ), diferencia de proporciones ( 21 ).

Estimación de parámetros por intervalos: la estadística inferencial se subdivide en

dos partes: a) Estimación de parámetros (puntual y por intervalos), b) Prueba de

hipótesis.

La estimación de parámetros por intervalos consiste en obtener unos limites

inferior y superior que se espera contengan el verdadero valor del parámetro con una

probabilidad de 1 .

26

ˆ ˆ

ˆ

ˆ

ˆ

ˆ ˆ( ) 1

:

ˆlimite inferior:

ˆlimite superior:

:

ˆ :

: tan

K: multiplicador de confianza(depende del modelo proba

P K K

donde

K

K

parametro

estadistico

desviaciones es dar del estadistico

bilistico usado para la inferencia)

: nivel de significacion

1- : nivel de confianza

Los parámetros más comúnmente estimados son la media, diferencia de medias,

proporción, diferencia de proporciones y varianzas. Cálculo de intervalos de confianza

para la media:

Se necesita conocer dos características de la distribución muestral como son:

La esperanza de la variable (estadístico):

( )E x

La desviación estándar de la variable:

/xs s n

Donde para;

0.95 implica 1.96 (modelo normal)K

2.12 Análisis de Regresión Lineal

El análisis de regresión comprende la aplicación de un conjunto de métodos

estadísticos con el fin de analizar las relaciones entre dos o más variables; se tienen tres

tipos de análisis de regresión lineal:

1) Lineal Simple iii XY 10 .

2) Lineal Múltiple ipipii XXY 1,1110 ... .

27

3) Lineal Multivariante ipipin XXYYY 1,111021 ...,...,, .

2.12.1 Regresión Lineal Simple

iii XY 10 .

Como se puede apreciar en el modelo de regresión lineal simple solo se estudia

la relación entre una variable independiente ( X ) y una variable dependiente (Y ). Las

características de este modelo serán estudiadas a continuación.

El Modelo de Regresión Lineal Simple puede ser definido como:

0 1 1 (1)iY X

Donde:

iY es el valor de la variable respuesta en la i-esima observación.

0 y 1son los parámetros del modelo.

iX es la i-esima observación considerada una constante.

i es el error aleatorio con media 0iE y varianza

2 2; y i i j

Son no correlacionados, por lo tanto su covarianza es cero

i j( , , =0 para todo i, j; i j) ejemplo

Nota: El modelo de regresión (1) es llamado simple, lineal en los parámetros y lineal en

la variable independiente X. Simple porque solo tiene una variable independiente, lineal

en los parámetros porque ningún parámetro aparece elevado a una potencia o

multiplicado o dividido por otro parámetro, y lineal en la variable independiente porque

esta solo aparece elevada a la potencia uno. Un modelo como este es llamado modelo

de primer orden.

Aspectos importantes de este modelo:

1. La respuesta Y en la i-ésima observación es la suma de dos componentes: 1) el

termino constante 0 1+ iX

y 2) el termino aleatorio i . Por lo tanto Yi es una

variable aleatoria.

28

2. Dado que 0iE , entonces se tiene que:

0 1 0 1 0 1i i i i iE Y E X X E X

Deduciéndose que para el modelo de regresión:

0 1E Y X .

3. La respuesta de Yi en la i-esima observación cuando cae fuera de la ecuación de

regresión es medida por la cantidad i .

4. Se asume que el error tiene varianza constante 2 . Por lo tanto se deduce que la

variable independiente iY

tiene la misma varianza 2 2iY , ya que

2 2 20 1 i iX , de manera que el modelo (1) asume que la

distribución probabilística de Y tiene la misma varianza, independientemente del

nivel de la variable dependiente X.

5. Los errores se asumen que no están correlacionados, lo que supone que cualquier

respuesta en Yi no tiene efecto en otra respuesta Yj.

6. En resumen, el modelo de regresión (1), implica que la respuesta Yi tiene una

función de probabilidad con media 0 1i iE Y X

y varianza 2 , igual para

cualquier nivel de X. Adicionalmente dos respuestas y i jY Y son

incorrelacionadas.

2.12.1.1 Propiedades de los Estimadores Mínimos Cuadrados

El teorema de Gauss-Markov establece que:

“bajo las condiciones del modelo de regresión (1), los estimadores

mínimos cuadrados 0 1 y b b

son insesgados y tiene la varianza

mínima entre todos los estimadores lineales insesgados”.

Este teorema establece que 0 1 y b b son insesgados, por lo tanto:

0 0 1 1 y E b E b ,

29

Lo que quiere decir, primero que ninguno de estos estimadores tiende a

subestimar o sobrestimar sistemáticamente 0 1 y . En segundo lugar estos estimadores

son los más precisos, porque que tienen la mínima varianza.

2.12.1.2 Estimación de la varianza para el término error en la regresión

La varianza del error en el modelo (1) necesita ser estimada para así tener una

medida de la variabilidad de la distribución probabilística de Y. También es necesario

conocer la varianza del error para poder hacer inferencias con respecto a la ecuación de

regresión y para predecir los valores de Y.

Varianza para una población con una sola variable. En este caso la varianza

poblacional 2 es estimada por la varianza muestral 2s y esta viene dada por la

ecuación:

Esta varianza es una estimación insesgada de 2 . La varianza muestral es

llamada cuadrado medio, porque la suma de cuadrados ha sido dividida por el número

apropiado de grados de libertad.

2.12.1.3 Varianza del modelo de regresión

La lógica para desarrollar un estimador de 2 para el modelo de regresión es la

misma utilizada para una población con una variable. Ahora la desviación de cada

observación de Yi debe ser calculada alrededor de su propia media estimada iY . Se

desprende que las desviaciones son los residuales:

ˆi i iY Y e

y la suma de cuadrados apropiada es:

2

2 1

( )

1

n

i ii

Y Ys

n

30

2 2

1 1

ˆ( )n n

i i ii i

SCE Y Y e

La suma de cuadrados del error tiene n-2 grados de libertad, que se han perdido

debido a que ha habido que calcular 0 1 y b b , para poder obtener el estimado iY . De

forma que el Cuadrado Medio de Error (CME) es:

2 2ˆ( )

2 2 2i i iY Y eSCE

CMEn n n

El cuadrado medio del error esun estimador insesgado de 2

Un estimador de la desviación estándar , es simplemente CME

2.12.2 Regresión Lineal Múltiple

ipipii XXY 1,1110 ...

En muchos problemas de regresión intervienen más de una variable de regresión.

Por ejemplo el rendimiento de una reacción química puede depender de la temperatura,

presión, y concentración del catalizador. En este caso se requieren al menos tres

variables de regresión.

El problema general consiste en ajustar el modelo

kk xxxy ...22110 (1)

Se conoce como problema de regresión lineal múltiple. Usualmente, los

parámetros desconocidos i

se denominan coeficientes de regresión. El modelo de la

ecuación (1) describe un hiperplano en el espacio de k dimensiones de las variables de

regresión ix .

El método de mínimos cuadrados de usa para estimar los coeficientes de

regresión en la ecuación (1). Supongamos que kn

observaciones están disponibles.

Sea ijx la j-ésimos observación o nivel de la variable jx . Los datos se acomodan como

en la tabla que se muestra a continuación. El procedimiento para hacer la estimación

2E CME

31

requiere que el componente aleatorio del error tenga 0E y 0V y que las 2 no

estén correlacionadas.

En términos de los datos, este modelo es

j

k

iiji

jkjkjji

x

xxxy

10

22110 ...

(2)

j = 1,2,…, n

Tabla 5. Datos para la regresión lineal múltiple.

y x1 x2 …

xk

y1

y2

.

.

.

yn

x11

x12

.

.

. x1n

x21

x22

.

.

. x2n

…

...

…

xk1

xk2

.

.

. xkn

Al igual que en el caso de la regresión lineal simple, la ordenada en el origen se

define como

kk xxx ...221100

En donde n

j ijj xn

x1

1es el nivel promedio para la i-ésima variable de

regresión. El modelo se transforma en

k

jjiijij xxy

10 j = 1,2,…, n

Y la función de mínimos cuadrados es

n

j

k

iiijii xxyL

1

2

10

Será conveniente definir

32

n

j

n

j

n

jij

ijjijii n

x

xxxS1 1

2

122 j = 1,2,…, k

n

j

n

jsj

n

jrj

sjrj

n

jssjrrjsrrs n

xS

xxxxxxSS1

11

1

sr

n

j

n

jij

n

ji

ijj

n

jjijjiy n

xy

xyxxyS1

11

1

j = 1,2,…,k

Obsérvese que Sii es la suma de cuadrados corregida de la i-ésima variable de

regresión, Srs es la suma corregida de los productos cruzados entre xr y xs y Siy es la

suma corregida de los productos cruzados entre xj e y.

Los estimadores de mínimos cuadrados para k,...,, 10 deben satisfacer

0ˆˆ211ˆ,...,ˆˆ0

1,0

k

uuujuo

n

ji xxy

L

k

0ˆˆ211ˆ,...,ˆˆ

1,0

jij

k

uuujuo

n

ji

j

xxxxyL

k

j = 1,2,…, k

Al simplificar las ecuaciones anteriores y usando la ecuación de suma corregida

entre productos cruzados se obtiene las ecuaciones normales de mínimos cuadrados

iyikkii

n

jj

SSSS

yn

12211

10

ˆ...ˆˆ

ˆ j = 1, 2,…, k

Se puede notar que hay 1kp ecuaciones normales, para cada coeficiente de

regresión desconocido. La solución para las ecuaciones normales serán los estimadores

de mínimos cuadrados kˆ,...,ˆ,ˆ

10 .

33

Es más sencillo resolver ecuaciones matriciales si primero se expresan en

notación matricial de las ecuaciones normales en forma paralela a la deducción de la

ecuación de mínimos cuadrados. El modelo en términos de las observaciones, ecuación

(2), expresado en notación matricial es

XY

donde

ny

y

y

y

.

.

.2

1

knnn

k

k

xxx

xxx

xxx

X

...1

....

....

....

...1

...1

21

22212

12111

k

.

.

.2

1

y

n

.

.

.2

1

En general, “y” es un vector de respuestas (nx1), X es una matriz (nxp) de los

niveles de las variables de regresión,

es un vector de coeficientes de regresión (px1)

y es un vector de errores aleatorios (nx1).

Si se desea determinar un vector de estimadores de mínimos cuadrados ˆ

que

minimice

XXyXyyXXXyyXxL 2

Entonces L se puede expresarse como

XyXyLn

jj

1

2

34

porque yX

es una matriz 11x , o un escalar, y su transpuesta XyyX

es el

mismo escalar. Los estimadores de mínimos cuadrados deben satisfacer la expresión

0ˆ22 XXyXL

lo que implica que

yXXX ˆ (3)

Estas son las ecuaciones normales de mínimos cuadrados. Para resolver las

ecuaciones normales se deben multiplicar ambos miembros de la ecuación (3) por la

inversa XX . Por lo tanto el estimador de mínimos cuadrados es

yXXX 1ˆ

Fácilmente se verifica que la forma matricial de las ecuaciones normales es

idéntica a la forma escalar. Expresando la ecuación (3) en detalle se obtiene que en

general

ky

y

y

n

jj

kkkkk

k

k

S

S

S

y

SSS

SSS

SSS

n

.

.

.

ˆ

.

.

.

ˆ

ˆ

ˆ

...0

.......

....

....

...0

...0

0...00

2

1

1

2

1

0

21

22212

11211

Si se lleva a cabo la multiplicación matricial indicada, se produce la forma

escalar de la ecuaciones normales. En esta forma, fácilmente se verifica que XX es una

matriz simétrica (pxp) y que X’y es un vector columna (px1). Los elementos de la

35

diagonal de XX corresponden a la suma de cuadrados de las columnas de X y los

elementos fuera de la diagonal corresponden a los productos cruzados de las columnas

de X .

Las propiedades estadísticas del estimador de mínimos cuadrados ˆ pueden

investigarse fácilmente. Considerando primero el sesgo

ˆ

ˆ

ˆ

ˆ

11

1

1

E

XXXXXXXEE

XXXXEE

yXXXEE

ya que 0E y 11 XXXX . Por lo tanto, ˆ es un estimados insesgado de .

Las propiedades de variancia de ˆ

se expresan mediante la matriz de

covariancia:

ˆˆˆˆˆ EEECov

que consiste en una matriz simétrica cuyo i-ésimo elemento de la diagonal principal de

la variancia de iˆ , y cuyo ij-ésimo elemento, es la covariancia entre i

ˆ

y jˆ . La matriz

de covariancia de ˆ es:

12ˆ XXCov

2.12.2.1 Pruebas de Hipótesis en la Regresión Lineal Múltiple

Si se desea probar hipótesis que se refieren a los parámetros del modelo de

regresión lineal múltiple; requiere de la suposición adicional de que los errores sean

2,0NID . Una consecuencia directa de esta suposición es que la observaciones yi son

k

i iji xNID1

2,0 .

36

Para probar si la regresión lineal múltiple es significativa se logra de la siguiente

manera

0

0...

1

210

i

k

H

H al menos una i

El rechazo de 0H en esta ecuación implica que al menos una variable en el

modelo contribuye significativamente al ajuste. El procedimiento para probar esta

ecuación es una generalización del procedimiento usado para probar la regresión lineal

simple. La suma total de cuadrados yyS se descompone en la suma de cuadrados de

regresión y el la suma de cuadrados del error.

ERyy SSSSS

y si 0:0 iH es verdadera, 22/ kRSS , donde el número de grados de libertad para

2 es igual al número de variables en el modelo. También se puede mostrar que

21

2/ knESS y que ESS y RSS son independientes. Por lo tanto el procedimiento para

probar 0:0 iH consiste en calcular

E

R

E

Ro MS

MS

knSS

kSSF

1//

y rechazar 0H si 1,0 knFF . Este procedimiento se resume en una tabla de análisis de

variancia como la que se muestra a continuación. Antes se mostrará la formula para

calcular la suma de cuadrados de regresión RSS .

37

k

iiyiyy

k

iiyi

n

j

n

jj

jE

n

j

ky

y

n

jj

kjE

E

n

jjjE

SSSn

y

ySS

S

S

y

ySS

yXyyXyXySS

yySS

111

2

12

1

1

1

102

1

2

ˆˆ

.

.

.ˆ,...,ˆ,ˆ

ˆˆˆ

ˆ

Tabla 6.Tabla ANOVA en el análisis de regresión.

Fuente de

variación

Suma de cuadrados

Grados de

libertad

Media de

cuadrados

0F

Regresión RSS k

RMS ER MSMS /

Error o residuo

ESS 1kn EMS

Total yyS 1n

Así, puesto que REyy SSSSS , se observa que la suma de cuadrados de

regresión es

k

iiyiR SSS

1

ˆ

2.12.2.2 Verificación de supuestos: Análisis de Residuales

Los análisis de los residuales, esto es, las diferencias yy ˆ

entre los valores de

y

y los correspondientes valores predichos, a menudo proporciona información que nos

permite modificar y mejorar un modelo de regresión. Estas modificaciones pueden

38

hacerse por cualquiera de tres razones: (1) el componente determinístico del modelo no

se especificó correctamente. (2) se violan uno o más de los supuestos de

y (3) los

datos empleados para ajustar el modelo contienen uno o más valores fuera de lo común.

Un residual de regresión se define como la diferencia entre un valor observado

de y y el valor predicho correspondiente:

yysidual ˆRe

39

Capítulo 3. Resultados y Análisis

3.1 Desarrollo del Manual R-Commander; acceso, uso y aplicación del mismo.

En esta sección se exponen los resultados obtenidos del análisis efectuado al R-

Commander. Se explica el proceso de instalación y acceso del programa, se describe de

manera detallada los menús que lo integran y el manejo de los datos; para facilitar la

interacción del mismo con futuros usuarios.

3.1.1 El entorno R-Commander

El paquete R es una colección de programas libres diseñada para el análisis

estadístico de datos, que permite desde los análisis descriptivos más sencillos (como

tablas de frecuencias simples) a procedimientos inferenciales más complejos (como el

análisis de varianza o el análisis de componentes principales). R realiza tres funciones

esenciales: (1) leer datos, (2) especificar el tipo de análisis que se quiere realizar con

esos datos y (3) mostrar los resultados obtenidos tras los análisis. La interpretación de

los resultados es tarea del usuario.

R-Commander es una Interfaz Gráfica de Usuario (GUI) creada por John Fox,

éste es un método para facilitar la interacción del usuario con el computador a través de

la utilización de un conjunto de imágenes y objetos pictóricos (iconos, ventanas, entre

otras); permite acceder a muchas capacidades del entorno estadístico R sin que el

usuario tenga que conocer el lenguaje de comandos propio de este entorno. Es

importante resaltar que en R el usuario especifica de manera escrita el comando que se

quiera ejecutar; a diferencia de Rcmdr los comandos internos se ejecutan de manera

visible; haciendo que el usuario disminuya los errores de sintaxis al escribir los mismos.

Esta es una de las características que hacen del GUI particularmente atractivo para el

uso introductorio, ocasional e incluso de manera cotidiana. Al iniciar R-Commander, se

presentan dos ventanas, mostradas en la Figura 5. y la Figura 6. a continuación:

40

Figura 5. Ventana de Consola de R

Figura 6. Ventana del entorno de R-Commander.

41

La figura 5., corresponde a la ventana consola de R. Aquí se ejecutan comandos

de R, para lo cual es necesario conocer el lenguaje R y su sintaxis. La figura 6.,

corresponde a la ventana del entorno de R-Commander, que evita precisamente tener

que usar dicho lenguaje de comandos, al menos para las tareas que se encuentran

implementadas dentro de dicho entorno.

No obstante, R-Commander no pretende ocultar el lenguaje R. Observando la

ventana de R-Commander, la misma se encuentra dividida en tres subventanas:

Instrucciones, Resultados y Mensajes. Cada vez que, a través de los menús de R-

Commander se acceda a las capacidades de R (gráficos, procedimientos estadísticos,

modelos, etc.), en la ventana instrucciones se muestra el comando R que ejecuta la tarea

que se haya solicitado, y la ventana resultados muestra la salida de dicho comando. De

este modo, aunque el usuario no conozca el lenguaje de comandos de R, simplemente

observando lo que va apareciendo en la ventana instrucciones se irá familiarizando (y

con un poco de interés, también aprendiendo) con dicho lenguaje. El usuario puede

introducir comandos directamente en dicha ventana, y pulsar el botón “Ejecutar” los

comandos serán ejecutados y el resultado se mostrará en la ventana resultados. Las

instrucciones pueden guardarse y volver a ser ejecutado directamente otras veces con

otros conjuntos de datos diferentes, sin que el usuario tenga que desplazarse por todo el

sistema de menús para volver a realizar las mismas tareas.

3.1.2 Instalación de R y del paquete Rcmdr

Microsoft Windows

Requiere tener acceso a Internet:

1. Descargar el fichero ejecutable

http://cran.r-project.org/bin/windows/base/R-2.4.0-win32.exe

2. Ejecutar el programa R, ya instalado.

3. En el menú Packages, seleccionar Set CRAN mirror.

4. En el cuadro de dialogo, escoger el país de su preferencia y pulsar OK.

5. En el menú Packages, seleccionar Install package(s)

http://cran.r-project.org/bin/windows/base/R-2.4.0-win32.exe

42

6. Escoger Rcmdr y aceptar.

También en Internet puede ser copiado el paquete Rcmdr y guardado en

cualquier medio de almacenamiento (CD, Pen-Drive, diskets, otros) de su preferencia;

luego al abrir la consola de R se deben ejecutar los siguientes comandos:

Packages -> Install package(s) -> from local zip file

En la ventana mostrada se debe ubicar el archivo (Rcmdr) guardado; y de esta

manera ya estará cargado dicho paquete en R.

El acceso a las funciones implementadas en R-Commander es muy simple y se

realiza utilizando el ratón para seleccionar, dentro del menú situado en la primera línea

de la ventana, la opción a la que se quiera acceder.

3.1.3 Acceso del Rcmdr

Existen dos maneras de cargar R-Commander en la ventana consola de R:

a. Acceder mediante la escritura del siguiente comando en la ventana consola de R.

> library("Rcmdr") ; seguidamente de un enter se tendrá acceso a R-commander.

b. Buscar en los paquetes de R el Rcmdr; que previamente debe ser cargado (ver

instalación de R y del paquete Rcmdr) y pulsar OK.

44

Barra de menús

Fichero: para abrir los archivos con instrucciones a ejecutar, o para guardar datos,

resultados, sintaxis, etc.

Editar: las típicas opciones para cortar, pegar, borrar, etc.

45

Datos: menú para manipular de datos (creación de datos, importación desde otros

programas, etc.).

Estadísticos: ejecutar métodos estadísticos.

Gráficos: menú para crear gráficos estadísticos; este se activa una vez cargados los

datos.

46

Modelos: definición y uso de modelos específicos para el análisis de datos. Este menú

de modelos contiene las siguientes opciones: seleccionar el modelo activo, resumir el

modelo, añadir las estadísticas de las observaciones a los datos, intervalos de

confianza, prueba de la hipótesis, diagnósticos numéricos y gráficas. Estas ultimas tres

opciones tienen una serie de opciones mostradas al ser activadas. Es importante tener en

cuenta que para esta opción presentada se debe tener activo un modelo.

Distribuciones: probabilidades, cuantiles y gráficos de las distribuciones de

probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.).

47

Herramientas: permite cargar librerías y definición del entorno.

Ayuda: información sobre R-Commander (en inglés).

Barra de elementos activos

Consta de:

Datos: nombre del conjunto de datos activo, es decir, el que se toma por omisión en el

momento de ejecutar una orden. El botón extremo izquierdo muestra el nombre del dato

activo. Inicialmente <No hay datos activos>. Si el usuario presiona este botón, podrá

elegir entre los datos actualmente en memoria (si existe más de una base de datos). La

mayoría de los menús y de los diálogos en Rcmdr se refieren a los datos activos.

48

Editar datos: hace aparecer una cuadricula donde es posible modificar el contenido del

conjunto actual de datos.

Visualizar datos: muestra el contenido del conjunto actual de datos.

Modelo: para un mismo conjunto de datos se pueden crear diferentes modelos de

análisis (de regresión lineal, de componentes principales...). El botón extremo derecho

indica el nombre del modelo lineal estadístico activo, inicialmente <No hay modelo

activo>; también pueden estar activos cada uno de los modelos aplicados a la base de

datos.

Inmediatamente debajo del menú está la ventana de instrucciones; los comandos

generados por el GUI se copian automáticamente en esta ventana, el usuario puede

corregir el texto en la ventana de instrucciones o escribir sus propios comandos en la

misma ventana; seguidamente seleccionar lo escrito y presionar el botón que está a la

derecha debajo de dicha ventana; llamado “Ejecutar”; o si lo prefiere oprimir

simultáneamente las teclas Ctrl.-r.

Debajo de la ventana de instrucciones existe una ventana de resultados para la

salida. Los comandos ejecutados aparecen repetidos resaltados con el color rojo y la

salida en azul marino (como en la consola de R).

Al final de la ventana de Rcmdr se encuentra una pequeña ventana gris de texto

para los mensajes. Los mensajes de errores aparecerán en la misma en texto de color

rojo, las advertencias en texto de color verde y los demás mensajes en azul marino.

4.1.4 Manejo de datos

Rcmdr asume que hay datos activos, estos se encuentran en la memoria de R, el

usuario puede elegir entre ellos, pero solamente uno de ellos estará activo. Cuando se

49

inicia una sesión en Rcmdr, no hay datos activos. Rcmdr proporciona varias maneras de

conseguir los datos:

El usuario puede introducir los datos directamente con los comandos Datos >

Nuevos datos… esta es una opción razonable para un número pequeño de datos.

El usuario podrá importar datos desde un archivo de texto existente o desde

paquetes estadísticos tales como: SPSS, Stata, Minitab, así como importarlos

desde Excel u otra hoja de cálculos; también existe la opción de leer datos desde

paquetes adjuntos.

El usuario puede leer datos que se encuentren dentro de R, escribiendo el nombre

de los datos o seleccionando los datos en una ventana de diálogo.

Los siguientes comandos se realizan a través del menú Datos, cuyas opciones se

mostrarán a continuación:

Nuevos datos: para introducir nuevos datos por el teclado. Requiere dar un nombre a los

datos nuevos, que no puede contener espacios ni caracteres especiales.

Importar datos: permite leer datos contenidos en un archivo. Soporta varios formatos:

texto, SPSS, Minitab, Excel, entre otros.

Datos en paquetes R: contiene una colección de datos de ejemplo, previniendo si el

usuario quiere hacer uso del programa pero no dispone de datos.

Datos activos: aquí se manipula el conjunto de datos activo.

Seleccionar los datos activos: elegir el conjunto de datos activo entre los

que hay disponibles en ese momento en la sesión.

Ayuda sobre los datos activos (si es posible): algunos conjuntos de

datos (como los de ejemplo) contienen una descripción.

50

Variable de los datos activos: lista los nombres de las variables del

conjunto de datos.

Establecer nombre de casos: a veces una variable no es tal, sino que

contiene los nombres de los casos. Esta opción permite indicárselo a R.

Filtrar los datos activos: si se quiere que los análisis subsiguientes se

realicen sobre un subconjunto de los casos, aquí podemos indicar una

expresión de filtro. El filtro construye un nuevo conjunto de datos, cuyo

nombre conviene indicar; en caso contrario, la selección se hace

permanente (se eliminan los casos que no pasan el filtro).

Eliminar los casos sin datos: en algunas variables, puede que se

desconozca el valor para cierto caso: se trata de un dato ausente

(missing). Esta opción elimina los casos con algún dato ausente.

Exportar los datos activos: para guardar una tabla con el conjunto de

datos activo en un archivo de texto.

Modificar variables de los datos activos: para realizar trasformaciones en los datos.

Recode variables: crea una nueva variable a partir de una ya existente.

Sirve para agrupar datos cuantitativos en intervalos.

Calcular una nueva variable: crea una nueva variable a partir de una

formula, la cual puede involucrar al resto de las variables.

Add observations numbers to data set: agrega columnas de datos

observacionales a los datos existentes.

Tipificar variables: para tipificar variables cuantitativas.

Convert numeric variable to factor: indica al programa que los

números no representan cantidades, sino caracteres.

Segmentar variable numérica: simplifica la agrupación de datos

cuantitativos en intervalos, aunque por ello es menos flexible que Recode

variables.

Renombrar variables: cambia el nombre de la variable.

Eliminar variables de los datos: elimina la variable.

51

Obtención de datos: podemos introducir datos directamente, leerlos de un archivo ya

existente, o bien utilizar datos que R trae de ejemplo.

Creación de un conjunto de datos nuevo: esta opción es conveniente cuando el

conjunto de datos es pequeño. Para conjuntos de datos mayores, es mas cómodo crear un

archivo de datos por otros medios (por ejemplo, desde una hoja de cálculo o una base de

datos) y luego importarlos.

Lo primero que hay que tener en cuenta y no olvidar es que los conjuntos de

datos (data set, data frame) están organizados de forma matricial, donde las filas se

refieren a los casos (individuos, unidades u observaciones) de la muestra y las columnas

a las variables.

Para introducir nuevos datos se debe escoger a la opción Nuevos datos del menú

Datos. Se debe introducir entonces el nombre para el conjunto de datos.

52

Para introducir los datos simplemente se coloca el cursor en la celda

correspondiente a cada individuo y variable. Para moverse de una celda a otra se puede

utilizar el ratón, o las teclas del cursor y retorno para el desplazamiento vertical, o las

teclas del cursor y tabulador para el desplazamiento horizontal.

Al introducir los datos, se observa que R da por omisión nombre a las variables

(var1, var2,...) y define sus características. En principio, una variable puede ser

numérica (numeric) o de caracteres (character). Si se desea cambiar el nombre o definir

el tipo de variable hay que pulsar en la cabecera de la columna correspondiente.

Son factores las variables caracteres, sirven para representar variables

cualitativas, es decir, aquellas cuyos valores toman un número finito de modalidades.

53

Luego de renombrar las variables la ventana del editor se mostrará de la siguiente

manera:

En la ventana de Rcmdr deberán aparecer los datos escritos de manera activa,

mostrándose así:

Importar datos de un archivo externo

El archivo externo puede contener datos en formato de texto puro (ASCII) o en

alguno de los formatos binarios soportados. En ambos casos ha de recurrirse al menú

Datos / Importar datos.

Los archivos de texto (columnas de números) representan la forma más universal

para intercambio de datos. Para importar datos de texto se elegirá la opción desde un

archivo de texto, que abriría el cuadro de dialogo Leer datos de archivo de texto.

54

Es necesario indicar:

Introducir nombre de los datos: para el conjunto construido a partir de los datos del

archivo.

Nombres de las variables en el fichero: si el archivo contiene los nombres de las

variables en la primera fila.

Indicador de datos ausentes: como se indica si un campo no contiene valores, esto es,

que se considera un valor ausente. Por omisión, el indicador es NA (not available, no

disponible). Puede dejarse así a menudo, pues si un campo de una variable numérica

está vacío, también se considera ausente.

Separador de campos: indique el carácter que separa los campos, bien espacio en

blanco, comas, tabuladores, o cualquier otro carácter que se puede especificar.

Carácter decimal: si se utiliza punto o coma para separar los decimales de la parte

entera.

55

En el caso de archivos binarios, se pueden abrir archivos guardados desde otros

programas estadísticos, como SPSS y Minitab. Así, para abrir un archivo SPSS elegimos

desde datos SPSS en el menú Datos / Importar datos.

R incluye en su distribución una colección importante de datos de todo tipo. Para

ver una descripción breve de los datos disponibles, elija la opción Listar datos en

paquetes del menú Datos en paquetes.

Si alguno resulta de interés, escoja, en el mismo menú, la opción Leer datos de

paquete adjunto. Indique el paquete y el conjunto de datos buscado, que se convertirá en

el conjunto de datos activo. Dentro de esta opción datos en paquetes podemos leer datos

desde paquete adjunto.

56

Se mostrará una ventana de leer datos desde paquetes; donde se ha seleccionado

los datos prestige, del paquete activo de car; si el usuario sabe el nombre de los datos a

seleccionar entonces solo debe escribirlo en el campo mostrado; sino solo debe

presionar doble clic sobre los datos y este automáticamente aparecerá escrito en el

campo correspondiente.

Luego, de presionar correcto, los datos estarán cargados en Rcmdr.

57

Estos datos pueden ser visualizados y se mostrarán de la siguiente manera:

58

3.2 Identificación de las variables del sector forestal publicadas en los Anuarios

Estadísticos Forestales del país.

En esta sección se identifican las variables que integran cada uno de los

Módulos existentes en el Sistema Nacional de Información Estadística Forestal

(SNIEF).

Figura 7. Sistema Nacional de Información Estadística Forestales (SNIEF). Módulos

existentes para las Industrias Forestales en Venezuela.

3.2.1 Variables identificadas en los módulos existentes

La revisión de este módulo permitió identificar el conjunto de variables que se

capturan en estas planillas (ver Apéndice 1).

En la Tabla 7. se identifican en primera instancia las variables comunes para los

módulos existentes; descritas por los bloques: 1. Identificación y Fechas, 2. Datos de

carácter Administrativo.

SNIEF

MODULOS EXISTENTES INDUSTRIAS FORESTALES

- Industria de Aserrío - Industria de Carpintería - Industria de Contrachapado - Industria de Aglomerado -

Industria de Carbón Vegetal

59

Tabla 7. Resumen de las Variables identificadas de los bloques 1 y 2 de todas las planillas.

Bloque Título del Bloque Variables Fundamentales 01 Identificación y fechas Año

Mes

DEA: Dirección Estadal Ambiental.

Estado

02 Datos de carácter Administrativo Nro. Empleados

Total Sueldos

Nro. Obreros

Total salario ultima semana

Capacidad instalado (M3/Año, M2/Año,

Kg/Año).

Capacidad utilizada (M3/Año, M2/Año,

Kg/Año)

Industria de Aserrio

En la Tabla 8. se muestran el conjunto de variables identificadas de la

Industria de Aserrio, de estas se identifican 9 variables asociadas al área forestal,

que son:

1. Estado (Procedencia Madera en Rola)

2. Número de Rolas

3. Volumen Madera en Rola

4. Especies

5. Precio Madera en Rola

6. Estado (Destino Madera Aserrada)

7. Volumen Madera Aserrada

8. Especie de Madera Aserrada

9. Precio Madera Aserrada

(Tabla, Tablones, Listones, Cuartones y Forros).

60

Tabla 8. Resumen de las variables. Planilla Industria Aserrio.

Bloque Título del Bloque Variables 03 Procedencia Madera en Rola Estado

Número de Rolas Volumen Madera en Rola

04 Destino de la Madera Aserrada Vendida País Estado Ciudad Volumen Madera Aserrada

05 Movimiento mensual de la Madera en Rola

Existencia mes anterior

Entradas Mes

Salidas del mes a) Procesada b) Vendida

Saldo

Especies Número de Rolas Volumen mensual Madera en Rola

06 Movimiento mensual de Madera Aserrada

Mes Anterior

Producción del mes

Salida del mes

Saldo

Especies Volumen Mensual madera Aserrada

07 Precio de venta de la Madera Aserrada Especies Precio de madera Aserrada:

Tablas

Tablones

Listones

Cuartones

Forros Precio de Madera en Rola

Industria de Machihembradora, Carpintería, Mueblería, Depósitos y

Afines.


Industria de Machihembradora, Carpintería, Mueblería, Depósitos y Afines, de estas

se identifican 12 variables asociadas al área forestal, que son:

61

1. Estado (Procedencia de Madera Aserrada)

2. Empresa de la Procedencia de la Madera en Aserrada

3. Ciudad (Procedencia de la Madera).

4. Tipo de Producto ( descripción del producto)

5. Cantidades del Producto (m2, m3, Kg., unidades)

6. Estado ( destino del producto )

7. Ciudad (destino del producto)

8. Empresa ( destino del producto)

9. Especies usada en la producción

10. Tipo de producto ( descripción del producto)

11. Cantidad de producto

12. Precio promedio venta del producto

Tabla 9. Resumen de las variables. Planilla machihembradora, carpintería, mueblería, Depósitos y Afines.

Bloque Título del Bloque Variables 03 Procedencia de la Madera Aserrada Empresa

Estado 04 Destino / Comercialización Estado

Ciudad Empresa Cantidad (m2, m3, Kg., unidades)

05 Movimiento mensual de la madera y producto


Entrada mes actual

Salida mes actual

Saldo

Especies Cantidad (m2, m3, Kg., unidades) Precio promedio venta

62

Industria Tableros Contrachapados


Industria de Tableros Contrachapados, de estas se identifican 18 variables asociadas

al área forestal, que son:

1. País

2. Estado

3. Ciudad


5. Volumen Tableros movilizados

6. Especies

7. Número de rolas


9. Precio de compra Rolas

10. Volumen Contrachapados (producidos)

11. Volumen panelforte (producidos)

12. Especie usadas en la producción

13. Cantidades vendidas Contrachapado

14. Precio de venta Contrachapado

15. Espesores de Contrachapados Vendidos

16. Cantidades vendidas Panelforte

17. Precio de Venta Panelforte

18. Espesores de Panelforte vendidas

63

Tabla 10. Resumen de las variables. Planilla Industria Tableros Contrachapados.

Bloque Título del Bloque Variables 03 Procedencia de la Madera en Rola País

Estado Ciudad Volumen

04 Destino del producto manufacturado País Estado Ciudad Volumen

05 Movimiento mensual de la madera en Rola

Existencia

Entradas mes

Procesadas

Vendidas

Saldo

Especie Número de Rolas Volumen Precio de Compra Rolas

06 Producción a Nivel de Prensa Especie Volumen Contrachapados (4mm/8mm) Volumen Panelforte

07 Venta del producto Especie Contrachapados

Espesor

Precio unitario

Cantidad (m2) Panelforte

Espesor

Precio unitario

Cantidad (m2) 08 Cantidad del producto acabado

(Producción del mes) Contrachapado Panelforte Tripa Compuesto

64

Industria Tableros y Aglomerados


Industria de Tableros y Aglomerados, de estas se identifican 16 variables asociadas

al área forestal, que son:

1. Especie

2. Número de Rolas

3. Volumen

4. Cantidad de Tableros Particulares

5. Cantidad de Tableros Mixtos

6. Cantidad Aglomerados

7. Producción mensual en Prensa de Aglomerados.

8. Producción mensual de Prensa en Mixtos

9. Destino Mercado Nacional en Aglomerados

10. Destino Exportación Aglomerados

11. Destino Mercado Nacional Mixtos

12. Destino Exportación Mixtos

13. Cantidades vendidas Aglomerados

14. Precio unitario del Aglomerado

15. Cantidades vendidas Mixtos

16. Precio unitario de los Mixtos

65

Tabla 11. Resumen de las variables. Planilla Industria Tableros y Aglomerados.

Bloque Título del Bloque Variables 03 Movimiento de

Madera en Rola

Mes anterior

Mes actual

Procesadas

Vendidas

Sueldo

Especie Procedencia Número de Rolas Volumen

04 Dimensiones de las Partículas Cara Alma

05 Cantidad de Producto acabado (m3/mes)

Tablero de partículas Tablero mixtos Aglomerados

06 Producción mensual en Prensa (m2) Especie Aglomerados Mixto

07 Medidas del Producto acabado Aglomerados

Ancho (m)

Largo (m)

Espesor (mm) 08 Destino de la Producción Especie

Aglomerados

Mercado Nacional

Export Mixtas

Mercado Nacional

Export 09 Ventas del producto Especie

Aglomerados

Espesor (mm)

Valor unitario (Bs./m2)

Cantidad (m2, Bs.) Mixtos

Espesor (mm)

Valor unitario (Bs./m2)

Cantidad (m2, Bs.)

66

Industria del Carbón Vegetal


Industria de Tableros y Aglomerados, de estas se identifican 9 variables asociadas al

área forestal, que son:

1. País

2. Estado

3. Procedencia

4. Especie

5. Volumen – Cantidad (Kg. / TM)

6. Rendimiento

7. Especie usada en la Producción

8. Cantidad del Producto

9. Cantidad de materia prima en la Empresa

Tabla 12. Resumen de las variables. Planilla Industria Carbón Vegetal.

Bloque Título del Bloque Variables 04 Procedencia de la materia prima País

Estado Reserva Forestal Terreno Baldío Fundo particular Terreno INTI Terreno CVG Espécie Volumen Rendimiento

05 Movimiento mensual de la materia prima


Entrada mes actual

Salidas del mes Procesada Vendida

Saldo

Especie Cantidad de la materia prima(Kg./ TM) Cantidad del producto:

Existencia

Producción

Salida

Destino

Saldo

67

Del total de planillas analizadas de los módulos existentes para la recolección de

la información forestal son mostradas en la Tabla 13. resumiendo el total de variables

asociadas al sector forestal en un conjunto de 65 variables en su totalidad y se muestra el

número de variables existentes por cada una de las Industrias Forestales.

Tabla 13. Resumen de las variables en los Módulos existentes.

Módulos Existentes Variables Totales

Variables Asociadas al Sector Forestal

1. Industria de Aserrío 35 9 2. Industria Machimbradora,

Carpintería, Mueblería, Depósitos y Afines.

20 12

3. Industria Contrachapado 22 17 4. Industria Tableros y Aglomerados 41 18 5. Industria Carbón Vegetal 17 9

Total actual 135 65

3.3 Aplicación Estadística usando R project (R-Commander); a las variables del

sector forestal.

En esta sección, se utiliza la información de las variables asociadas al sector

forestal existentes en la base de datos original del SNIEF del Ministerio del Poder

Popular para el Ambiente. Las variables analizadas y utilizadas para aplicar los métodos

estadísticos se pueden clasificar en dos categorías: cuantitativas (salario, días efectivos

al mes, volumen de madera procesada en m3, etc.) y cualitativas (meses, especie, estado,

etc.). Los métodos aplicados a las variables cuantitativas comprenden: cálculo de las

estadísticas descriptivas, estimación de parámetros por intervalos, prueba de hipótesis

para una media y diferencia de medias, análisis de regresión lineal simple y múltiple.

Por lo tanto, se seleccionaron variables representativas para realizar los análisis

mencionados, los cuales pueden ser aplicados para el resto de las variables asociadas al

sector forestal.

Los comandos de R para los diferentes métodos estadísticos aplicados a las

diferentes variables asociadas al sector forestal pueden ser vistos en el Apéndice 2.

68

3.3.1. Estadísticas descriptivas

En esta sección se aplican los pasos necesarios para realizar estadísticas

descriptivas utilizando R-Commander.

Para esta aplicación se tienen los datos de Industria de Aserrio para el año 2.003;

los mismos provienen de las bases de datos del Sistema Nacional de Información de

Estadísticas Forestales (SNIEF). Las variables a ser analizadas: mes de suministro de la

información (1,2,…,12), número de obreros promedio por Industria, Salario devengado

la ultima semana del mes.

Nota: En esta versión se encontrarán comandos tanto en español como en inglés.

Pasos:

1) Cargar los datos

Comandos:

Datos -> Importar datos -> from text file or clipboard

69

2) Al aparecer la ventana Datos del archivo de Texto (Read Data From Text File or

Clipboard), se deben completar cada uno de los campos y opciones presentadas,

especificando el formato de cómo estén guardados los datos; para este caso el

nombre del archivo en Rcmdr es: ASE01

Después de presionar Correcto aparecerá la ventana donde se debe ubicar el

archivo a importar (ASE01.csv); previamente guardado en Excel con extensión .cvs.

Una vez cargados los datos en Rcmdr aparecerá en pantalla el comando interno

utilizado por el mismo y un mensaje en la parte inferior indicando el nombre de los

datos importados y el número de filas – columnas. Así mismo, en el menú principal al

Visualizar los datos aparecerá el archivo con los datos como se muestra a continuación

(los mismos, luego de ser visualizados se deben de cerrar para continuar trabajando con

Rcmdr).

70

3) Cálculo de las Estadísticas Descriptivas.

Para obtener los estadísticos Mínimo, primer cuartil, mediana, media, tercer

cuartil y valor máximo para cada una de las variables en la base de datos, se deben

activar los comandos:

Estadísticos -> Resúmenes -> Datos activos

71

La salida se mostrará en la ventana de resultados

Figura 8. Resúmenes estadísticos. Datos ASE01

Para complementar esta salida se ejecutan los siguientes comandos.

Estadísticos -> Resúmenes -> Resúmenes numéricos

72

Al ejecutar los comandos anteriores aparecerá la ventana de Resúmenes

numéricos en donde se debe seleccionar la(s) variable(s) objeto de estudio. En este

caso se seleccionan: número de obreros: NRO_OBRE, salario devengado la ultima

semana del mes: SAL_SEM, seguidamente presionar Correcto.

Figura 9.Resúmenes Numéricos Estadísticos. Datos ASE01

73

Interpretación de resultados

Interpretando las dos salidas y analizando la variable número de obreros

promedio por Industria de Aserrio (NRO_OBRE); se tiene que el número mínimo de

obreros por Industria es 1 y el máximo 41, con una mediana de 9. El número promedio

de obreros por industria es de 11.09 con una desviación estándar de 7.6368; para un

tamaño de muestra de 803 datos; ésta información corresponde al año 2.003. Un análisis

similar puede ser hecho para las demás variables.

Supóngase que se desea obtener estos mismos estadísticos para cada una de las

variables analizadas, pero discriminadas por el mes. Los pasos a seguir para lograr este

resultado implican:

1) Convertir la variable mes en un factor

Comandos:

Datos -> Modificar variables… -> Convert numeric variables…

74

En esta ventana se debe seleccionar la variable a convertir en factor (MESES); si

se desea modificar el nombre de la misma y crear una nueva variable esta deberá ser

escrita en Nuevo nombre de la variable o prefijo para variables múltiples (New

variable name or prefix for multiple variables) (MESESF); seguidamente presionando

Correcto. Una vez convertida la variable en factor se procederá a realizar la Estadística

descriptiva clasificada por grupos para los datos.

Comandos:

Estadísticos -> Resúmenes -> Resúmenes Numéricos

Al aparecer la ventana de Resúmenes numéricos se seleccionarán las variables

objeto de estudio (NRO_OBRE, SAL_SEM).

75

Se debe seleccionar el comando Resumir por grupos… y seleccionar MESESF

(variable convertida a factor); seguidamente presionando Correcto en ambas ventanas.

Los resultados se muestran en R Commander de la siguiente manera:

Un resumen de los resultados anteriores se muestra en la tabla siguiente:

76

Tabla 14.Resúmenes estadísticos por grupo de los datos ASE01

NRO_OBRE SAL_SEM

MESES mean sd mean sd

1 9.948.276 7.937.082 51993.41 18654.38

2 10.707.692 7.447.154 51934.77 18994.57

3 10.657.143 7.162.474 50612.84 12981.07

4 11.014.493 8.101.367 53690.38 15753.90

5 10.971.014 7.762.980 53994.61 15176.25

6 10.605.634 7.626.043 55046.99 18895.13

7 10.493.333 8.042.746 54971.16 16301.36

8 11.814.286 7.684.528 58676.23 19206.58

9 11.460.317 7.768.475 56357.29 15740.80

10 11.424.242 7.569.291 62909.52 20226.24

11 11.718.750 7.828.456 61844.80 20230.32

12 11.301.587 7.019.868 67300.00 22604.82

Donde: MESES: mes de suministro de la información

NRO_OBRE: número de obreros en la Industria Aserrío

SAL_SEM: salario devengado semanal

Algunas opciones gráficas de R Commander:

a. Histogramas

b. Gráficas de tallos y hojas (steam and leaf).

c. Diagrama de caja (box plot).

d. Gráficas de las medias.

a. Histogramas

La variable a la cual se le va a realizar el histograma es NRO_OBRE. Este

gráfico al igual que el de tallos y hojas proporciona información acerca de la

distribución de la(s) variable(s) estudiada(s); es decir, si los datos se distribuyen

normalmente si existe algún grado de asimetría positiva o negativa.

Comandos:

77

Gráficas -> Histogramas…

Se debe seleccionar la variable NRO_OBRE, seguidamente presionar Correcto.

78

b. Gráficas de tallos y hojas (steam and leaf).

Comandos:

Gráficas -> gráficas de tallos y hojas…

79

Seleccionar la variable NRO_OBRE, presionar Correcto.

80

c. Diagrama de caja (box plot).

Comandos:

Gráficas -> Diagrama de caja…

Seleccionar la variable NRO_OBRE, presionar Correcto.

81

d. Gráficas de las medias.

El siguiente gráfico se realiza con los datos desagregados, en este caso

discriminados por mes.

Comandos:

Gráficas -> Gráficas de las medias…

82

Seleccionar la variable respuesta NRO_OBRE, presionar Correcto.

83

3.3.2 Estimación de parámetros por intervalos

Para calcular los intervalos de confianza de los salario promedio semanal

(SAL_SEM) de la base de datos ASE01. se deben de seguir los siguientes pasos:

1. Cargar la base de datos ASE01 (ver introducción al R- Commander)

2. Como se quiere calcular el intervalo de confianza para la variable

SAL_SEM de la base de datos ASE01, se debe escribir en la ventana de

instrucciones el siguiente comando:

t.test(ASE01$SAL_SEM)

donde:

t.test: comando para calcular intervalos de confianza (95%).

ASE01: datos activos

SAL_SEM: variable escogida para calcular los intervalos de

confianza.

Una vez escrito el comando, se debe seleccionar “Ejecutar”, seguidamente en

la ventana de resultados se mostrará la salida deseada.

84

Figura 10. Resultados de intervalos de confianza. Datos: ASE01

Interpretación

Se espera que el verdadero valor promedio de los salarios semanales se

encuentre en el intervalo [55259.47; 57825.34], con un nivel de confianza del 95%.

3.3.3 Prueba de hipótesis para una media.

En esta sección se mostrará como formular una prueba de hipótesis utilizando

diferentes modelos probabilísticos, como el modelo t de student, normal entre otros.

Los datos utilizados para esta prueba serán ASE01 correspondientes a la

información suministrada por la Industria de Aserrío durante el año 2.003;

específicamente se trabajará con la variable salario devengado en la última semana

(SAL_SEM). Supóngase que el salario mínimo establecido para ese año fue de 250.000

Bs. y se desea determinar si en la Industria de Aserrio cumplió con lo establecido por el

gobierno.

Para realizar este ejercicio se debe calcular el salario devengado mensual

(SAL_MEN); resultante de multiplicar salario devengado ultima semana (SAL_SEM)

por cuatro.

85

Pasos:

1. Calcular nueva variable.

Comandos:

Datos -.> Modificar variable de los datos activos -> Calcular nueva variable...

Se debe escribir el Nombre de la nueva variable (SAL_MEN) y colocar la Expresión a

calcular (SAL_SEM*4).

86

Formulación de las hipótesis.

Es importante resaltar que dependiendo de la hipótesis nula y alternativa

planteada, se define el modelo probabilístico a utilizar para probar la hipótesis nula.

a) Prueba de hipótesis para una media:

0 0 0

1 0 1

H : H : 250000

H : H : 250000

Utilizando R-Commander para probar las hipótesis formuladas, se debe ejecutar

los siguientes comandos:

Estadísticos -> Medias -> Prueba t para una muestra…

87

Figura 11. Resultados para la Prueba de hipótesis para una media Datos: ASE01

Interpretación

Como el valor de p-value es menor de 0.05 se rechaza la hipótesis nula con un

nivel de confianza del 95%; lo que indica que hay evidencia del no cumplimiento del

pago del salario mínimo estipulado.

3.3.4 Prueba de hipótesis para dos medias

Con los datos ASE01 se desea probar si los salarios mensuales promedios del

primer semestre del año 2.003 son iguales a los salarios promedios mensuales del

segundo semestre. Antes de realizar la prueba de hipótesis es necesario crear una nueva

variable que segmente los datos específicamente la variable: MESESF; en los dos

semestres mencionados.

Pasos:

1. Segmentar variable numérica de los datos: ASE01

Comandos:

Datos ->Modificar variable de los datos activos -> Segmentar variable numérica…

88

La Variable a segmentar será MESESF con un Nombre de la nueva variable:

SEMESTRE, se debe seleccionar el Número de segmentos: 2, los Nombres de los

niveles: Número, y el Método de segmentación: Segmentos equidistantes; finalmente

presionar Correcto.

89

2. Prueba de hipótesis para diferencia de medias

Comandos:

Estadísticos -> Medias -> Prueba t para muestras independientes…

Figura 12.Resultado de la prueba de hipótesis para diferencia de medias. Datos: ASE01

90

3.3.5 Regresión Lineal Simple

Con el fin de aplicar el análisis de regresión lineal simple se utilizó los datos de

la Industria de Aserrio correspondientes al año 2.003. Para realizar el análisis de

regresión se seleccionaron aquellas industrias que habían aportado la información

completa referente a los meses de Enero, Marzo, Junio y Octubre (meses = 1, 3, 6,10).

Las variables seleccionadas fueron: Volumen de madera procesada en m3 (Y), número

de empleados (PERAD_NEMP = X1), monto total devengado por el personal

administrativo al mes (PERAD_MMES = X2), número de obreros (PEROB_NOBR =

X3), monto total devengado por los obreros en la ultima semana del mes

(PEROB_MSEM = X4), días efectivos de Aserrio al mes (DIAEFEMES = X5). El

nombre del archivo de datos con las variables anteriormente descritas es ASE03RLS.cvs

(delimitados por coma).

La relación más simple es la de una línea recta xY 10 , donde Y es el

volumen de madera procesada en m3, x el número de obreros, 0

es el intercepto (valor

de Y cuando x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad).

Pasos:

1. Cargar los datos

Comandos:

Datos -> Importar datos -> From text file or clipboard

91

El usuario deberá introducir el Nombre de los datos: ASE03RLS y Seleccionar

otro separador de campos, especificar “ ;” finalmente presionar Correcto. Si se desea

ver los datos cargados solo deberá presionar en el menú principal de Rcmdr Visualizar

datos.

2. Análisis de correlación:

Cálculo del coeficiente de correlación de Pearson ( r ) éste coeficiente mide el

grado de asociación que existe entre dos variables. r

asume valores entre -1 y 1; es un

indicador útil para determinar que puede existir relación entre x y Y .

Comandos:

Estadísticos -> Resúmenes -> Correlation test

Al aparecer la ventana Prueba de Correlación (Correlation test), se debe seleccionar la

variables x: PEROB_NOBR y Y: SAL_PROCM; seguidamente Correcto.

92

Figura 13.Resultados del test de correlación. Datos: ASE03RLS

El coeficiente de correlación r = 0.4718 indicando una correlación positiva, la

prueba de hipótesis aplicada 0:oH y 0:1H , da como resultado un p-value de

01.010*97.9 6 , indicando que se debe rechazar la hipótesis nula y aceptar la

hipótesis alternativa que señala la existencia de una correlación significativa

estadísticamente, entre PEROB_NOBR y SAL_PROCM.

Una forma de observar la asociación entre las variables x y Y es mediante la

graficación de la nube de puntos. Los comandos son:

93

Gráficas -> Diagramas de dispersión

En la ventana presentada (Diagrama de dispersión) el usuario debe seleccionar

la variable “x” (SAL_PROCM) y la variable “y” (PEROB_NOBR); para que solo se

muestre la nube de puntos se deben se desmarcar los identificadores de puntos.

Figura 14.Nube de puntos para SAL_PROCM y PEROB_NOBR .Datos: ASE03RLS

94

3. Determinación de la ecuación de regresión:

Para calcular los coeficientes ( b0 y b1) se debe de aplicar los siguientes

comandos:

Estadísticos -> Ajuste de modelos -> Modelo lineal

En la ventana de Modelo lineal el usuario debe introducir la formula del modelo;

para su facilidad las variables podrán ser seleccionadas con un doble clip para ser

enviada a la formula indicando Y: SAL_PROCM y x: PEROB_NOBR - 1; escogiendo

dentro de la formula del modelo -1; luego presionar Correcto.

95

Figura 15.Resultados del modelo de regresión lineal simple. Datos: ASE03RLS.

La ecuación de regresión según los resultados presentados es la siguiente:

5,9745Y x

con un coeficiente de correlación ajustado de 0,7399 .

4. Análisis de los supuestos del modelo.

Para realizar el análisis de residuales es recomendable agregar a la base de datos

los errores (Residuals, Studenttized residuals) y los Y estimados (Fitted values), los

cuales serán utilizados mas adelante; deben de ejecutarse los siguientes comandos:

Modelos -> Añadir las estadísticas de las observaciones a los datos...

Al mostrar la ventana se debe oprimir correcto.

96

4.1 Supuesto de normalidad

Comandos:

Gráficas -> Gráficas de comparación de cuantiles(QQ)

En la ventana mostrada luego de ejecutar los comandos se debe seleccionar los

errores estudentizados (Studenttized residuals), en la Distribución se debe marcar

Normal; finalmente oprimir Correcto.

97

Figura 16. Gráfica de comparación de cuantiles(QQ). Datos: ASE03RLS

4.2 Supuestos de varianzas homogéneas

Comandos:

Gráficas -> Diagrama de Dispersión

Se deben de seleccionar como variable x: Fitted y como variable Y: rstudent; sin

identificador de puntos.

98

Figura 17. Gráfica de Supuestos de varianzas homogéneas. Datos: ASE03RLS

99

4.3 Para crear una variable “tiempo” en los datos cargados se deben de ejecutar los

siguientes comandos:

Datos -> Modificar variable de los datos activos -> Add observations numbers to data set

Luego, para detectar la independencia de errores se deben de ejecutar los

siguientes comandos:

Gráficas -> Diagrama de Dispersión

Se deben de seleccionar como variable x: ObsNumber y como variable Y:

rstudent.

100

Figura 18.Gráfico para detectar independencia de los errores. Datos:ASE03RLS

4.4 Gráficas básicas de diagnósticos

Comandos:

Modelos -> Gráficas -> Gráficas de básica de diagnósticos

Figura 19.Gráficas básicas de Diagnósticos. Datos: ASE03RLS.

101

4.5 Prueba de Breush – Pagan para heterocedasticidad

Comandos:

Modelos -> Diagnósticos numéricos -> Prueba de Breush – Pagan para heterocedasticidad..

En la ventana de Prueba de Breush-Pagan debe ser seleccionado el estadístico

del contraste: (Studenttized), formula de la varianza: Valores ajustados (Fitted values);

seleccionar la variable para ser enviada a la formula; finalmente presionar Correcto. La

prueba de Breush-Pagan produce la misma salida seleccionando los fitted o

PEROB_NOBR.

Figura 20.Resultados de la Prueba de Breush-Pagan. Datos: ASE03RLS

102

4.6 Prueba de Durbin-Watson para autocorrelación

Comandos:

Modelos -> Diagnósticos numéricos -> Prueba de Durbin-Watson para autocorrelación

En la ventana de Prueba de Durbin-Watson se selecciona la hipótesis

alternativa 0rho ; seguidamente presionar Correcto.

Figura 21.Resultados de la Prueba de Durbin-Watson. Datos: ASE03RLS.

103

3.3.6 Regresión Lineal Múltiple.

Para aplicar análisis de regresión lineal múltiple se utilizó los datos de la

Industria de Aserrio correspondientes al año 2.003, las industrias que habían aportado la

información completa referente a los meses de Enero, Marzo, Junio y Octubre (meses =

1, 3, 6,10). Las variables seleccionadas fueron: Volumen de madera procesada en m3

(SAL_PROCM = Y), número de empleados (PERAD_NEMP = X1), monto total

devengado por el personal administrativo al mes (PERAD_MMES = X2), número de

obreros (PEROB_NOBR = X3), monto total devengado por los obreros en la ultima

semana del mes (PEROB_MSEM = X4), días efectivos de Aserrio al mes

(DIAEFEMES = X5).

El nombre del archivo de datos con las variables anteriormente descritas es

ASE03RLM.cvs (delimitados por coma).

Para este ejercicio el modelo viene expresado por

1 1 2 2 3 3 4 4 5 5i i i i i i iY x x x x x , donde Yi es el volumen de madera procesada

en m3, X1 es el número de empleados (PERAD_NEMP), X2 es el monto total

devengado por el personal administrativo al mes (PERAD_MMES), X3 es el número de

obreros (PEROB_NOBR), X4 es el monto total devengado por los obreros en la ultima

semana del mes (PEROB_MSEM), X5 son los días efectivos de Aserrio al mes

(DIAEFEMES).

Pasos:

1. Cargar los datos

Comandos:

Datos -> Importar datos -> From text file or clipboard

Al seleccionar los comandos anteriores aparecerá la siguiente ventana:

104

El usuario deberá introducir el Nombre de los datos: ASE03RLM y seleccionar

otro Separador de campos, especificar “ ;” finalmente presionar Correcto. Si desea ver

los datos cargados solo deberá presionar en el menú principal de R-Commander

Visualizar Datos.

105

2. Cálculo de los coeficiente de correlación

El usuario deberá activar un modelo si este ya se encuentra dentro de R

Commander o aplicar los siguientes comandos:

Estadísticos -> Ajuste de modelos -> Modelo lineal…

Al activarse esta ventana se debe seleccionar la formula del modelo:

SAL_PROCM ~ DIAEFEMES + PERAD_MMES + PERAD_NEMP +

PEROB_MSEM + PEROB_NOBR – 1; seguidamente oprimir Correcto.

106

Figura 22. Resultados del modelo de regresión lineal múltiple con todas las variables. Datos: ASE03RLM.

Para el cálculo de los coeficientes de correlación, tenemos:

Comandos:

Estadísticos -> Resúmenes -> Matriz de correlaciones…

En la ventana de Matriz de correlaciones el usuario debe seleccionar (presionar

de manera simultáneamente la tecla ctrl y el raton seleccionar las variables); todas las

variables existentes en los datos. Tipo de correlación: Pearson; seguidamente presionar

Correcto.

107

Figura 23.Matriz de Correlación. Datos: ASE03RLM.

3. Aplicación de la regresión paso a paso (Stepwise), con el fin de descartar

variables no relevantes para el modelo.

En la parte introductoria de R Commander se expuso entre una de sus funciones

la opción de conocer un poco más los comandos dentro de R; estos pueden ser escritos

en la ventana de instrucciones de Rcmdr y luego ejecutarlos; esta referencia se hace,

debido a que el análisis de regresión paso a paso no se encuentra de manera directa en el

menú principal del mismo, por lo tanto debe ser ejecutado de la siguiente manera:

Tener activo el modelo de regresión lineal; para este caso es

1 1 2 2 3 3 4 4 5 5i i i i i i iY x x x x x ; explicado en el paso 2.

En la ventana de instrucciones se debe escribir el siguiente comando:

step( nombre del modelo activo)

step(LinearModel.6)

Donde:

step: es el comando utilizado en R para realizar el análisis de regresión paso a

paso.

Nombre del modelo activo: LinearModel.6, para este caso.

108

Una vez escrito el comando se debe mandar a ejecutar; puede ser

seleccionándolo como aparece en la figura anterior o colocar el cursor en la línea de

comando y oprimir Ejecutar.

109

Los resultados serán mostrados en la ventana de resultados:

Figura 24. Resultados de la Regresión paso a paso (Stepwise). Datos: ASE03RLM.

110

De acuerdo a este procedimiento el modelo final seleccionado fue:

5_ 1,91* 1,5*10 _ 3,104* _ 1SAL PROCM DIAEFEMES PERAD MMES PEROB NOBR

4. Cálculo del coeficiente de relación múltiple, coeficiente de determinación y tabla

del ANOVA para el modelo seleccionado en el paso anterior.

Comandos:

Estadísticos -> ajuste de modelos -> Modelo lineal…

Formula del modelo:

SAL_PROCM~DIAEFEMES+PERAD_MMES+ PEROB_NOBR – 1

111

Figura 25. Resultados del modelo de Regresión paso a paso y Resumen de la Tabla ANOVA. Datos: ASE03RLM.

5. Análisis gráfico de los supuestos: Análisis de residuales

5.1 Matriz de diagramas de dispersión

Comandos:

Gráficas -> Matriz de diagramas de dispersión…

Seleccionar todas las variables del modelo; dependiente e independientes. Para

obtener los gráficos de dispersión y la curva del ajuste de mínimos cuadrados para las

variables por pares, junto con el plot de normalidad para cada variable; en la ventana de

Matriz de diagrama de dispersión debe seleccionarse la línea de mínimos cuadrados y

en la diagonal la gráfica QQ normales; seguidamente presionar Correcto.

DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN ...

Documents

Transcript of DISEÑO PARA EL SISTEMA ESTADÍSTICO FORESTAL, BASADO EN ...