Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

75
Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI) Compilado en: junio 2007 Compilado por: Mara Silvia Riestra Lugar: Gral. Hornos, Partido de Gral. Las Heras Buenos Aires - República Argentina Serie: Mejora Continua en la Producción Estadística (MeCoPE) Tema: Clasificaciones MECOPE CLAS Nº 00-1 Ediciones Mimeo de EcoDinamia (EME) Ediciones para compartir pensamientos, ideas y datos EME-MECOPE-CLAS-00-1-1/2007-msr

description

Incluye documentos elaborados durante el desarrollo y prueba del sistema de codificación automática de las variables de actividad, ocupación, unidad geográfica y título universitario-carrera...

Transcript of Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

Page 1: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Compilado en: junio 2007 Compilado por: Mara Silvia Riestra Lugar: Gral. Hornos, Partido de Gral. Las Heras Buenos Aires - República Argentina

Serie: Mejora Continua en la Producción Estadística

(MeCoPE) Tema:

Clasificaciones MECOPE CLAS Nº 00-1

Ediciones Mimeo de EcoDinamia (EME) Ediciones para compartir pensamientos, ideas y datos

EME-MECOPE-CLAS-00-1-1/2007-msr

Page 2: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

2 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Los escritos de EME tienen por finalidad dar forma, espacio y movimiento a ideas y pensamientos que ayuden a las personas y a sus organizaciones a encontrar su manera de abordar la realidad en forma satisfactoria.

Reúne los documentos y artículos relacionados con la “Elaboración de estadísticas e indicadores”. La base filosófica es la mejora continua o Kaizen y el objetivo es provocar un cambio de actitud hacia aquella en la cual día a día se va construyendo la calidad; no hay fórmulas ni milagros. Requiere conocer las Fortalezas y Debilidades que provienen del interior

del propio proceso y las Oportunidades y Amenazas que surgen del contexto. El interior y el exterior está formado por personas. Éstas son un factor productivo y, a la vez, las responsables de conformar las instituciones y de gestionar, operar y/o programar las máquinas y los restantes recursos usados en la producción. Es común que en actividades tan complejas, como la producción estadística, se establezcan inercias que con el tiempo disuelven o enquistan la fluidez del proceso. Trabajar bien no es un hecho fortuito ni es producto de la conservación, es la elección de hacer las cosas a conciencia: saber quiénes nos dan los recursos, cómo usarlos y para qué. Por ello, detrás de la organización de esta Serie existe la Visión de aportar leves provocaciones al fascinante proceso de retratar y animar con datos la naturaleza y las actividades del hombre

El ser humano es el denominador común.

LA

SERIE

Ediciones Mimeo de EcoDinamia

Page 3: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

3 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Las clasificaciones tienen la función de reunir datos de manera organizada; cada nivel nos permite

disponer de arquetipos mesoestadísticos que funcionan como unidades de análisis, de predicción y de

conocimiento. Son instrumentos que sirven para comparar datos provenientes de distintas áreas

geográficas y de múltiples fuentes; son el lenguaje común que da lugar a la síntesis y a la comprensión. También son

normas, a veces algo arbitrarias, porque encierran contenidos que están en el inconsciente colectivo, en la experiencia

de cada uno, y que son difíciles de explicitar pero no de ejecutar.

Contiene escritos que se elaboraron durante el diseño y desarrollo del Sistema de

Codificación Informatizada que permitió la codificación del Censo Nacional de Población y

Vivienda 2001, las Encuestas de Hogares que surgieron a partir del mismo y el

Empadronamiento del Censo Nacional Económico 2005. Esta primer recopilación incluye

documentos consolidados pero no editados, es decir, que pueden considerarse completos pero que por distintas

circunstancias no se llegaron a revisarse para su publicación. En tal sentido, parece interesante disponer de los mismos

con la finalidad transmitir su contenido para que aporte a futuros desarrollos de aplicaciones de normalización y

codificación, aún cuando algunos de los conceptos, dado el tiempo transcurrido, han sido superados.

ÍNDICE

Introducción 4

Sistema de Codificación Informatizada (SiCI) para operativos económicos y sociodemográficos

7

Corrección ortográfica 28 - 41

Proceso Diccio 42 – 51

Campo semántico 52 - 64

Microprocesos 65 - 71

Peso Heurístico 72 - 75

EL

TEMA

ESTE

DOCUMENTO

Page 4: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

4 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

INTRODUCCIÓN

En 1994 presenté un proyecto de crear un área de clasificaciones dentro del INDEC. Si bien ya funcionaba una Comisión Técnica relacionada con el tema, a la hora de realizar las tareas operativas ninguno de los integrantes tenía el tiempo para profundizar en la problemática que se presentaba. En 1995, la Dirección del INDEC accedió a crea el Sistema Nacional de Nomenclaturas con la función de normalizar el uso de las clasificaciones en las estadísticas desarrolladas a lo largo de todo el Sistema Estadístico Nacional (SEN). Luego de un periodo de 3 años durante los cuales se desarrollaron clasificaciones nacionales y sus nomenclaturas, mi inquietud por la codificación normalizada aún persistía. Si bien se había logrado la incorporación de la clasificación nacional en el ámbito tributario nacional y en gran parte de las provincias, y además, se contaba con un sistema informático de gestión de nomenclaturas que incluía clasificaciones de actividades económicas (propias y de otros países), de ocupaciones, de productos, de títulos universitarios y de unidades geográficas, operativamente cada oficina tenía sus codificadores y su cultura clasificatoria diferencial (criterios, adaptaciones, métodos) cuya consecuencia era la falta de normalización real. A partir de 1997 comencé a desarrollar un modelo de codificación informatizada – pero sin informáticos –lo que resultó en un modelo conceptual basado en una serie de ideas producto de la experiencia de 13 años de codificación y hay que decirlo, como madre tuve que asistir a mis hijos en tareas escolares que me permitió recordar y recuperar un instrumento harto valioso para el SiCI los campos semánticos. Con el advenimiento del Censo Nacional de Población y Vivienda 2001 y gracias a la confianza depositada por el equipo coordinador de dicho operativo, la asignación de recursos para el diseño del sistema fue un hecho. Es así que durante el año 1999 -2000 se desarrolló el Sistema de Codificación Informatizada (SiCI). Las ideas del modelo original se modificaron con los aportes del equipo del Sistema Nacional de Nomenclaturas, tanto para actividades como ocupaciones, metodología estadística colaboró activamente en las cuestiones relacionadas con los heurísticos, la prueba de algunas ideas usando scores y finalmente para el diseño de los planes de muestreo que permitirían realizar el control de calidad. Las discusiones en el ámbito informático fueron muy provechosas para lograr la eficiencia y eficacia de la codificación. Las áreas de las encuestas socio demográficas no solo aportaron bases de prueba sino que además colaboraron en el diseño de un nuevo clasificador de títulos universitarios y finalmente, el área de cartografía aportó el bagaje de diccionarios que hizo posible operar las variables geográficas con el SICI. RECUERDE, la intención de los escritos de EME es compartir datos, pensamientos y experiencias. Agradezco envíe sus opiniones, comentarios y sugerencias a: [email protected].

Page 5: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

5 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

SISTEMA DE CODIFICACIÓN INFORMATIZADA (SiCI) PARA OPERATIVOS ECONOMÓMICOS Y

SOCIODEMOGRÁFICOS

Este documento resume gran parte de la visión original, que tuve como coordinadora del Sistema Nacional de Nomenclaturas, para la creación y diseño del Sistema de Codificación Informatizada (SiCI). La idea cobró vida y mejoro de manera integral que gracias al aporte de:

Mariano Lanne, técnico en actividades económicas del SiNN,

Marcelo Esses y Claudio La Roca técnicos del programa del ocupaciones del SiNN,

Juan José Brión de la Dirección de Informática que desarrolló el sistema y

Silvana Specogna y Alejandra Clemente de la Dirección de Metodología.

El texto es una réplica del presentado en la primera sesión de la Conferencia de Estadística de las Américas (CEA) que tuvo lugar en la Ciudad de Santiago de Chile en mayo de 2001, en la sede CEPAL. Los aspectos aquí tratados han cambiado con el correr de la codificación del censo y las sucesivas encuestas de hogares, sin embargo. la base filosófica del SiCI se mantiene. Por mi parte seguí desarrollando la idea. El resultado de las mejoras incorporadas al modelo, se exponen en un documento de la misma serie denominado Manual del Sistema de Normalización y Codificación.

Page 6: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

6 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Contenido Primera parte: Introducción al Sistema de Codificación Informática (SiCI) Presentación 1.- Acerca de la codificación informatizada 2.- Objetivos 3.- Aplicaciones

3.1.- Censo Nacional de Población y Vivienda 2001 3.2.- Censo Nacional Económico (CNE) 3.3.- Encuesta Permanente a los Hogares (EPH) 3.4.- Directorio Nacional de Unidades Económicas (DiNUE) Segunda parte: Modelo conceptual del SiCI 4.- Definiciones 4.1.- Diccionarios 4.2.- Procesos lingüísticos 4.3.- Procesos de codificación 5.- Esquema global

5.1.- Etapa I: elaboración de los diccionarios 5.2.- Etapa II: preparación de las bases 5.3.- Etapa III: codificación

Tercera parte: Resultados de la prueba piloto del SiCI en el Censo Experimental de Pergamino

- Buenos Aires, febrero 2001 -

Page 7: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

7 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Introducción

La creación de un sistema de codificación "informatizada" surgió como una inquietud de la Coordinación del

Sistema Nacional de Nomenclaturas (SiNN) del INDEC, a fines de 1998. Hasta ese momento, el área estaba

preocupada en obtener clasificadores más adecuados a las necesidades nacionales. También se desarrollaron notas

explicativas y diccionarios que permitirían agilizar los procesos de clasificación y a la vez documentar las decisiones

que se tomaban ante diferentes consultas. Sin embargo, aún persistía la preocupación de que muchos de los

procesos de codificación manual resultaban tediosos, no aportaban demasiada experiencia a los codificadores, eran

largas jornadas para codificar lo mismo y se producían divergencias entre los criterios aplicados por diferentes

codificadores. Además, ello dejaba poco tiempo para la discusión de casos de difícil resolución. En el caso particular

de los operativos masivos como los censos, estos inconvenientes se traducían en una elevada demanda de recursos

humanos, monetarios y de periodos de codificación extremadamente largos, con lo cual la información tardaba en

estar en manos de los usuarios.

Fue justamente la coordinación del Censo 2001 el marco necesario para que la mencionada inquietud encontrara

eco. A partir de abril de 1999 se conformó, en el ámbito de la metodología de trabajo propuesta por el SiNN, el

Grupo de Aplicación de Nomenclaturas (GAN) 1, formado por integrantes de Actividades y Productos (SiNN-AyP), el

Programa de Medición y Análisis de la Estructura Ocupacional (SiNN-ProMAEO) e integrantes de otras áreas como

la Dirección de Metodología Estadística, el Departamento de Cartografía, la Dirección de Informática y el Equipo del

Censo. Creemos que es este el principal hecho que permitió avanzar y obtener los resultados a los que hoy día

hemos podido arribar. Es en esta unión multidisciplinaria que se pudo lograr mentar un sistema que lejos está de

ser complejo. La mayor demanda está centrada en obtener una alta calidad en la red de diccionarios de los que se

alimenta el sistema

El proyecto consistió básicamente en promover un estudio minucioso de la metodología de codificación aplicada en

el procesamiento manual de cada una de las variables a codificar. Para ello se diseñó un sistema de trabajo que

provocaran en el "codificador" del SiNN, un trabajo ordenado, pautado y que, a la vez de "explicitar" cada uno de

los pasos que lo llevaban a un código, se obtuvieran los instrumentos necesarios para diseñar el SiCI (Sistema de

Codificación Informática), es decir los diccionarios.

El documento que se presenta, resume la experiencia adquirida hasta el momento. El trabajo se divide en tres

partes. La primera es una introducción al SiCI, luego se mencionan los objetivos y en un tercer apartado se

presentan los programas de trabajo sobre los cuales se aplica el mismo. En la segunda parte, se hace referencia al

modelo conceptual, en donde se definen los conceptos fundamentales y se explican las etapas que lo conforman.

En la tercera y última parte, se exponen los resultados que se obtuvieron en las prueba del SiCI en el Censo

Experimental de Pergamino.

1.- Acerca de la Codificación Informatizada

Como ya se mencionó en la introducción, el proyecto de diseño, desarrollo e implementación del SiCI involucra un

gran esfuerzo de inicio ya que el primer paso para todo sistema de este tipo es poder "modelizar" el proceso que se

Page 8: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

8 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

quiere sistematizar. En tal sentido, el SiCI es un sistema que recrea a través de diferentes métodos, todo el

conjunto de procesos "intelectuales" que el codificador realiza cuando lee, interpreta, analiza y coloca el código a la

frase que tiene delante de él.

Si observamos en detalle la forma en la que nos referimos al proceso de codificación notamos que no es lo mismo

hablar de codificación automática que de informatizada, ya que esta última es más amplia. Nos referimos con el

término de automática a aquella en la que es posible determinar un código sin la intervención de ninguna

persona1; mientras que la codificación informatizada incluye a la anterior, pudiendo llegar a poner un código en

forma automática, asistida o semi-manual. No siempre los casos que se nos presentan son de resolución masiva, es

más, algunos ni siquiera se presentan en forma frecuente ya que solo los encontramos en censos por barrido. Por

ello, aquellos casos que no se pueden "modelizar" requieren de la codificación semi-manual. Una vez solucionada la

codificación puede resolverse en forma automática para relevamientos futuros dependiendo ello del contexto en

que la respuesta esté incluida.

Con relación al proceso de codificación automática podríamos decir que ésta se basa en la aplicación de un

conjunto de frases anteriormente codificadas, de tal forma que aquellos casos que se repitan, se resuelvan de la

misma manera. Para ello se requiere una herramienta básica del proceso llamado DCCIONARIO, que es un conjunto

de casos previamente codificados. Vamos a ver que en realidad, no existe solo un diccionario sino un conjunto de

ellos, que interactúan en el proceso de codificación.

2.- Objetivos

El SiCI tiene como objetivo principal, la codificación de diferentes variables de uso estadístico. Las variables a

codificar son las llamadas respuestas "abiertas" es decir, aquellas en las que no existe una precodificación en el

formulario y donde el informante responde con sus palabras a la pregunta del cuestionario, lo cual implica que

distintas personas que tienen igual ocupación, realizan igual tarea y trabajan en la misma empresa, pueden

responder la actividad y su ocupación de diferentes formas. La codificación de variables “cerradas” no requerirá,

por lo general, demasiado esfuerzo, puesto que su relevamiento es en sí un tipo de codificación. Sin embargo, en

muchos casos, las variables cerradas se utilizarán como complemento para la codificación de las variables abiertas.

A título de ejemplo, algunas de las variables a codificar son:

actividades

nombre de la ocupación

descripción de la tarea

variables geográficas

carreras universitarias

Podemos realizar una importante diferencia entre las variables de actividades y ocupaciones por un lado, y las

geográficas y carreras universitarias por otro. Esta diferencia se basa en la infinidad de posibles respuestas que se

1 En realidad la codificación fue realizada por el equipo del SiNN durante la etapa de generación de los diccionarios

Page 9: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

9 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

pueden obtener en el primer conjunto; mientras que en el segundo, las posibilidades de que las respuestas se

expresen en formas diferentes son mucho más limitadas. Por tal motivo, la codificación informatizada de las

variables del primer grupo puede ser más complicada que las variables del segundo conjunto. En este documento

nos referiremos principalmente a la codificación informatizada de actividades y ocupaciones, pero las conclusiones

que se obtengan podrán ser utilizadas, en general, para la codificación de las otras variables.

El SiCI no sólo tiene como objetivo la codificación de estas variables, sino también disminuir los tiempos de

codificación y unificar criterios de interpretación. La diferencia de criterios adoptados por cada uno de los

codificadores es uno de los problemas que lleva a disminuir la calidad de los resultados de una encuesta o un

censo. Sin embargo, mediante la aplicación de criterios uniformes adoptados por un sistema informático es posible

considerar todos los casos semejantes, bajo una misma óptica; a la vez que permite una rápida recodificación si se

requiere cambiar el criterio. Esta misma tarea, si se realizara manualmente, requeriría demasiado esfuerzo y costo.

En un sistema informatizado, los casos que permiten diferentes interpretaciones pueden ser, o bien codificado bajo

un criterio adoptado, o agrupados automáticamente para su posterior codificación. En síntesis:

codificar variables con mayor calidad Metas del SiCI disminuir tiempos y costos y aumentar oportunidad unificar criterios reduciendo sesgos 3.- Aplicaciones 3.1.- Censo Nacional de Población y Vivienda 2001 Para este censo se calcula que habrá aproximadamente 37 millones de personas a censar y 12 millones de

ocupados. Las cifras son grandes de más como para pensar en una codificación manual, pues se debería concentrar

gran cantidad de codificadores, o bien, realizar como en el censo de 1991 una muestra, o se debería prescindir de la

obtención de resultados en forma oportuna, o peor aún eliminar parte de las preguntas. Ante tales circunstancias,

surge como una necesidad la incorporación de la codificación informatizada. Sin embargo, el censo 2001 no es el

único fin del Sistema de Codificación Informatizada (SiCI), ya que en el horizonte de planeamiento de utilización del

mismo se prevé la incorporación del mismo a distintos programas de trabajo como ser la codificación de la

Encuesta Permanente de Hogares, el Censo Nacional Económico y el Directorio Nacional de Unidades Económicas

entre los principales destinatarios.

La tarea de coordinar la codificación del Censo no se refiere sólo a producir un software apto para codificarlo, sino

también a un conjunto de tareas que se relacionan con la codificación y que influyen en buena medida en la calidad

de los datos. Esto implica mantener una interacción permanente con varias áreas de trabajo relacionadas con el

censo, a saber:

Con la empresa encargada de la lectura óptica de los formularios. El SiCI provee los diccionarios de palabras,

manteniéndose una actualización de los mismos en forma diaria durante el período de lectura.

Con el área de Metodología Estadística. Otra tarea relacionada a la codificación es ayudar en la determinación del

método para medir la calidad de los datos, tarea que se realiza en forma conjunta con el área de metodología

Page 10: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

10 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

estadística. Esta es a su vez, es la encargada de desarrollar el método de codificación denominado “scores”, cuya

explicación se realiza más adelante.

Con los codificadores. Ella se origina en la necesidad de entrenar al personal, tanto en el uso del software como en

el manejo de los instrumentos clasificatorios y en los criterios de codificación propiamente dichos. Es necesario

trabajar en forma conjunta, para detectar errores en la interpretación y distribuir la tarea de manera más eficiente.

Con el área de análisis y consistencia. En algunos casos la codificación no es posible sin la consistencia previa de

ciertos datos y en otros la misma consistencia implica una codificación previa. Ejemplo de ello es que las variables

geográficas requieren ser codificadas previo a la consistencia.

Con Informática. Finalmente, la obtención de un software no sería posible sin la permanente interacción con el

área informática, tanto en la etapa de desarrollo del sistema como durante la codificación del censo para poder

permitir una actualización continua de ciertos diccionarios, la retroalimentación y calibrado del sistema.

3.2.- Censo Nacional Económico (CNE)

Otro de los grandes operativos que se presenta como desafío para la aplicación del SiCI es la codificación de las

variables de actividades y productos. Por un lado porque si bien se reduce el número de respuestas a alrededor de

1.500.000 de casos, el nivel de desagregación con que se requiere la codificación aumenta sustantivamente. Esto

implica necesariamente aumentar el nivel de detalle de los diccionarios y conjuntamente la velocidad de

procesamiento y codificación ya que los resultados deberían estar disponibles dentro de los cuatro meses

siguientes al operativo censal.

Para esta aplicación la fuente primordial para alimentar los diccionarios de codificación, además del Censo Nacional

Económico 1994, cobran importancia los literales relevados por el Directorio y las encuestas relevadas por otros

sectores del Sistema Estadístico Nacional, tales como la encuesta industrial, el Registro Industrial de la Nación y las

encuestas de la Secretaría de Agricultura, Pesca y Alimentación, por citar algunas.

Siguiendo en el ámbito de la clasificación de actividades, en este operativo, el nombre de la empresa es importante

dato a la hora de definir los códigos, ya que podría llegar a pensarse en una posible pre-codificación de las

empresas previo a la salida a campo, con lo cual el espectro de casos a codificar se reduciría notablemente.

Por último, ante la existencia de preguntas sobre los productos se crea una nueva demanda para el SiCI que es la

incorporación de los clasificadores de productos, lo que lleva a desarrollar nuevos diccionarios.

3.3.- Encuesta Permanente a los Hogares (EPH)

Page 11: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

11 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

La EPH es la principal fuente de descriptores para la casi totalidad de las variables que se proyecta codificar. Sin

embargo, hoy es uno de nuestros principales "usuarios". La implementación de un relevamiento continuo,

provocará un uso permanente del sistema de codificación. Además de los beneficios que ello reporta en términos

de la pronta disponibilidad de los resultados de la EPH, ello permitirá el calibrado del sistema, sentando los

antecedentes necesarios para ser luego utilizado durante el operativo censal. Es la continuidad también la que

permitirá ir "amortizando" los esfuerzos realizados en este par de años. Actualmente se está realizando una prueba

piloto del SiCI sobre la última EPH disponible. Se espera tener resultados para la segunda quincena de febrero.

3.4.- Directorio Nacional de empresas (DiNUE)

El DiNUE es, junto con el Censo Nacional Económico 1994, la principal fuente de literales para procesos de

codificación de actividades provenientes de relevamientos de índole económica. El SiCI permitirá al DiNUE relevar

información sobre actividades y productos, y en la medida en que esa información esté en los diccionarios, la

codificación se realizará en forma automática. Caso contrario, se activará el proceso de codificación asistida y semi-

manual, lo cual redundará en una mejora en los diccionarios de codificación del SiCI a la vez que aumenta la calidad

de codificación de dichas variables en el DiNUE, reduciendo así las tareas de supervisión.

4.- Definiciones

El SiCI ha sido una creación "original" en el sentido que dada la escasa bibliografía existente, hubo que desarrollar

un sistema desde cero incluyendo la terminología utilizada. Es por eso, que pese al alcance del documento, fue

preciso incorporar este apartado sobre las definiciones que se encontraron a lo largo del texto.

SiCI: red de diccionarios de diversa índole, interconectados a través de procesos lingüísticos y de codificación. Por

medio de este sistema el conjunto de registros que contienen literales originales de las variables a codificar, son

transformados en descriptores a los cuales se les aplica diferentes métodos de codificación tendientes asignar a

cada uno el código correspondiente en forma unívoca.

De esta definición surgen los tres elementos básicos del SiCI:

- Diccionarios

- Procesos lingüísticos

- Procesos de codificación

4.1. Diccionarios: son listados inventariados de palabras o frases que conforman los instrumentos fundamentales

del SiCI y que se originan en las respuestas empíricas relevadas en cada uno de los operativos que sirvieron de

fuente. En el sistema conviven dos tipos de diccionarios: los que sirven para la manipulación de las palabras y los

diccionarios de codificación.

Page 12: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

12 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Diccionario de palabras espurias (E): conjunto de palabras que si bien poseen significado literal, a efectos de la

codificación no son relevantes. Ejemplos de palabras que conforman este diccionario son: números, nombres

propios (excepto de empresas que puedan definir un código); nombres de lugares geográficos; adjetivos que no son

relevantes a efectos de la codificación como ser colores, tamaños, adjetivos relativos a lugares o formas, etc.; letras

sueltas y números romanos; y otras palabras que tengan significado pero son prescindibles para la codificación. Son

generalmente de baja frecuencia.

Diccionario de anuladas (A): conjunto de palabras que carecen de significado. Son originadas en errores de tipeo,

lectura y/o redacción y no se les puede atribuir ninguna palabra para realizar una corrección. Se forma

generalmente por la partición de palabras. Ejemplo: supongamos que la palabra “computadora” aparece cortada al

medio: “compu” “tadora”. La primera parte puede ser útil para intuir que es algo relativo a la computación por lo

que no formará parte del diccionario de anuladas. La segunda parte: “tadora” no puede relacionarse con nada

específico o con muchas cosas, por lo tanto forma parte del diccionario de palabras anuladas. Al contrario de las

espurias, estas “cuasi-palabras “ no tienen significado y por lo tanto no forman parte del diccionario de lectura.

Diccionario de conectores (C): conjunto de artículos, preposiciones, y otras palabras que se utilizan para dar forma

a una oración, pero no son relevantes a efectos de la codificación. Ejemplos de conectores son: y, la, los, con, por,

etc. Por el contrario, son relevantes a efectos de la codificación los conectores no, para y excepto los cuales no

forman parte de este diccionario.

Diccionario de excepciones (X): conjunto de conectores cuya presencia en una frase puede alterar la codificación

de la misma y por tanto no forman parte del diccionario de conectores. En la actualidad está formado por tres

palabras a saber: no, para y excepto.

Diccionario corrector (R): conjunto de relaciones entre palabras incorrectas y correctas. Las palabras incorrectas

pueden ser generadas por errores de tipeo, ortográficos, abreviaturas u otra clase pero siempre se puede

relacionar con una y solo una palabra correcta. Ejemplo: la palabra incorrecta “alimemticios” tendrá su par

equivalente con la palabra correcta “alimenticios”; la palabra incorrecta “gral” será reemplazada por la palabra

correcta “general”. Un caso en que no se puede mantener una relación palabra incorrecta-correcta se da con “art”

pues, si bien puede venir de un contexto en donde se entiende que es la abreviatura de “artículo”, en otras

ocasiones se puede tratar de las ART (Aseguradoras de Riesgo de Trabajo).

Diccionario de palabras correctas (D): conjunto de palabras correctamente escritas, que son relevantes para la

codificación y por lo tanto no se incluyen en ninguno de los diccionarios anteriores.

Diccionario de lectura (L): está compuesto por la unión de los siguientes diccionarios: espurias, conectores,

excepciones, y palabras correctas.

L = E+C+X+D

Page 13: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

13 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Diccionario de codificación: es el listado de frases y palabras asociados a cada código y sobre el cual se calcula el

peso heurístico que sirve de base al método de scores, más adelante expuesto. Los elementos que lo componen

son: el diccionario de palabras correctas (D) y el de excepciones (X).

4.2.- Procesos lingüísticos: son aquellos que modifican los literales de las frases a codificar, permitiendo una

simplificación del vocabulario y de la cantidad de palabras involucradas. Con literales o descriptores nos referimos

a la frase que representa la respuesta original brindada por el informante, sea esta en representación de una

persona o una unidad económica (empresa y local entre otras). Entre los procesos lingüísticos que operan sobre los

literales nos encontramos con:

Proceso de normalizado: consiste en sacar los caracteres no válidos que se encuentran en las frases de la base

recibida con las tres variables (actividad, ocupación y tarea) y se convierten a mayúscula.

Campos semánticos o familiarizado: consiste en asignar a una palabra tomada como referencia (denominada

padre), una lista de palabras que serán tomadas como sinónimos (denominado hijos).

Proceso de estandarizado: consiste en tratar todas las palabras del diccionario por número, género y

truncamiento, según lo que sea más apropiado, a los efectos de lograr un diccionario de términos únicos (no

repetitivos)

Sin estandarizado: no se realiza el proceso anterior.

Es importante destacar que los procesos lingüísticos no son procesos de codificación.

4.3.- Procesos de codificación: estos actúan de diferente forma según el caso a resolver. Son procesos que surgen

de la "modelización" de las procesos analíticos que los codificadores realizan en el momento de asignar un código.

Macroproceso: es un conjunto de instrucciones que se modelizan a través de sentencias informáticas y que

permiten dividir al universo a codificar en grandes grupos. Esta división permite luego acotar el rango de códigos

posible. Son ejemplo los macroprocesos "patrón" en ocupaciones y "ventas" en actividad, como se explicará en su

correspondiente apartado.

Microproceso o autoproceso: es un conjunto de instrucciones que se modelizan a través de sentencias

informáticas y que permiten arribar a la codificación de un determinado literal sin la intervención de codificadores.

A diferencia de los macroprocesos, son métodos de codificación propiamente dicho.

3ra Generación: forma de codificación, elemento que me permite determinar que variables se utilizaron para

codificar una variable específica.

AutoFrase: es un método de codificación automático o directo que permite la asignación de un código único sin

intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por

Page 14: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

14 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

frases que ofrecen una única alternativa de código y que son independientes de las restantes variables del

cuestionario.

Scores: es un método que combina dos elementos. Por un lado la “especificidad” que cada palabra tiene respecto a

los distintos códigos. Por ejemplo la palabra leche es “más específica” que “fabricación” pues le aparecen a la

primera una limitada cantidad de códigos asociados mientras que la segunda es de uso más difundido en todas las

ramas de la industria. La especificidad de cada palabra del diccionario se mide a través del llamado “peso

heurístico” que también forma parte de los diccionarios junto con los literales y los códigos. Por el otro lado, el

score también analiza la relación entre las frases del diccionario y las frases a codificar. Dada una frase a codificar,

el “score” permite elegir “frases candidatas” dentro de la “oferta” que da el diccionario. Esas “candidatas” se eligen

teniendo en cuenta el mayor número de palabras comunes entre la frase a codificar y las frases del diccionario.

Cuanta mayor coincidencia es de entre ambos tipos de frases, mayor será el “score”.

Autopalabra: es un método de codificación automático o directo que permite la asignación de un código único sin

intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por

palabras y los códigos asociados según la frase de la cual provengan.

Asistido: es un método de codificación indirecto que permite la asignación de un código único con intervención de

los codificadores. En este caso, el SiCI da la posibilidad de elegir entre un limitado número de alternativas

propuestas automáticamente.

Semimanual: es un método de codificación que permite la asignación de un código único con intervención de los

codificadores. En este caso, dada la gran cantidad de alternativas de elección, el SiCI ofrece elementos de ayuda

para el codificador sin realizar propuestas automáticas.

5.- ETAPAS DEL SiCI

Para simplificar la explicación de las distintas etapas del SiCI se ha tomado como ejemplo a la codificación del Censo

Nacional de Población y Vivienda 2001. Por lo tanto, el esquema general que figura en la próxima página puede

modificarse levemente cuando se procesan otros operativos, como la EPH o el Censo Nacional Económico. A

continuación se realiza una brevísima descripción integral del SiCI, para luego pasar al detalle a partir del punto 5.1.

En la implementación del SiCI hay dos grandes períodos de trabajo bien diferenciados:

Primer periodo: desarrollo de los diccionarios. Es el momento previo a la realización del operativo a ser codificado.

Una de las características de este sistema es la importancia que se le da a la corrección ortográfica. Para ello se

generan los distintos diccionarios con la única finalidad de corregir las descripciones que provienen del operativo

de campo a ser codificado. Es natural que se repitan errores de ortografía, abreviaturas, siglas y formas de

escritura que hacen que las frases que dicen lo mismo no sean perfectamente iguales y por lo tanto no puedan ser

codificadas automáticamente. El sistema incorpora todas aquellas correcciones que se repiten con el ánimo de

poder interpretar mejor las descripciones. Esta etapa es una de las más tediosas pues consiste básicamente en

Page 15: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

15 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

codificar, corregir y relacionar la mayor cantidad de palabras y frases provenientes de distintas fuentes, para

obtener a final de todo el proceso los DICCIONARIOS.

Segundo periodo: preparación de las bases a codificar y codificación. A partir de la recepción del archivo del

operativo a codificar se inicia una serie de etapas basadas en la necesidad de acondicionar las bases para su

codificación. Dado que para codificar se utilizan los diccionarios obtenidos en la primera etapa, es preciso llevar a

cabo un conjunto de tareas tendientes a otorgarle al archivo a codificar, las mismas características de los

diccionarios. Por ello se suceden los siguientes pasos, que se corresponde con el gráfico de la página siguiente:

1. Se identifican las palabras no contenidas en el diccionario de lectura. Esto tiene por finalidad enviar a la

empresa que lee las cédulas el diccionario de lectura actualizado.

2. Se verifica que la estructura de las bases sea la que requiere el SiCI y se normalizan las frases. Esto consiste

en eliminar caracteres extraños o no válidos para la codificación (comillas, dobles espacios, puntos, etc.).

3. Se corrige automáticamente la ortografía mediante la utilización de los diccionarios de corrección y

anulador.

4. Se corrige manualmente la ortografía que no pudo ser corregida automáticamente, empezando por las de

mayor frecuencia.

5. Si es necesario, se crean nuevos campos semánticos y estandarizados, sobre las palabras nuevas.

6. Se arma el archivo con las frases corregidas en las etapas descriptas y comienza la etapa de

“Acondicionamiento de bases a codificar”

7. Se eliminan las palabras que no son útiles a los efectos de la codificación utilizando el diccionario de

palabras espurias.

Page 16: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

16 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

8.

AUTOFRASE

MICROPROCESOS

SCORE 10

AUTOSCORE<10

AUTOPALABRA

BASES CODIFICADAS

CONTROL DE CALIDAD

DEVOLUCION VARIABLES CODIFICADAS PARA EL ARMADO

DE TABULACIONES CON RESULTADOS

ETAPA IV: RESULTADOS

ARMADO MATRIZ DE

DISTRIBUCION SECTORIAL

CODIFICACION

SEMIMANUAL

CODIFICACION

ASISTIDA

Métodos AutomáticosMétodos No Automáticos

Frases con palabras

no encontradas

Corrección

automática

Corrección manual

ortográfica

Nuevos campos semánticos y

estandarizado

Archivo con

frases corregidas

Espurias

Campos

semánticos y

estandarizado

Frases únicas a

codificar

Corrección ortográficaAcondicionamiento de

bases

Verificar estado y

normalizado

1

5

2

3

4

7

8

6

9

Corrección

ortográfica

Corrección códigos

Determinación 3º

generación

Obtención de

diccionarios

ETAPA I: PERIODO DE ELABORACION

DE DICCIONARIOS

ETAPA III: CODIFICACION

Proceso Diccio

ETAPA II: PREPARACION DE

BASES

Page 17: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

17 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

9. Se modifican las frases a codificar simplificando sus palabras. Se aplican los campos semánticos, es decir se

llevan distintas palabras que significan lo mismo a efectos de la codificación (palabras hijos) a una palabra en común (palabra padre). Se aplica también el estandarizado, es decir, se eliminan los géneros y números de las palabras dejando solamente la raíz de las mismas. Por último si dentro de la frase, como consecuencia de lo anterior, quedaron palabras repetidas, se procede a realizar una simplificación (ver apartado II.2, para mayores detalles).

10. Muchas de las frases a codificar van a ser iguales por causa de los procesos antes mencionados. Se obtiene entonces un archivo con frases únicas (sin repeticiones de frases) a codificar. En la práctica se ha logrado reducir la base de actividades en alrededor de 67%. Es decir que de 35.000 frases recibidas se redujeron a 11.000.

11. Una vez obtenida la dase de frases únicas se inicia la etapa de codificación propiamente dicha. La misma consiste en aplicar secuencialmente los distintos métodos de codificación, cuya explicación se realiza en forma detallada a partir del punto 5.3. El hecho de ser secuencial implica no solo un orden sino que además si un método logró colocar un código único, esa frase ya queda codificada y no se vuelve a codificar. Es decir cada método codifica la base residual que recibe del método anterior.

12. Por último llegar al autoscore < 10 el sistema puede llegar a codificar la frase con más de un código. Si se coloca

tres o menos se pasa al método codificación “asistida”; si es mayor a tres se envía la base a la codificación “semimanual”.

Como síntesis de todas las etapas se obtiene la base codificada, la cual se somete al control de calidad y finalmente se transmiten los datos a la oficina de procesamiento del censo.

SOLO SE PRODUCE EL HECHO CODIFICATORIO EN LA ETAPA III

5.1.- Etapa I: elaboración de los diccionarios Los diccionarios son la base del sistema de codificación informatizada ya que los utiliza en todas las etapas de su funcionamiento. Este capítulo se refiere principalmente al modo de crear esos diccionarios en una forma sistematizada. Un error en un diccionario se reflejará en la codificación de una actividad u ocupación, tantas veces como estas aparezcan para ser codificadas. De ahí proviene la necesidad de poseer un diccionario sin errores. Pero es a través de los diccionarios que se pueden aplicar criterios únicos de codificación evitando distintas interpretaciones. Un error en el diccionario se multiplica en la codificación automática. De todos modos, ya sea por un error en el diccionario o por la decisión de tomar un criterio distinto al que figura en el diccionario, se puede modificar el mismo y correr nuevamente el sistema de codificación para aquellos registros que se pretenden modificar. En un comienzo se mencionó que no existe un solo diccionario, sino un conjunto de ellos; veamos como surgen.

Page 18: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

18 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

5.1.1 Fuentes para la creación de los diccionarios Al utilizar un diccionario para la codificación, se busca que la base a codificar y la del diccionario se asemejen lo más posible. Es necesario, entonces, armar los diccionarios con registros provenientes de campo, que se respondan en forma similar a la base que se pretenda codificar. Por ejemplo, si se quiere codificar una encuesta sociodemográfica es conveniente utilizar principalmente registros que provengan de programas del mismo ámbito. Ello no implica que no se puedan utilizar registros que provengan de encuestas del área económica, y mucho menos que éstas no aporten nada al diccionario, sino que es más probable que las respuestas de dos encuestas de la misma área sean más parecidas. Además, se pueden realizar diccionarios paralelos, es decir, crear un diccionario que utiliza registros de una fuente para codificar cierto tipo de encuestas y otro que se compone de registros de otras fuentes para codificar otro tipo de encuestas. Las áreas que sirven de fuentes para la creación de los diccionarios son:

Encuesta Permanente de Hogares (EPH)

Tercera y cuarta Prueba Piloto del Censo 2000

Muestra del Censo de Población y Viviendas de 1991

Directorio Nacional de Unidades Económicas (DiNUE) 5.1.2 Proceso Diccio Para proceder a armar los diccionarios sobre las fuentes antes mencionadas, se desarrolló una pantalla que permite sistematizar la codificación, la corrección ortográfica y la aplicación de la tercera generación2. Esta pantalla no forma parte de la codificación informática propiamente dicha, sino que es parte de una etapa anterior a la codificación. Esta etapa fue denominada "Proceso Diccio" y es mediante este proceso en donde se invierte tiempo y recursos en la corrección y codificación de registros que luego formarán parte de los diccionarios. Esta etapa es una de las más largas y tediosas, puesto que implica la revisión o codificación de las bases que se elijan para que formen parte de los diccionarios. Las decisiones que aquí se tomen le servirán al SiCI como guía para saber cómo actuar en determinados casos.

El trabajo realizado a través de esta pantalla (Proceso Diccio) se podría hacer en cualquier tabla o archivo, sin embargo, es conveniente realizarlo a través de una pantalla en donde se sistematizan las tareas efectuadas y automáticamente realiza la gestión de las bases que formarán los diccionarios. A la vez que permite una mayor seguridad en el manejo de las bases. En la próxima página se muestra un modelo de pantalla del módulo de corrección. 5.1.2.1 Corrección ortográfica La corrección ortográfica busca obtener diccionarios "correctos", sin embargo al corregir los registros que luego formarán parte de los diccionarios, estos se diferenciarán de los registros a codificar que tengan errores ortográficos. Es por eso, que se crea el primer diccionario, al que denominaremos "Diccionario Corrector". Este se compone de un conjunto de pares ordenados de palabras (palabra incorrecta y palabra correcta), que se obtienen de la experiencia de la corrección ortográfica. La corrección ortográfica es importante para reducir el tamaño de los diccionarios de codificación.

2 La tercera generación permite indicar para cada caso codificado, que elementos se tuvieron en cuenta para arribar al código como se verá en el punto 5.1.2.3

Page 19: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

19 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Es importante distinguir las correcciones que se pueden hacer porque el contexto de la frase permite definir una palabra correcta asociada a la palabra incorrecta, de aquellas en las que existe una única relación palabra incorrecta – palabra correcta sin considerar el contexto de la frase. Por ejemplo, en el caso anterior en que se relaciona la palabra “estableciminto” con “establecimiento” no quedan dudas de dicha correspondencia y por lo tanto se puede generalizar y permitir que se corrija automáticamente en todos los casos en los que aparezca. Pero si aparece la palabra “art” en algunos casos se la puede relacionar gracias al contexto de la frase con la palabra “artículos”. Sin embargo, en otros casos es una palabra correcta pues se refiere a las “ART, Administradoras de Riesgo de Trabajo”. El diccionario corrector solo debe estar compuesto de los casos en que se puede generalizar la corrección de una palabra. El diccionario anulador es el que se compone de palabra anuladas, que son aquellas que no tienen ningún significado porque efectivamente no existen. No incluyen aquellas palabras que poseen errores ortográficos y que no se pueden incluir en el diccionario corrector por tener más de una palabra correcta anulada. 5.1.2.2 Codificación Las bases fuente utilizadas para crear los diccionarios, en muchos casos ya vienen codificadas desde las áreas de trabajo que las proveen. Es necesario entonces revisar la calidad de la codificación recibida para garantizar la veracidad de cada código existente en los diccionarios y solucionar los problemas provenientes de diferencias de criterio. Esta etapa de corrección de la codificación se realiza en la misma pantalla antes mostrada y a continuación de la corrección ortográfica. Dado que estamos hablando del Censo de Población, los clasificadores utilizados son la ClaNAE-97 (Clasificación Nacional de Actividades Económicas 1997) para actividad y el Clasificador Nacional de Ocupaciones para las ocupaciones. Luego a los efectos de cumplir con los compromisos adoptados en el marco del acuerdo Mercosur, a través de las respectivas tabla de correspondencia se obtuvieron los diccionarios en CAES (Clasificación de

Zona de corrección ortográfica

Page 20: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

20 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Actividades Económicas para Encuestas Sociodemográficas del MERCOSUR) y en las agrupaciones de la Clasificación Internacional Uniforme de Ocupaciones (CIUO). La pauta de trabajo para la codificación de las variables que luego forman los diccionarios de trabajo, es asignar a cada "leyenda" el mayor número de dígitos posible. Una vez colocado el código, el sistema verifica la existencia del mismo. 5.1.2.3. Tercera generación La tercera generación es un código en si mismo, que indica cómo fue codificada esa variable. Es decir, si fue necesario leer solamente la variable a codificar o existe en alguna otra información complementaria para determinar un código. Para ilustrar lo antes dicho, se presenta a continuación los códigos posibles de tercera generación para actividades:

A = el código fue puesto con la información de la variable actividad

O = el código fue puesto con la información de la variable actividad más la ocupación

T = el código fue puesto con la información de la variable actividad más la descripción de la tarea

Ch = este es un caso específico para distinguir a las personas que realizan changas (changador), sin importar en donde se leyó la información (en la variable de actividad, ocupación o tarea)

Am = este es un caso específico para distinguir a las personas que realizan ventas ambulantes, sin importar en donde se leyó la información (en la variable de actividad, ocupación o tarea)

? = información insuficiente (no se puede determinar un código) Los códigos de tercera generación permiten crear otro conjunto diferente de diccionarios. Una frase de actividad a codificar idéntica a una frase del diccionario que posee tercera generación “A” se puede codificar sin problemas en forma totalmente automática; pero una frase de actividad a codificar idéntica a una frase de diccionario que posee tercera generación “O” indica que para poner el código debe observarse la ocupación. Por lo tanto, para una misma frase de actividad se presentan diferentes códigos posibles. En resumen, el módulo de corrección nos permite realizar las siguientes tareas:

5.2.- Etapa II: preparación de las bases Lectura de los formularios: si bien la lectura de los formularios no forma parte de las tareas a realizar por el SiCI, este interviene de cierta forma a través de la creación del diccionario de lectura. En un principio se había pensado en utilizar un diccionario de uso corriente donde nos aseguraríamos que se encontrarían todas las palabras que se utilizan en el idioma español. Esta idea fue descartada pues un diccionario de tal dimensión demoraría la lectura de los formularios. Con la creación de los diccionarios de codificación, se fueron recolectando las palabras más usuales

Page 21: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

21 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

que se utilizan para responder las variables en consideración que a la fecha no superan los 10.000 vocablos. Sin embargo, dado que durante la lectura aparecen palabras nuevas estas se irán incorporando a medida que se consideren que son correctas. Normalizado: una vez obtenido el archivo de frases que no han podido ser interpretadas durante la lectura óptica, lo primero que se hace es verificar el estado de las bases. Esto consiste en determinar si la estructura de las bases es compatible con lo establecido por el Sistema. Un segundo paso es el de normalización que consiste en sacar todos los caracteres que no son de utilidad para la codificación. A título de ejemplo

"=" reemplaza por " " (espacio vacío) ")" reemplaza por " " "1°" reemplaza por ""

Acondicionamiento de bases El eje principal en esta etapa es el proceso lingüístico que denominamos en forma equivalente como "campo semántico" o "familiarizado". Solo a los efectos de aclarar los puntos se puede resumir que un campo semántico es un conjunto de palabras (denominados hijos) semánticamente diferentes pero que a los efectos codificatorios son reducibles a un solo vocablo (denominado padre). Por ejemplo:

Mediante la aplicación de los campos semánticos se puede obtener una mayor frecuencia de la palabra padre, pues esta aparecerá remplazando a cualquiera de sus hijos. Del mismo modo, se aumenta la frecuencia de las frases que contengan la palabra padre. Ello es muy importante a la hora del cálculo de los pesos heurísticos y los scores. La familia involucra vocablos hijos cuya raíz es igual al vocablo padre. Ejemplo: Padre: FABRICACION Hijos: FABRICA, FABRICAN, FABRICACIONES, FABRICO. Por lo tanto la familia no es más que un caso particular de "campo semántico". Aclarado esto, el proceso de campo semántico actúa en la base a codificar de la siguiente forma:

Ejemplo completo de la etapa de preparación de bases

Page 22: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

22 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Para tener idea de los efectos que este proceso lingüístico tiene se presenta un cuadro de resultados.

Resultados de la pre-codificación

OPERATIVO Cantidad de frases originales Cantidad de frases únicas luego de la Pre-codificación

Censo experimental 35.567 (100%)

11.745 (33%)

EPH (octubre 98) 34.047 (100%)

9.984 Frase a codificar (29%)

5.3.- Etapa III: Codificación La etapa de codificación es la más importante en términos de que es aquí donde se encuentra la solución a las necesidades de codificar en forma rápida y precisa. Es por ello que se han “ingeniado” diversas estrategias de codificación uniendo en las mismas tres disciplinas:

Normativa clasificatoria (marco normativo de la clasificación pericia sectorial y práctica codificatoria).

Informática (lógica y desarrollo de sistema).

Metodología estadística (scores y control de calidad) Así el sistema de codificación resultante abarca los siguientes métodos: Autofrase: de manera muy simple podría decirse que si en los diccionarios de frases codificadas se tiene una frase como por ejemplo “Fabricación de leche”, que por no tener necesidad de mirar otras variables tiene 3° generación “A”, quiere decir que todo operativo que traiga la descripción “Fabricación de leche”(o su equivalente en términos de campos semánticos) se codificará en forma automática y sin errores posibles3.

3 Salvo error en los diccionarios que como ya se dijo deben ser perfectos.

Page 23: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

23 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Microprocesos: son un conjunto de reglas de decisión diseñadas por los sectorialistas y utilizadas en el SiCI para que mediante palabras claves u otras variables (por ejemplo cantidad de ocupados del establecimiento) se le pueda asignar un código a una frase de actividad u ocupación que presente múltiples alternativas de codificación. Los microprocesos están dirigidos a "tomar decisiones" en forma automática a partir de la información contenida en otras variables que complementan las respuestas de la variable a codificar. Por ejemplo:

Frase de actividad ------------------------------ Empresa de transporte Códigos asignados por los codificadores--------- 60-61-62, (a dos dígitos) Si en ocupación o tarea surge información que lo conecte a trenes, transporte automotor o avión, el caso se resuelve. Así el diseño de un microproceso tomando el ejemplo anterior que daría de la siguiente forma:

Page 24: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

24 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

1) FRASE CLAVE: es la frase por la cual el registro pasa a la codificación por el método de microprocesos. Ejemplo: cuando en la descripción de actividad aparezca transportista o transporte o empresa transporte, esos casos serán codificados según el esquema presentado.

2) RESTRICCIÓN: determina si existe algún dato para definir un código.

3) CÓDIGO CAES QUE CORRESPONDERIA SI HAY RESTRICCIONES

4) CÓDIGO GENERAL SI NO SE ENCUENTRA RESTRICCIONES, es decir que si no entró a ninguna respuesta SI

de las restricciones queda como código asignado.

5) PALABRAS DE LAS LISTAS DE EXCEPCIONES: conjunto de palabras que funcionan como dato clave para designar un código automáticamente.

6) LISTA CLAVE: es una lista de frases que tienen igual significación que la frase clave y que deberían tener el mismo diseño de microproceso.

También puede tomarse como tamaño del establecimiento o si la empresa en la que trabaja la persona es una empresa pública o privada. Por ejemplo:

Scores: es un método que combina dos elementos. Por un lado la “especificidad” que cada palabra tiene respecto a los distintos códigos. Por ejemplo la palabra leche es “más específica” que “fabricación” pues a la primera se le asocia una limitada cantidad de códigos mientras que la segunda es de uso más difundido en todas las ramas de la industria. Esto es un movimiento analítico dentro del diccionario de codificación. La especificidad de cada palabra del diccionario se mide a través del llamado “peso heurístico” que también forma parte de los diccionarios junto con los literales y los códigos. Por el otro lado, el score también analiza la relación entre las frases del diccionario y las frases a codificar. Dada una frase a codificar, el “score” permite elegir “frases candidatas” dentro de la “oferta” que da el diccionario. Esas “candidatas” se eligen teniendo en cuenta el mayor número de palabras comunes entre

Page 25: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

25 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

la frase a codificar y las frases del diccionario. Cuanta mayor coincidencia es de entre ambos tipos de frases, mayor será el “score”. Score 10: se produce cuando la frase a codificar encuentra una “frase con la misma palabra” en el diccionario independientemente de su orden. Sin embargo el autofrase ya eliminó de la base a codificar aquellas que tiene el mismo orden. Score < 10: en este caso la coincidencia entre frases a codificar y candidatas no es perfecta.

Ejemplo de frase a codificar: Fabricación de golosinas y galletitas i) Ejemplo frase score 10 Fabricación de galletitas y golosinas ii) Ejemplo de frase score < 10 Fabricación de golosinas.

Autopalabra: es un método de codificación automático o directo que permite la asignación de un código único sin intervención de los codificadores. Para esto, utiliza un diccionario de codificación formado exclusivamente por palabras y los códigos asociados según la frase de la cual provengan. En la práctica, este método se ha abandonado pues el grado de error da por encima del 50% y el porcentaje a codificar, dado que es un método que se aplica a los casos que no se pudieron codificar por otros métodos, es extremadamente bajo. 6.- Prueba piloto del SiCI en el Censo Experimental de Pergamino A fines de 1999, dentro de las actividades previstas en el cronograma del censo 2001, se realizó un censo experimental en la localidad de Pergamino que dio origen a una base a codificar de 35567 registros. En ese operativo se realizó la prueba de los diccionarios de lectura y se ensayó la corrección ortográfica que alimento en forma diaria los diccionarios de lectura provistos inicialmente. Ello permitió mejorar los procesos previstos hasta adoptar la forma actual. En términos de los resultados de la etapa de pre-codificación, la manipulación de las frases a través de la aplicación de los diccionarios corrector, anulador y espurias mas los procesos de estandarizado, aplicación de los campos semánticos o familiarizado y reducción a frase única, la base a codificar se redujo de 35567 a 11745 registros, esto es un 67 %; siendo este el punto de partida de la base a codificar. Con relación a la codificación se realizaron dos pruebas, una que finalizó en junio de 2000 y una segunda que se acaba de terminar. Haciendo una síntesis de los resultados obtenidos a este momento se tiene: Codificación Automática para actividades:

Base: Pergamino, octubre de 1999 Registros a codificar: 35.567 Se codificó sobre la base del Clasificador de Actividades económicas para Encuestas Socio demográficas para el Mercosur (CAES), a 4 ó 2 dígitos y categoría de tabulación (letra).

Método Autofrase Score 10 Micro-procesos

Scores entre 8.5 y 10 *

Autopalabras

Cantidad de codificados 5699 799 9908 8971

1026

Porcentaje 16,02 2,25 27,86 25,22 2,88

Error promedio 0 % <6% 30 % 50%

*método aún no calibrado

Page 26: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

26 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Conclusiones: el método de microprocesos aún tiene un potencial sin explotar que daría un margen para aumentar el porcentaje de codificación tratando a la vez de reducir aún más el porcentaje de error. Queda todavía definir el error máximo a tolerar. El método scores < 10 si bien ha dado errores muy altos, cercanos al 30%, también es cierto que aún queda por trabajar los valores críticos de los scores por rama de actividad y definir un valor de dispersión mínimo entre los scores de las frases candidatas. Dado los errores producidos por el método de autopalabras y el escaso aporte que realiza a la codificación el método queda descartado. Codificación automática para ocupaciones: Luego de la primera prueba de codificación informatizada para la pregunta abierta de ocupación (informe de junio de 2000) se dieron dos nuevos pasos: 1) correcciones en los procesos con palabras clave 2) aplicación de la estandarización de palabras antes de aplicar los mencionados procesos Correcciones y nueva corrida del programa: a partir de los resultados obtenidos en la primera prueba, en cuanto a cantidad y calidad de la codificación informatizada, se corrigieron los principales errores encontrados y se amplió el campo de la codificación mediante la creación de nuevos procesos. La corrección consistió tanto en el agregado como en la reducción o modificación de los listados de palabras y restricciones ligados a los procesos. La ampliación del campo de la codificación informatizada supuso la creación de nuevos procesos que no habían sido considerados en ocasión de la primera prueba, ya sea porque en principio nos centramos en los procesos que consideramos más importantes, ya sea porque el análisis de los casos que quedaron sin código asignado revelaron la posibilidad de crear nuevos procesos. Luego se corrió nuevamente el programa sobre la misma base de datos de referencia Los resultados comparativos entre la primera y la segunda prueba son los siguientes: Prueba 1 Prueba 2

Casos con código asignado 44,4% 60,8% Casos codificados 35,0% 48,0%

Casos embolsados 9,4% 12,8% Casos no codificados 55,6% 39,2%

Total de casos 35.567 35.567 Como se ve, se produjo un incremento muy sensible en la cantidad de códigos asignados: aproximadamente un 33% más que en la primera prueba. Y si bien el incremento porcentual es aproximadamente el mismo en los dos rubros que integran este ítem (casos codificados y casos embolsados), la mayor proporción del primero (en una relación de 4 a 1 respecto del segundo) implica que en valores absolutos los nuevos resultados sean muy significativos. Estandarización de palabras y nueva aplicación de los procesos: un método para expandir el rango de aplicación de los procesos es la estandarización de las palabras. Consiste básicamente en reducir las palabras (tanto las de la información empírica como las de las palabras clave de los procesos y sus listas de restricciones asociadas) a su raíz. Como parte de la segunda prueba de codificación informatizada se realizó una codificación utilizando la estandarización. Los resultados fueron los siguientes:

Page 27: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

27 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Casos con código asignado 66,8% Casos codificados 54,8%

Casos embolsados 12,0% Casos no codificados 33,2%

Total de casos 35.567 Como se ve, los casos con código asignado pasan de 60,8% (sin estandarizar) a 66,8% (estandarizando), es decir, se incrementan 6 puntos (10% relativo) utilizando los mismos procesos de codificación con palabras clave. La única diferencia entre ambas situaciones es la estandarización de las palabras. Además, el incremento se produce totalmente en los casos codificados en forma directa, ya que los casos embolsados incluso disminuyen. Esto indica un buen camino a seguir. Control de calidad Para la Prueba 14 se realizó un control de calidad sobre los casos con código asignado (15.788 casos). Los resultados de este control difieren conceptualmente de acuerdo a si los errores localizados se encuentran entre los casos codificados o entre los casos embolsados: los errores entre los casos codificados son "definitivos": un código único es asignado por proceso automático y

este será el código final a menos que actúen otras instancias de verificación y control; los errores entre los casos embolsados son "no definitivos": el código asignado por proceso automático es

provisorio, orientativo para la instancia de codificación asistida; si el código genérico asignado es erróneo ("orienta mal") esto aún puede ser subsanado por el codificador que deba asignar el código final, ya sea asignándole el código correcto o derivando el caso a otra instancia de codificación.

Para el control de calidad se revisó una muestra del 10%. Dicha muestra incluyó por lo tanto 1.579 casos con código asignado. El resultado fue el siguiente:

Casos con código asignado incorrectamente 7,5% Errores "definitivos" 5,5% Errores "no definitivos" 2,0%

Casos con código asignado correctamente 92,5%

4 Actualmente se está realizando el control de calidad de la Prueba 2

Page 28: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

28 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

El siguiente material muestra cómo fueron procesadas, en sus inicios, las palabras que conforman los distintos

diccionarios del SiCI. Si bien se muestra el procesamiento para actividad, es aplicable a otras variables.

Hoy algunas de las reglas y formas de proceso de las palabras han sido superadas. Por tratarse de una recopilación

no se ha modificado su contenido.

CORRECCIÓN ORTOGRÁFICA

Page 29: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

29 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

CORRECCIÓN ORTOGRÁFICA

1. Objetivos

2. Criterios utilizados en la tipificación de palabras

a. Criterios de selección

b. Criterios de corrección

c. Criterios de lectura

d. Criterios de normalización

e. Características distintivas de las palabras espurias y anuladas

3. Reglas operativas utilizadas en la tipificación de las palabras

Anexo capítulo corrección ortográfica: tabla de caracteres de normalizado

Page 30: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

30 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Actividades

En esta sección se presenta la experiencia recogida durante la elaboración del proceso de corrección ortográfica de la variable actividad. Al respecto es importante puntualizar: No se debe confundir al proceso de corrección ortográfica con la tarea de aplicación de las reglas ortográficas del idioma castellano, ya que el SiCI normaliza todas las frases eliminando: comas, puntos y acentos, entre otros signos. La implementación de la corrección ortográfica es un proceso relevante a la hora de conformar los diccionarios. Es aquí donde se definen las reglas operativas que permitirán el ingreso o el egreso de las palabras a cada uno de ellos. Es decir, en esta etapa se estableció el contenido concreto de cada diccionario y se afianzaron los conceptos de palabras espuria, conector, excepción y anulada que se utilizan en el SiCI. Los criterios elegidos para tipificar las palabras que forman las frases de actividad, están de acuerdo con el rol que cada una tiene en la frase, desde el punto de vista gramatical y codificatorio. Todas las reglas operativas de índole gramatical o semántica, desarrolladas durante este proceso, han sido adoptadas en el diseño del SiCI como normativa y por lo tanto impactan en los procesos de armado de campos semánticos y de microprocesos que se explicarán en otros documentos. El proceso de corrección ortográfica tuvo como fuente los diccionarios armados a partir del Proceso Diccio descripto en otro documento. El siguiente esquema representa al proceso de corrección ortográfica: PROCESO

Anterior Actual Posterior

Diccionario Diccionario

P P E S

input output

De esta forma las reglas operativas utilizadas en este proceso permitieron pulir los diccionarios del Proceso Diccio para conferirle una mayor eficiencia en su uso durante el armado de los campos semánticos, los microprocesos, en la etapa de corrección automática y en la codificación.

Proceso Diccio

Corrección Ortográfica

Campos Semánticos Microprocesos

Page 31: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

31 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

1. Objetivos La corrección ortográfica se llevó a cabo con los siguientes fines: Acondicionar los diccionarios ya descriptos en el Proceso Diccio a los efectos de unificar los criterios de

inclusión de las palabras en cada uno de ellos. Los diccionarios5 afectados al proceso de corrección ortográfica fueron:

Diccionario de palabras correctas (P) Diccionario de palabras espurias (E) Diccionario de sinónimos y diccionario corrector (S-CR) Diccionario de palabras anuladas (A) Diccionario de conectores (C ).

Crear las reglas operativas necesarias para solucionar los casos difíciles de tipificar, como así también

resolver las dificultades encontradas en la unión de palabras que, de aplicarse los criterios de inclusión, hubiesen llevado a la pérdida de información relevante.

2. Criterios utilizados en la tipificación de palabras

Para el desarrollo de los diccionarios fue preciso partir de pautas o criterios de selección de las palabras, que permitieran armar los mismos con contenidos homogéneos. Según el diccionario, las pautas de selección fueron las siguientes:

a) Criterios de selección: se refieren a cómo se selecciona el diccionario en el que cada palabra debe incorporarse.

Palabra ESPURIA: se consideran como tales aquellas que son neutras en la tarea de asignación de códigos, ya que no reportan información de relevancia para los nomencladores que se utilizan. Para que una palabra sea espuria debe ser neutra para todos los códigos del nomenclador en cuestión. En tal sentido, una palabra puede ser espuria para el nomenclador de actividades y no para el de ocupaciones y viceversa; aunque también puede darse el caso que sea "universalmente" espuria.

URUGUAY SA $ BRITANICO B°SAN STAFE

VGOBGALVEZ BBLANCA ALEJANDRO ARGERICH D LU4

N506 TOMASSINI U7

5 Ver las definiciones de los diccionarios en el capítulo N° XXXXXX de Proceso Diccio.

Page 32: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

32 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Palabra ANULADA: se consideran como tales aquellas que carecen de significado para el idioma español y/o para la jerga de las actividades, los productos y las ocupaciones, entre otras variables sujetas a ser codificadas en forma automática.

GAN ADERAS DIAR IO COS INSTA

AGROPE PRO

Palabra SINÓNIMO: se consideran como tales las palabras que reemplazan a otras no por su significado sino para producir la corrección. Es decir, no reviste el mismo rol que los sinónimos en el idioma español, sino que funcionan como palabras correctoras que a los efectos del SiCI tienen el mismo significado que la palabra original proveniente del relevamiento en cuestión.

CORP = CORPORACION SINGUERIA = ZINGUERIA

TV = TELEVISION BONCE = BRONCE

Palabras LOCALES: se consideran como tales aquellas que denotan el nombre de una tipología de local, que para el SiCI facilita la tarea de asignación de códigos pues los locales son la síntesis de una frase que manifiesta una determinada actividad.

Por ejemplo: "bicicletería", es lo mismo que encontrar una frase que diga "Venta y reparación de bicicletas y otros rodados”;

"verdulería", es lo mismo que decir “Ventas de frutas, verduras y hortalizas”.

Palabras CONECTORES: se consideran como tales aquellos vocablos que cumplen un rol de nexo entre las palabras que componen la frase, pero que no tienen ninguna participación en la asignación de los códigos.

E BAJO QUE LA AL Y CABE ETC. LAS DEL U CON ETCETERA EL SU O DE ETC LO SUS

Y/O DESDE TODA LOS OTRA EN TODAS LE OTRO ENTRE COMO LES OTRAS POR ASI UNA OTROS SIN NI UN

SOBRE SI

TRAS SE

Page 33: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

33 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Palabras EXCEPCIONES: son consideradas como tales aquellos vocablos que cumpliendo con el mismo rol que los conectores, no se consideran dentro de éstos debido a que modifican el sentido de las frases y pueden alterar la asignación de los códigos.

NO PARA

EXCEPTO A

Palabras MÁQUINAS Y EQUIPOS: se consideran como tales aquellas palabras que hacen referencia a nombres de máquinas y equipos, en contraposición a instrumentos simples o herramientas. Dentro de esta categoría máquinas y equipos existen dos grupos: electromecánico e informatizado. Todas estas palabras sólo forman parte de los diccionarios de ocupaciones.

Ejemplos de:

Maquinarias Equipos ESTAMPADORA DE TELA TOMOGRAFO COMPUTADO

PRENSA HIDRAULICA RADAR MAQUINA INYECTORA DE PLASTICO

VEHICULOS MOTORIZADOS

Palabras CORRECTAS: son aquellas palabras escritas en forma adecuada y que no están incorporadas en ninguna de las categorías anteriores. En términos del proceso de armado de los diccionarios, este es un diccionario residual que surge de aplicar los criterios antes mencionados al diccionario armado sobre la base de palabras originales provenientes de los relevamientos.

Incluye: siglas fácilmente reconocibles. Ya que, muchas de ellas, pueden llegar a definir un código.

En el área del SiNN, se elaboró una tabla con el fin de tener un lugar fuera del sistema en donde se pudieran ir volcando las palabras correctas que surgieran a partir del resultado de reuniones del equipo de trabajo, o de consultas. Consta de cuatro columnas:

En la primera, se volcó el nombre del registro. En la segunda, se escribió la palabra tal cual aparece en el registro. En la tercera, se colocaron las palabras que para el SiCI tienen valor de correctas, es decir, que ante la presencia de algún conflicto se tomó la decisión –reunión mediante- de escribirla de esa manera para satisfacer los requerimientos del sistema. Si la palabra está escrita en inglés, se registra también el plural si apareció en singular. La cuarta, se reservó para las observaciones. Aquí se aclaró cómo se decidió, bajo qué circunstancias o a partir de qué bases se fueron tomando. También se aprovechó para indicar errores existe algún error ortográfico o reglas viejas descubiertos en una publicación, tales como el diccionario del SiNN o Notas

Page 34: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

34 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Explicativas; de esta manera antes de hacer una publicación se podría hacer una revisión de la lista y proceder a volcar los arreglos allí anotados. Se haría un filtro para ver cuáles de las palabras se encuentran en esta situación. De esta manera ya vamos contamos con un listado de correcciones a llevar a cabo en el momento de lanzar una nueva edición de cualquiera de las publicaciones que el SiNN elabora.

El cuadro 2 presenta parte del archivo a modo de ejemplo:

Cuadro 2

Origen y N° del Registro

Palabra del registro

Palabras correctas para

el SiCI

Observaciones

FRAEPHNO SWEATERS SUETERES RECORDAR corregirlo en el diccionario del SiNN.

“ BUREAU BURO Consultado con ACADEMIA ARG. LETRAS.

“ BOULEVARD BULEVAR Consultado con ACADEMIA ARG. LETRAS.

PREVENCIONAL PREVENTIVA Consultado con ACADEMIA ARG. LETRAS. En el registro dice:

“seguridad prevencional”. No existe este último como vocablo.

FOLKLORICA FOLCLORICA CD diccionario de la real academia española

CONTAINERS CONTENEDORES

En la pág. 245 del diccionario del SiNN acepta las dos acepciones.

En las Nuevas NE solo dice contenedores en el 34200.

REMMIS REMIS Posibilidad BA BUENOS AIRES FRAEPHNO STAFE SANTA FE FRAEPHNO BBLANCA BAHIA BLANCA

TERGOPOL TELGOPOR CORREGIRLO EN EL DICCIONARIO DEL SiNN

DiNUE ALBUNES ALBUMES

b) Criterio de corrección: se refiere a la tarea previa que se debe realizar cuando una palabra está escrita en forma incorrecta. En primer lugar se debe armar su sinónimo y luego, a la palabra correcta, se la incorpora en el diccionario de palabras correspondiente según los criterios antes mencionados.

c) Criterios de lectura: para conformar el diccionario de lectura, se deben unir los diccionarios: (P), (E), (L)6,

(M)7, ( C)8 y (X)9 que tienen la particularidad de contener palabras correctamente escritas.

6 Su definición se encuentra en el capítulo de Proceso Diccio.

7 Su definición se encuentra en el capítulo de Proceso Diccio.

8 Su definición se encuentra en el capítulo de Proceso Diccio.

9 Su definición se encuentra en el documento de Proceso Diccio.

Page 35: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

35 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

d) Criterios de normalización: a continuación se describen las diferentes decisiones tomadas con el fin de

normalizar las palabras que forman los diccionarios. El sistema está diseñado de manera tal que todas las palabras que forman parte de los registros estén siempre normalizadas de la siguiente manera:

en letras mayúsculas,

sin los caracteres que se eliminan o se reemplazan en forma automática como por ejemplo: puntos, comas, acentos, diéresis, y otros que figuran en el anexo de este capítulo,

sin errores de ortografía y,

sin abreviaturas.

Características distintivas de las palabras espurias y anuladas

Si bien tanto las palabras “espurias” como “anuladas” deben ser eliminadas durante el proceso de corrección, es preciso destacar sus características diferenciales ya que las espurias si bien no sirven para codificar son de relevancia en el proceso de lectura. 3.1 Palabras espurias: son palabras que poseen significado literal y están escritas de manera correcta (ver criterio de corrección) ) pero no son útiles para asignar un código. Debido a que los diccionarios de palabras tienen asociado un peso heurístico10, que se utiliza luego en el proceso de codificación automática mediante scores, la presencia de palabras “inútiles” sólo introduce ruido al proceso. En general, todas ellas son de baja frecuencia. Sin embargo, al mismo tiempo durante la lectura por scanner, si estas palabras no se incluyen en los diccionarios se incrementará el porcentaje de palabras “no reconocidas” aumentando la tarea manual. Por ello las espurias se incluyen en el diccionario de lectura y se excluyen en el diccionario de codificación.

Los diferentes casos de palabras espurias son:

Nombre/s y/o apellido/s de personas (excepto aquellos que representan empresas que puedan definir un código)

Nombres de lugares geográficos Excepción:

IBERIA: ya que puede ser el nombre de la aerolínea y en ese caso debe formar parte de un diccionario de empresas –aún sin definir-.

Nacionalidades y gentilicios

Nombres de empresas que no sean fácilmente reconocibles

Ejemplos:

ESPUMI COMPY Abreviaturas (excepto siglas)

Page 36: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

36 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Todos los números

Incluye

Números ordinales Números cardinales DÉCIMO ART65

1° 1ERA

Nota: los números cardinales se anulan con el normaliza do. Verlo en el anexo del final de capítulo.

Excepciones números romanos, pues se confunden con letras. Nota de atención: cuidado con la “X” ya puede ser “por” (venta x mayor) o una máquina (rayos X) Adjetivos

Sociedades comerciales o Tipo jurídico de una empresa: SA, SRL, entre otras.

Cargos (tomado como empleo honorífico o dignidad); jerarquías militares; títulos universitarios o terciarios,

tales como: Dr. o Lic.; y expresiones tales como: San o Santa11. Meses del año

3.2 Palabras anuladas: son palabras que carecen de significado literal. Se originan en errores de tipeo, en la lectura y/o redacción y no se les puede atribuir ninguna palabra para realizar una corrección. Surgen generalmente por partes de palabras que se cortaron al medio por alguna razón.

Ejemplo: La palabra computadora se presenta por la mitad de esta manera: “compu” “tadora”. Una rápida solución sería unir los dos restos de la palabra. Pero lo que se busca es la sistematización. Es decir, que el sistema forme un par ordenado a partir de una parte de la palabra “compu”. Entonces el par queda formado con: compu /computadora. La segunda parte “tadora” no puede relacionarse con una palabra específica o bien puede hacerse con un espectro amplio de palabras, por lo tanto forma parte del diccionario de palabras anuladas.

Conclusiones

Por lo dicho anteriormente para armar los diccionarios es necesario contar con conocimientos técnicos de los diferentes clasificadores de actividades y productos. Es por ello que estos diccionarios son creados por técnicos que trabajan con nomenclaturas, ya que son ellos quienes determinan qué palabras son relevantes para codificar y cuáles no.

11

recordar que puede que estos conceptos sean válidos para actividades y no para ocupaciones.

Page 37: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

37 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Las tipologías de palabras si bien respecta como guía pautas dadas por la gramática del idioma, han sufrido algunas modificaciones para transformarlas en pautas gramaticales de este otro lenguaje que es el de las clasificaciones.

Reglas operativas utilizadas en la tipificación de palabras

Sirven para solucionar los problemas que se presentaron como producto de la aplicación de los criterios. Los casos que se presentaron y las soluciones adoptadas son los siguientes:

Regla operativa 1, caso dos o más palabras claves12 bien escritas que no tienen espacio en blanco entre ellas

Ejemplos: PAPELERAVENTA

MENORCOMERCIO EDUCACIONCOMEDOR EMPRESARIALNUCLEA

FINCAVIÑAS MADERAFABRICA

NATURALESPARQUE DOMICILIARIASREPARACIONES

LOCALBIJOUTERIE JUEGOSACTIVIDADES

GRANJAVENTA

Regla 1: si en un registro se presentaran varias palabras o sílabas “pegadas” (sin que exista entre ellas espacios en blanco) y éstas son claves O BIEN PONER QUE SON CLAVES PARA LA CODIFICACION, se debe considerar a todo el

bloque -palabras o sílabas pegadas- como una palabra correcta. Cada una de estas palabras pasan a formar parte del diccionario corrector.

Regla operativa 2, caso dos o más palabras claves con errores ortográficos que no tienen espacio en blanco entre ellas

Ejemplos:

PAUQUETERAVENTA DISTRIBUBMAYORISTA

Regla 2: si el bloque de palabras claves no estuviera bien escrito, se le debe corregir la ortografía. Se generan entonces sinónimos.

Regla operativa 3, caso dos o más palabras que no tienen espacio en blanco entre ellas

12 Palabras claves: se ajustan al esquema necesario para llegar a la codificación. Éste es: ACCION-PRODUCTO-MATERIA PRIMA-DESTINO.

Page 38: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

38 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Ejemplos: SUPERMERCADOSECCION

VIEJASCARTON PRIMERAPOLICIA

DEJUGO PROFDE

PRODCDE SUPERVDE

Regla 3: si alguna de las partes del bloque no es clave, se debe anular la palabra, abreviatura o sílaba no clave y se

debe conservar como sinónimo el resto del bloque que sí es clave.

Regla operativa 4, caso dos o más palabras que no tienen espacio en blanco entre ellas y que alguna de ellas es indefinida

Ejemplos:

ACTIVDEPORTIVA Regla 4: si alguna de las partes del bloque creara algún conflicto en cuanto a su interpretación, se debe completar la palabra o sílaba en cuestión y se debe conservar como sinónimo el resto del bloque.

No entendí cómo se procede en este caso, por eso puse los .....................

Regla operativa 5, caso dos o más palabras claves que no tienen espacio en blanco entre ellas y que alguna de ellas

está abreviada

Ejemplos: SERVMEDICOS FABLADRILLO

MAQSOLDADORAS ARTPARA

VTAMAYORISTA METALURGICOFCADE

ESCSECUNDARIA

Caso particular o excepción: VTASAL Puede considerarse como proveniente de las palabras VENTAS AL, o bien de las palabras VENTAS SAL.

Decisión: considerarla como sinónimo de la palabra VENTAS cuando este bloque de palabras se presente fuera de contexto.

Regla 5: si el bloque de palabras claves posee una abreviatura, se debe completar la abreviatura y todo el bloque formado de esta manera es el sinónimo del bloque primitivo.

Page 39: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

39 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Regla operativa 6, caso par ordenado: relación entre una palabra incorrecta y una palabra correcta. Las palabras incorrectas pueden ser generadas, entre otros motivos por: errores de tipeo:

o inversión de letras o repetición de letras o un espacio entre medio de una palabra

errores ortográficos abreviaturas: deben reemplazarse por las palabras que correspondan, siguiendo el contexto del registro en

el que ese esté trabajando, pero siempre se deben relacionar con una y solo una palabra correcta.

En el cuadro 1 se esquematiza el razonamiento que se lleva a cabo para conformar el par ordenado y para ejemplificar el tema.

Cuadro 1 – Pares ordenados de palabras

Par ordenado Palabra incorrecta Palabra correcta Va al

diccionario corrector (SI/NO)

Decisión Tipo de error ortográfico

Observación

NIBORISTA MINORISTA SI S Tipeo CORP CORPORACION no S Abreviatura

CONFECCCION CONFECCION SI S Tipeo MERC MERCADERIA NO S Abreviatura GRAL GENERAL SI S Abreviatura

ART ARTICULO NO S No se mantiene la relación palabra incorrecta-correcta ya que en otro

contexto se puede tratar de las ART (Aseguradoras de Riesgo de

Trabajo).

MTS METROS SI S Abreviatura ALIMEMTICIOS ALIMENTICIOS SI S Tipeo

AUUTOMOTORES AUTOMOTORES SI S Tipeo Referencia: sinónimo (S) o espuria (E) con relación a la palabra incorrecta.

Page 40: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

40 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Anexo capítulo corrección ortográfica: tabla de caracteres de normalizado

El primer caracter entre comillas puede ser reemplazado por otro caracter, un espacio en blanco o se suprime el caracter.

El caracter se reemplaza con "." "" "=" " " ";" " " " , " " " "(" " " ")" " " "'" "" '"' " " "[" " " "]" " " ":" " " "-" " " "_" " " "*" " " "/" " " "\" " " "%" " " "'" " " "´" " " "`" " " "ñ" "Ñ" "À" "A" "È" "E" "Ì" "I" "Ò" "O" "Ù" "U" "Á" "A" "É" "E" "Í" "I" "Ó" "O" "Ú" "U" "à" "A" "è" "E" "ì" "I" "ò" "O" "ù" "U" "á" "A" "é" "E" "í" "I" "ó" "O"

Page 41: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

41 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

"ú" "U" "Ü" "U" "ü" "U" "0" "" "1" "" "2" "" "3" "" "4" "" "5" "" "6" "" "7" "" "8" "" "9" ""

Page 42: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

42 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

PROCESO DICCIO

Page 43: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

43 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Proceso Diccio13 En esta sección se describe el método denominado Proceso Diccio, utilizado para crear la múltiple variedad de diccionarios que alimentan al SiCI. Es en la ejecución de este proceso donde se logró explicitar cada uno de los pensamientos y decisiones que el codificador llevó a cabo durante la ejecución de su tarea, y que luego fueron tomados como modelo en el desarrollo del SiCI. Para la implementación sistemática y uniforme del método, se creó una pantalla que fue utilizada por los sectorialistas14 que participaron en el proceso. Objetivos El objetivo del Proceso Diccio es armar los elementos (tipologías de palabras, códigos y tercera generación) que constituyen los diferentes diccionarios que alimentan al SiCI y a la lectora óptica, esta última utilizada solo en el caso particular del Censo de Población y Vivienda 2001. Los diccionarios que surgen de este proceso son:

Diccionarios de frases: frases contenidas en las bases fuentes y que pueden estar o no codificadas.

Diccionario de frases originales: estas frases son las contenidas en los archivos fuente, a las cuales se les realizó un proceso de normalización que consiste en eliminar espacios en blanco, signos excesivos, depuración y dejar todo en mayúsculas, se trata de un proceso automático. Sin embargo estas frases no sufren modificación mediante el proceso de corrección, por lo tanto se mantienen en su contenido original.

Diccionario de frases corregidas codificadas: son frases que surgen del Proceso Diccio, realizada la corrección ortográfica quedan todas las palabras correctamente escritas, estas luego son codificadas al mayor grado de desagregación posible según la información disponible y asignada su correspondiente dígito de tercera generación –que es el que indica, el método por el cual se llegó al código-.

Diccionarios de palabras: surgen de la descomposición de las frases que provienen de las bases fuentes y del Proceso Diccio. Según el rol que esas palabras cumplan dentro de la frase a los efectos del SiCI se forman los siguientes tipos de diccionarios de palabras:

Diccionario de palabras correctas (P): palabras bien escritas, relevantes para la asignación de los códigos.

13 El desarrollo informático estuvo a cargo de Juan José Brión y Silvina Gijón de la Dirección de Informática. 14

Para mayor información consultar: INDEC, (1999), Serie Análisis y Comentarios N° 1, “Hacia un Modelo Integral de Clasificaciones de Uso Estadísticos”, Sistema Nacional de Nomenclaturas (SiNN).

Page 44: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

44 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Diccionario de palabras espurias (E): palabras bien escritas, que no tienen relevancia en la asignación de los códigos. Por ejemplo en la frase “Fábrica de muebles de madera laqueada”, la palabra “laqueada” es espuria, ya que no aporta ninguna información a la hora de codificar.

Diccionario de sinónimos y diccionario corrector (S-CR): relación entre palabras correctas e incorrectas. El diccionario de sinónimos contiene los pares de palabras incorrectas-correctas que provienen de la corrección ortográfica. En cambio, el diccionario corrector es la parte del diccionario de sinónimos que puede ser aplicada en forma general en un proceso de corrección automática, sin afectar el sentido de las frases. Al encontrarse la frase: Fabricación de art de bazar, el par de palabras art-artículo conforman un sinónimo; sin embargo no puede tomarse ese par como “corrector” ya que en algunas ocasiones art significa: aseguradora de riesgo de trabajo, por lo tanto no puede reemplazarse dicha abreviatura en forma general por la palabra artículo ni la frase aseguradora de riesgo de trabajo.

Diccionario de palabras anuladas (A): palabras que carecen de sentido. Por ejemplo letras sueltas como: Z, H; excepto la X.

Diccionario de locales (L): palabras correctas que hacen referencia a nombres de locales como por ejemplo verdulería.

Diccionario de máquinas y equipos (M): palabras que refieren a nombres de maquinaria y equipo, por ejemplo computadora.

Diccionario de conectores (C): palabras que tienen la función de vincular los vocablos relevantes de las frases como por ejemplo, preposiciones y artículos.

Diccionario de palabras excepciones (X): son los conectores que deben excluirse del diccionario (C), por alterar el sentido de la frase a los efectos codificatorios. Son ellos “para”, “no” y “excepto”. “a”

Diccionario de lectura (LT): es aquel utilizado en el proceso de lectura óptica, que está conformado por los diccionarios: (P) + (E) + (L) + (M) + (C) + (X).

¿Qué es el Proceso Diccio? El Proceso Diccio, es un conjunto de tareas realizadas con el fin de crear los diccionarios de frases y palabras que alimentan al SiCI. Ellas son: Corrección ortográfica: las frases que alimentan la pantalla del Proceso Diccio provienen del relevamiento de campo de los diferentes programas del INDEC y mantienen el vocabulario utilizado por los informantes o entrevistados, con la única transformación de la realizada por el data-entry. Es por ello que estas frases presentan errores de ortografía, abreviaturas, palabras cortadas, palabras faltantes y errores gramaticales. La corrección ortográfica tiene por finalidad acondicionar las frases empíricas a los efectos de obtener frases y palabras correctas, tanto desde el punto de vista gramatical como semántico. Al mismo tiempo, cada palabra es tipificada de acuerdo a su rol dentro de la frase y su relevancia a los efectos de la aplicación de un código. Codificación o corrección de los códigos: si bien gran parte de las bases fuente han sido provista con sus respectivos códigos, fue preciso realizar un proceso de revisión de los mismos y llevarlos a un nivel de desagregación que la información disponible permita. Los diferentes programas de trabajo, utilizan clasificadores de actividad con distintos niveles de desagregación –cantidad de dígitos-. Ello lleva a que, para algunas frases, los

Page 45: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

45 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

códigos asignados son el resultado de la ejecución de reglas operativas, imputaciones o soluciones de compromiso arribando así a la cantidad de dígitos requeridos. En otras frases la información disponible permitiría arribar a códigos con una mayor apertura, ya que una desagregación menor implicaría una pérdida de información. Tipología de palabras La primera generación de diccionarios se realiza partiendo de las bases de relevamiento de las fuentes, consiste en verificar la naturaleza de las bases, dichos diccionarios son:

Actividad (AC)

Ocupaciones (OC)

País (PA)

Provincia (PV)

Departamento (DP)

Localidad (LC)

Municipio (MC)

Razón social (RZ) La tercera generación surge al explicitar cuál es el método o qué elementos utiliza el codificador para poder arribar a un código de actividad. Los códigos posibles son:

A = este código indica, que el codificador asignó un código del nomenclador correspondiente a la mayor desagregación, solamente con la información de la variable de la actividad. Con esta tercera generación se alimenta el diccionario de frases únicas.

= al ser insuficiente la información descripta en la actividad, llevó al codificador recurrió a las variables de ocupación y/o tarea, para poder colocar un código de actividad.

? = se adjudica este código de tercera generación, cuando el registro por no contar con la información necesaria a los fines codificatorios, no se le puede asignar un código ni siquiera a dos dígitos.

Pantalla del Proceso Diccio La pantalla utilizada en el Proceso Diccio, se diseñó para la implementación sistemática y uniforme de las tareas antes descriptas y que fueron llevadas a cabo por los sectorialistas del SiNN, evitando de esta manera la inclusión de factores subjetivos que sesgaran los resultados obtenidos en el proceso. Es aquí donde se logró explicitar cada uno de los pensamientos y decisiones que el codificador llevó a cabo durante la ejecución de su tarea, y que luego fueron tomados como modelo en el desarrollo del SiCI. Vale aclarar que la pantalla no forma parte de la etapa de codificación propiamente dicha, sino a la etapa de elaboración de los instrumentos de codificación. Funciones de la pantalla del Proceso Diccio Las fuentes utilizadas para el armado de los diccionarios mediante el Proceso Diccio fueron, principalmente aquellas provenientes de relevamientos sociodemográficos, a saber:

Encuesta Permanente de Hogares, onda 3, año 1998 (EPH3)

Page 46: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

46 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Encuesta Prueba Piloto IV del Censo del año 2000 Pergamino (EPP4) También fueron incorporadas las frases de actividades provenientes del Directorio Nacional de Unidades Económicas (DiNUE). Las diferencias entre esta última fuente y las de índole sociodemográfica son que en el DiNUE el encuestado es una unidad empresa, mientras que en las segundas son individuos que representan a los hogares, por ello difieren en el vocabulario y la extensión de las frases. Área de información: en este área se encuentran los datos originales de las bases fuentes donde solo se puede realizar un proceso intelectual. El codificador solo puede leer, interpretar y analizar, para luego decidir si es preciso

ingresar a la zona de corrección o ir directamente al área de codificación. El sistema de ninguna forma permite editar la información para realizar cambios, ya que es preciso mantener la originalidad de la fuente empírica, que es en definitiva la destinataria del código propuesto.

El área de información tiene cuatro campos: 1 Campo de Código: en este rango se visualiza el código en el caso de que el registro haya sido codificado previamente por el área o el programa de trabajo que lo proveyó. 2 Campo de Actividad: en este campo se describe la actividad económica, que puede ser respondida por una empresa o bien, por una persona si la encuesta es de tipo sociodemográfica. 3 Campo de Ocupación: donde se describe el nombre de la ocupación de la persona entrevistada. 4 Campo de Tarea: donde se describe la/s tarea/s que realiza la persona encuestada.

1 2 3 4

Área de

tratamiento

ortográfico

Y

semántico

Área menú

de ayuda

Área de información

Área de

codificación

Page 47: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

47 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Área de tratamiento ortográfico y semántico: es el área donde se realizan las correcciones ortográficas, se procede al armado de la parte literal de los futuros diccionarios y se tipifican las palabras según su rol en la frase y su relevancia para la codificación. Esta área cuenta con dos campos:

En este sector de la pantalla se encuentran contenidas cinco tipo de columnas: 1. Palabra anterior: se encuentra la frase original, fraccionada en tantas filas como palabras la constituyan, que

proviene de la base fuente. Puede tener errores, abreviaturas, palabras cortadas y palabras superpuestas, entre otros casos. Esta columna es la única que no es editable, por lo tanto no sufrirá ninguna modificación, porque es necesario mantener la originalidad de la frase.

2. Nueva palabra: es en esta columna donde podemos observar las modificaciones realizadas en las palabras en el

caso de contener errores, abreviaturas, palabras cortadas y palabras superpuestas, entre otros casos. 3. Tipo: indica con una letra, qué función cumple la palabra dentro de la frase y según su utilidad a los efectos

clasificatorios. P palabra correcta, sin ninguna modificación. S palabra sinónima de la palabra incorrecta. C palabra considerada como conector dentro de la frase, ejemplo “de”; “y”; “por”; A palabra anulada. 4. Orden: indica el número de ubicación de la palabra en la frase. 5. Frecuencia: indica la cantidad de veces que figura la misma palabra dentro de la fuente que se está corrigiendo. Área de codificación:

En esta ventana el codificador inserta la cantidad de dígitos que la información de la frase

permita codificar.

Page 48: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

48 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

EJEMPLOS DE CASOS Corrección ortográfica, caso error de ortografía Presentación del caso: en el registro 1593 de la base EPH3, la persona encuestada declara la ocupación de modista, que su tarea es confeccionar ropa y la actividad del establecimiento en el que trabaja es la de confección de ropas. En la pantalla la respuesta ingresada se ve de la siguiente manera : Observamos que una palabra de la frase de actividad contiene un error ortográfico cuya corrección se realiza ingresando al área de tratamiento ortográfico y semántico, y posicionándonos en la fila que contiene el error, se procede a corregir la palabra, CONFESCION por CONFECCION. En la columna de tipo de palabra se le asigna la “S” lo cual significa que la nueva palabra es un sinónimo de la palabra anterior. De esta manera los diccionarios que se alimentan en este caso son: Diccionario (P) con la palabra CONFECCION Diccionario (S) con el par CONFESCION -CONFECCION Diccionario (CR) con el par CONFESCION –CONFECCION Diccionario de frases originales: CONFESCION DE ROPAS Diccionario de frases corregidas codificadas: CONFECCION DE ROPAS (este diccionario luego será completado con el código correspondiente). Corrección ortográfica, caso unión de dos o más palabras Si dos palabras que describen la actividad están unidas y además una de ellas es una abreviatura. Para realizar la separación y corrección de las mismas, se ingresa al área de tratamiento ortográfico y semántico, y posicionándonos en la fila que contiene el problema, se procede a corregir la palabra, VTASAL por VENTAS. A continuación en la columna de tipo de palabra se le asigna la “S” lo cual significa que la nueva palabra es un

Cuando la palabra CONFESCION es reemplazada por la correcta, ésta aparece en

la columna de Nueva Palabra.

En este sector se coloca el código según la cantidad de dígitos que se hayan indicado en la ventana anterior.

En este rango se inserta el código de tercera generación. Con ésto queda indicado cómo y de qué forma el codificador arribó al código del nomenclador. Los códigos de tercera generación se encuentran en una ventana oculta con las diferentes opciones.

Page 49: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

49 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

sinónimo de la palabra anterior. Para que la frase quede correcta es preciso incorporar la palabra AL y eso se realiza escribiendo en una fila vacía dicha palabra, asignándole como tipología “C” de conector. Al agregar la palabra AL, la frase quedó desordenada, por consiguiente en la columna Orden, se deben reenumerar las palabras para que la frase tenga un sentido de lectura correcto. De esta manera los diccionarios que se alimentan en este caso son: Diccionario (P) con la palabra VENTAS Diccionario (S) con el par VTASAL-VENTAS Diccionario (CR) con el par VTASAL-VENTAS Diccionario (C) con la palabra AL Diccionario de frases originales: VTASAL POR MENOR ARTICULO ALMACEN Diccionario de frases corregidas codificadas: VENTAS AL POR MENOR ARTICULOS DE ALMACEN (este diccionario luego será completado con el código correspondiente). Codificación, caso información suficiente mirando solo actividad Presentación del caso: en el registro 1687 de la base EPH3, la persona encuestada declara que su ocupación es ser operario de abastecimiento, su tarea es entregar materia prima a las personas que trabajan en las máquinas y la actividad del establecimiento en el que trabaja es la de fabricar telas. En la pantalla la respuesta ingresada se ve de la siguiente manera:

La información disponible en la actividad nos permite asignar el código del nomenclador de actividad a la mayor desagregación posible, asignando el código 1711.4. El siguiente paso es indicar la tercera generación, esto quiere decir, de qué manera el codificador llegó a determinar el código 1711.4. En este caso el código de tercera generación que le corresponde es A.

Page 50: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

50 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

En este caso se alimenta el: Diccionario de frases corregidas codificadas: FABRICACION DE TELAS con el código 1711.4 y la tercera generación A. Codificación, caso información insuficiente en actividad: Presentación del caso: en el registro 16327 de la base EPH3, la persona encuestada declara que su ocupación es ser chofer de remis, su tarea es la de levantar pasajeros y la actividad transporte de pasajeros. En la pantalla se ve de la siguiente manera:

La información disponible en la actividad es insuficiente; por lo tanto se debe recurrir a la información declarada en la ocupación y la tarea para poder asignar un código, en este caso corresponde el código 602.22 del nomenclador de actividad. Por lo tanto, como se ha recurrido a la variable descripta en la ocupación y/o tarea para poder codificar la tercera generación que le corresponde es O. Queda alimentado así el siguiente diccionario: Diccionario de frases corregidas codificadas: TRANSPORTE DE PASAJEROS con su código 602.22 y tercera generación O.

Page 51: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

51 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Codificación, caso información insuficiente para codificar: Presentación del caso: en el registro 2784 de la base EPH3 la persona encuestada declara que su ocupación es proyectista, su tarea es realizar proyectos para la destilería y la actividad destilería. En la pantalla se ve de la siguiente manera:

En este caso la información descripta en las tres variables, que figuran el área de información no alcanza para asignar un código numérico, solo letra C (Industria Manufacturera). Luego de terminada la codificación, para completar los códigos se aplica un método estadístico.

Page 52: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

52 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

CAMPOS SEMÁNTIC0S

Page 53: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

53 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

CAMPOS SEMÁNTICOS15

La idea de crear “campos semánticos” surgió con el objetivo de reducir la cantidad de palabras que, aunque sean

semánticamente diferentes pueden agruparse en un conjunto por estar asociadas a un mismo código, asignándole

a ese conjunto un nombre denominado “PADRE”, que será un apalabra representativa a las palabras agrupadas

dentro del conjunto de palabras denominadas “HIJOS”.

La oficina de nomenclaturas fue la encargada de armar los campos semánticos, dado que en ella se encuentran los sectorialistas de cada sector, por lo cual cada uno armó y controló su familia de palabras.

15

El desarrollo informático estuvo a cargo de Juan José Brión y Silvina Gijón de la Dirección de Informática.

Las palabras HIJOS se cargaron con

género y número.

PADRE

HIJOS

GOLOSINA

CARAMELOS

CARAMELO

ALFAJORES

ALFAJOR

CHOCOLATE

CHOCOLATES

CHICLE

CHICLES

BOMBOM...

BOMBONES

..........

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

GOLOSINAS

..........

GOLOSINA

S

GOLOSINAS

Por lo tanto cada una de las palabras que el sistema reconoce como hijo, la reemplaza por su correspondiente padre, esto hace que la palabra PADRE se multiplique aumentando su frecuencia.

Todas las palabras PADRES se cargaron en plural, estando el singular de dicha palabra dentro del conjunto de los HIJOS.

Page 54: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

54 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Para el armado de los campos semánticos fue fundamental, una vez realizada la tarea de elegir las palabras para el conjunto HIJOS, sacar los listados para corregir posibles errores o palabras dudosas que llevarían a la frase a una inconsistencia semántica y/o de códigos. Por ejemplo:

BANCO DE

PLAZA BANCO DE

SANGRE BANCO DE

DATOS BANCO DE LA

NACION

BANC

O

La palabra BANCO, como vemos, tiene diferentes significados, por lo tanto es una palabra conflictiva para que ingrese como HIJO, ya que es imposible asociarla a un único código.

Page 55: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

55 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Menú de

funcione

s

La tercera ventana es la puerta de entrada a la primer pantalla del campo semántico.

CAMINO DE ACCESO AL CAMPO SEMANTICO

Lista de todas las palabras PADRES, ordenadas alfabéticamente.

Page 56: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

56 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

En el menú de teclas de función que encontramos en la parte inferior de la

pantalla anterior tenemos la opción de presionar ENTER y cambiar el

nombre del grupo (“padre”).

De la misma manera pero presionando INSERT el sistema nos habilita una

ventana para agregar otro grupo.

Page 57: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

57 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Luego de presionar [F1] VER LISTAS nos aparece una ventana en la cual nos pide que le ingresemos el número de lista (de acuerdo a la CAES) de palabras asociadas a dicha lista, por ejemplo: 1504 de la CAES se corresponde con los códigos 153 y 154 de la ClaNAE, por lo tanto en esa lista vamos a encontrar palabras asociadas al “padre” GOLOSINAS.

Page 58: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

58 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Una vez que terminamos de marcar las palabras de una lista, antes de salir, el sistema nos pregunta si queremos leer otra lista..... la respuesta será SI o NO según el caso. Si una palabra aparece en dos o más listas, solo bastará con marcarla una vez para que luego al abrir otra lista en la que se encuentre esa palabra ya estará marcada.

La lista aparece ordenada alfabéticamente y las palabras elegidas aparecen con una marquita a la

izquierda de la misma

Page 59: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

59 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

El sistema también nos permite cargar palabras compuestas

Estos son casos en los que la palabra “HIJO” tiene que cargarse compuesta, ya que si la separamos, cada palabra nos llevaría a códigos distintos. Por ejemplo: AFJP SIEMBRA (palabra compuesta) -> código 6600

AFJP 6600 SIEMBRA 0101 (agropecuario)

Page 60: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

60 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Presionando ENTER, estamos habilitados para modificar las palabras compuestas, de la misma manera sucede con las palabras simples.

Page 61: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

61 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Finalmente aparecen los listados que fueron creándose a medida que avanzábamos con la carga de los grupos, ya que eran necesarios para control y consistencia.

Page 62: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

62 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Instrumentos para la corrección del campo semántico

Listado de control – “Frases con asignación de familia de palabras” Ejemplo:

Una vez finalizada la tarea de cargar los grupos de familias se procedía a imprimir para corregir: aquí se controlaba que estuviese el género y número de cada palabra, como también agregar o anular aquellas que estuvieran incorrectas. Luego se procedía a cargar en el sistema lo realizado.

Frase original normalizada, sin

conectores y corregida

ELABORACION

BOMBONES

CHOCOLATES

Frase con campo semántico

ELABORACION

(GOLOSINAS)

(GOLOSINAS)

Frase con campo reducido

ELABORACION

GOLOSINAS

Frase original

ELAV. DE

BOMBONES Y

CHOCOLATES

Page 63: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

63 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

LISTADO DE CAMPOS SEMANTICOS LISTA CON HIJOS - ORDENADO POR GRUPO

Page 64: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

64 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Instrumentos utilizados: Notas Explicativas de la ClaNAE CAES – MERCOSUR Clasificación de Actividades Económicas para encuestas

sociodemográficas del MERCOSUR. Diccionario Básico de Actividades, Productos y Ocupaciones del SiNN CD del Diccionario de la Lengua Española. Asociación Argentina de Letras – servicio telefónico – Tel.: 4802-2408

LISTADO DE PALABRAS COMPUESTAS

Page 65: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

65 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

MICROPROCESOS

Page 66: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

66 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Capítulo Microprocesos

Los Microprocesos pertenecen a la etapa de codificación del Sistema de Codificación Informatizada (SiCI) y los

definimos como el método para que, siguiendo reglas operativas construidas por medio de frases o palabras claves

u otras variables, el sistema informático pueda asignar un código automáticamente.

El objetivo de dicho mecanismo es que el porcentaje de la codificación asistida sea menor.

Construidos los diccionarios, se pudo identificar que había frases con igual descripción en el campo de actividad se

correspondían con distintos códigos de la ClaNAE-97 (Clasificación Nacional de Actividades Económicas 1997) como

resultado de la información disponible en las variables concomitantes.

Para poder entender este método a continuación veremos con ejemplos los diseños, el funcionamiento, su

estructura y los distintos tipos de Microprocesos:

Ejemplo 1

REGISTRO 1

Actividad: empresa de transporte

Ocupación: camionero

Tarea: transporto granos

REGISTRO 2

Actividad: empresa de transporte

Ocupación: manejo colectivo de línea

Tarea: transporto pasajeros

Si un codificador tiene que poner un código a cada registro, solamente mirando la descripción de actividad, no

sabría que camino tomar, porque la actividad contestada en este caso “empresa transporte” es muy abarcativa y

los códigos posibles serían el 60 dígitos, el 6100 y el 6200 de la CAES.

Page 67: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

67 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Ahora que sucede si se codifican ayudándonos con los campos de ocupación y tarea, en el primer registro nos brindan la información para poder agrandar la cantidad de dígitos del código anterior, siendo este el 6003 y en el segundo el 6004 . Por consiguiente el concepto de los microprocesos es darle al sistema una serie de reglas o decisiones para que si llegase a encontrar alguna palabra clave en los campos de ocupación y tarea, pueda definir un código más preciso.

Códigos CAES posibles a esta descripción 6001: transporte ferroviario. 6100: servicio de transporte por vía acuática. 6004: transporte automotor de pasajeros. 6200: servicio de transporte aéreo. 6002: transporte por metro. 6003: transporte automotor de carga.

Page 68: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

68 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Diseño ejemplo 1 Estructura del microproceso:

1) Nombre del Proceso: es la frase o palabra clave por el cual el registro es codificado por el método de microprocesos, en este ejemplo es una frase “empresa de transporte”. 2) Restricción: determina si existe algún dato para definir un código. Por ejemplo, una lista o algún otro tipo de variable (Cantidad de ocupados).

EMPRESA TRANSPORTE

LISTA

6001

LISTA

6002

LISTA

6100

LISTA

6004

LISTA

6200

CÓDIGO

6001

CÓDIGO

6002

CÓDIGO

6100

CÓDIGO

6004

CÓDIGO

6200

CÓDIGO

6003

SI

NO

NO

NO

NO

NO

SI

SI

SI

SI

NOMBRE DEL PROCESO

LISTA 6001 TREN

FERROVIARIO

FERROCARRIL

LISTA 6100

BARCO

LANCHA

MARÍTIMO

LISTA 6004 COLECTIVO

TAXI

MICRO

LISTA 6200

AVIÓN

AEREO

AVIONETA

LISTA 6002

SUBTE SUBTERRANEOMETRO

RESTRICCION

L

I

S

T

A

S

CÓDIGO

RESIDUAL

C

ÓD

IGO

DE

LA

R

EST

RI

CC

ION

Page 69: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

69 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

3) Lista: es el conjunto de palabras asociadas a un código que funcionan como dato clave para que el sistema designe un código automáticamente ejemplo “lista 6001”. 4) Lista Clave: es una lista de frases o palabras que a nivel codificación tiene el mismo significado que el nombre del proceso y se los considera como frases sinónimas. 5) Código Residual: es el código que resulta de no encontrar restricciones y no asignar un código en el camino del Microproceso. 6) Código de la restricción: es el código resultante de reconocer alguna palabra clave contenida en la lista de restricciones. Ejemplo 2 tomando como restricción la variable público-privado: Actividad: recursos hídricos Ocupación: supervisor Tarea: controlo al personal Diseño ejemplo 2:

Page 70: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

70 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Códigos CAES posibles a esta descripción 4500: construcción. 7501: servicios de la administración pública y prestación pública de servicios a la comunidad. Ejemplo 3 tomando como restricción la variable cantidad de ocupados Actividad: venta de pan Ocupación: panadero Tarea: vendo pan Diseño ejemplo 3

Códigos CAES posibles a esta descripción 1504: elaboración de productos alimenticios n.c.p. 5303: comercio de alimentos, bebidas y tabaco. Ejemplo 4 Actividad: hago changas

Page 71: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

71 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Ocupación: changador Tarea: hago de todo Diseño ejemplo

Page 72: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

72 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

PESO HEURÍSTICO

Page 73: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

73 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

HEURÍSTICO

En este documento se plantea una propuesta sobre la construcción de un Sistema de Codificación Automática de

las preguntas abiertas correspondientes a ocupación, rama de actividad y ubicación geográfica.

Dada la relación existente entre las respuestas de ocupación y rama de actividad, es de suma importancia la

necesidad de codificarlas conjuntamente.

En una primera etapa se codificaría rama de actividad. De acuerdo a la gran cantidad de información que se

manejaría si se contempla la frase completa en la búsqueda de un código válido, surge la necesidad de establecer

un orden de importancia entre las palabras que componen dicha frase, de manera de poder acotar la búsqueda.

Dicho orden de importancia surge de la construcción para cada palabra del diccionario de un peso “heurístico” H.

Este peso mide cuan específica es una palabra para un código en particular. Si por ejemplo “Fabricación de

guitarras” es una respuesta, es de esperar que se seleccione guitarras como la palabra mas relevante de la frase ya

que aparecería mas infrecuentemente que la palabra fabricación, la cual está asociada a muchos códigos en el

diccionario.

El cálculo de este peso “heurístico” es:

HE E

E

u w

w

donde:

E p pw i e i

i

n

log

Page 74: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

74 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

pi = proporción de respuestas que fueron codificadas con el i-ésimo código con respecto a todas las respuestas que

contienen a la palabra, donde pi

i

n

11

.

n = número de códigos en el cual aparece esta palabra.

En n

u

i

n

e1 1

log

n

n

n

ne

1 1log , valor arbitrario positivo usado para evitar el cociente por cero.

Para el cálculo de los valores H por palabra del diccionario se debe recurrir a fuentes de datos tales como la última

Onda de la EPH para todos los aglomerados16.

Siguiendo el ejemplo de Fabricación de guitarras, se toma el peso para Fabricación y para guitarras. Por lo dicho

anteriormente es de esperar que este último sea el mas alto. Con esta palabra “importante” se identifican todas las

frases del diccionario que la contienen.

Para optimizar esta búsqueda se pueden utilizar distintos filtros como los existentes en los diccionarios de 3ra

generación, es decir, Marca, Empresa, Acción-Producto, etc.

Para todas las frases encontradas en el diccionario se procede al cálculo de scores del siguiente modo:

S M

H

A A

m

m

M

r d

3 1

100

*

*

*

donde:

M = número de palabras empatadas entre la frase original y la frase encontrada en el diccionario.

Hm

m

M

1

es la suma de los pesos “heurísticos” para las palabras empatadas.

Ar es el número de palabras activas en la frase a codificar (total de palabras excluyendo las triviales y puntuación).

16

Consultar con respecto a los n y a las estimaciones por Rama a cuantos dígitos.

Page 75: Primera recopilación de documentos sobre el Sistema de Codificación Informàtica (SiCI)

75 Primera recopilación de artículos sobre el Sistema de Codificación Informatizada (SiCI)

Ad es el número de palabras activas en la frase del diccionario.

Por otra parte se debe calcular un score crítico, a partir del cual si el score de la frase lo supera se lo considera

como un candidato.

Si ocurre un empate completo, se computa un score doble (para asegurar que se asigne ese código).

Si con la palabra “guitarras” ninguna de las frases encontradas supera el score crítico comienza el proceso

nuevamente en la palabra “Fabricación”. Si tampoco en este paso encuentra una frase que supere el score crítico

entonces el sistema proporciona todas las frases posibles para la Etapa De Codificación Semi-Asistida o Manual.

Un procedimiento similar se aplicaría para codificar la variable ocupación, buscando de alguna manera utilizar las

preguntas 34, 35, 38, 41 y 42 como filtros con el objetivo de acotar la búsqueda. Se observan los pesos

“heurísticos” de cada una de las palabras de las frases de la pregunta 32 y 33, se selecciona la palabra de mayor

peso y se comienza la búsqueda a través de la misma.

Se procede al cálculo de scores para cada una de las frases. De igual manera se debe buscar algún score crítico, con

el objetivo de encontrar candidatos.

Es en este momento en que se deben vincular los candidatos seleccionados en la fase de rama de actividad con los

candidatos de ocupación y observar cuáles de ellos cumple con la relación rama-ocupación.

En caso de que un único candidato de rama esté relacionado con un único candidato de ocupación se asignan

ambos códigos. En el caso en que haya más de un candidato en cualquiera de las variables se debe calcular alguna

medida que defina.

En el caso de no encontrar ninguna relación entre las candidatas de ambas variables, se siguen los procesos por

separado, es decir seleccionar la mejor opción entre las candidatas de cada variable.