Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del...

15
Planificación de estadísticas sobre el conocimiento y los usos lingüísticos en Cataluña Esta ponencia pretende dar cuenta de un conjunto ordenado de investigaciones estadísticas que se llevan a cabo en el seno del sistema estadístico catalán en materia del conocimiento de la lengua catalana (comprensión, habla, lectura y escritura) y de los usos de esta (individual- social, empresarial e institucional) en Cataluña. Las estadísticas lingüísticas tienen ya una larga tradición en Cataluña, especialmente en lo que se refiere a las estadísticas sobre conocimiento, mientras que las estadísticas oficiales relativas a los usos lingüísticos son de implantación más reciente. 1. Estadísticas sobre el conocimiento del catalán 1.1. Censos lingüísticos del catalán La oportunidad de aprovechar operaciones censales para obtener información sobre el conocimiento y uso de las lenguas figura entre las recomendaciones de las Naciones Unidas y la inclusión en los cuestionarios de preguntas sobre diferentes aspectos sociolingüísticos (conocimiento y uso de la lengua materna, aptitud para hablar otros idiomas, etc.) es práctica habitual en más de treinta países, según la ONU. La realización de los censos lingüísticos vinculados a los censos generales de población permite una recogida exhaustiva de la población de un territorio y de sus características demográficas, económicas y sociales, entre las cuales hay las de tipo lingüístico. También permite hacer un tratamiento sistemático de las variables lingüísticas en relación al resto de variables censales. Así, desde 1981, el Institut d’Estadística de Catalunya (ldescat) ha venido elaborando los censos lingüísticos de Cataluña para establecer la estadística de las cuatro habilidades básicas dell conocimiento de la lengua catalana, relativas a comprender dicha lengua, saberla hablar, leerla o escribirla. Los conceptos y las definiciones asociadas a las preguntas sobre conocimiento del catalán en los Censos lingüísticos son los siguientes : una persona «entiende el catalán cuando es capaz de comprender una conversación sobre un tema corriente en catalán”. una persona «sabe hablar el catalán cuando es capaz de mantener una conversación en catalán sobre un tema corriente”. una persona «sabe leer el catalán cuando es capaz de leer textos corrientes como anuncios, noticias de periódico, etc”. una persona «sabe escribir el catalán cuando es capaz de redactar notas, postales, etc. con corrección suficiente, aunque no sea total”. Además, se incluye una pregunta sobre el año de llegada a Cataluña, variable básica para el análisis lingüístico, en la que se ha de responder el año desde el cual reside en Cataluña. En el caso de haber establecido la residencia en Cataluña más de una vez, se debe hacer constar la fecha de la última llegada. Estas estadísticas se han elaborado con periodicidad quinquenal para el conjunto de Cataluña a partir de la indicada fecha de 1981, si bien hay un precedente para el año 1975 aunque limitado al territorio de la provincia de Barcelona. El año 1981, fecha en que se debía llevar a cabo el censo de población y una renovación del padrón de habitantes, la Generalidad de Cataluña dictó las disposiciones correspondientes para introducir la pregunta del conocimiento del catalán y el año de llegada a Cataluña en la hoja padronal. Esto permitió, con la colaboración de los ayuntamientos, la realización por primera vez de un auténtico censo sobre la comprensión del catalán, ya que la pregunta iba incluida en el cuestionario padronal y, por consiguiente, era formulada a todos y cada uno de los ciudadanos de Cataluña. Hasta el año

Transcript of Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del...

Page 1: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

Planificación de estadísticas sobre el conocimiento y los usos lingüísticos en Cataluña Esta ponencia pretende dar cuenta de un conjunto ordenado de investigaciones estadísticas que se llevan a cabo en el seno del sistema estadístico catalán en materia del conocimiento de la lengua catalana (comprensión, habla, lectura y escritura) y de los usos de esta (individual-social, empresarial e institucional) en Cataluña. Las estadísticas lingüísticas tienen ya una larga tradición en Cataluña, especialmente en lo que se refiere a las estadísticas sobre conocimiento, mientras que las estadísticas oficiales relativas a los usos lingüísticos son de implantación más reciente. 1. Estadísticas sobre el conocimiento del catalán 1.1. Censos lingüísticos del catalán La oportunidad de aprovechar operaciones censales para obtener información sobre el conocimiento y uso de las lenguas figura entre las recomendaciones de las Naciones Unidas y la inclusión en los cuestionarios de preguntas sobre diferentes aspectos sociolingüísticos (conocimiento y uso de la lengua materna, aptitud para hablar otros idiomas, etc.) es práctica habitual en más de treinta países, según la ONU. La realización de los censos lingüísticos vinculados a los censos generales de población permite una recogida exhaustiva de la población de un territorio y de sus características demográficas, económicas y sociales, entre las cuales hay las de tipo lingüístico. También permite hacer un tratamiento sistemático de las variables lingüísticas en relación al resto de variables censales. Así, desde 1981, el Institut d’Estadística de Catalunya (ldescat) ha venido elaborando los censos lingüísticos de Cataluña para establecer la estadística de las cuatro habilidades básicas dell conocimiento de la lengua catalana, relativas a comprender dicha lengua, saberla hablar, leerla o escribirla. Los conceptos y las definiciones asociadas a las preguntas sobre conocimiento del catalán en los Censos lingüísticos son los siguientes : • una persona «entiende el catalán cuando es capaz de comprender una conversación sobre

un tema corriente en catalán”. • una persona «sabe hablar el catalán cuando es capaz de mantener una conversación en

catalán sobre un tema corriente”. • una persona «sabe leer el catalán cuando es capaz de leer textos corrientes como

anuncios, noticias de periódico, etc”. • una persona «sabe escribir el catalán cuando es capaz de redactar notas, postales, etc.

con corrección suficiente, aunque no sea total”. Además, se incluye una pregunta sobre el año de llegada a Cataluña, variable básica para el análisis lingüístico, en la que se ha de responder el año desde el cual reside en Cataluña. En el caso de haber establecido la residencia en Cataluña más de una vez, se debe hacer constar la fecha de la última llegada. Estas estadísticas se han elaborado con periodicidad quinquenal para el conjunto de Cataluña a partir de la indicada fecha de 1981, si bien hay un precedente para el año 1975 aunque limitado al territorio de la provincia de Barcelona. El año 1981, fecha en que se debía llevar a cabo el censo de población y una renovación del padrón de habitantes, la Generalidad de Cataluña dictó las disposiciones correspondientes para introducir la pregunta del conocimiento del catalán y el año de llegada a Cataluña en la hoja padronal. Esto permitió, con la colaboración de los ayuntamientos, la realización por primera vez de un auténtico censo sobre la comprensión del catalán, ya que la pregunta iba incluida en el cuestionario padronal y, por consiguiente, era formulada a todos y cada uno de los ciudadanos de Cataluña. Hasta el año

Page 2: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

1986, las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los cuestionarios correspondientes a las renovaciones quinquenales del Padrón municipal de habitantes. La posterior normativa acerca del Padrón que limitaba las preguntas padronales determinó que, mediante un convenio de colaboración entre el INE y el ldescat, se incorporasen las preguntas de conocimiento lingüístico en los cuestionarios censales de 1991. Según el convenio, el INE realizó el trabajo de campo para la recogida de los datos censales y el Idescat informatizó los datos. El archivo estadístico creado por el Institut d'Estadística de Catalunya contiene la totalidad de los datos referentes a la población de Cataluña. No obstante, como es usual en el análisis estadístico de las características lingüísticas, las tablas se refieren a la población de más de dos años, dado que en edades inferiores es difícil precisar el grado de comprensión de una lengua. Asimismo se ha de indicar que el tratamiento informático y estadístico se ha hecho sistemáticamente sobre la totalidad del archivo, no sobre una muestra que pudiese limitar los datos obtenidos. Posteriormente en el año 1996, con la realización de la Estadística de población de Cataluña por parte del Idescat, se realizó un nuevo censo lingüístico. Este censo seguía las mismas pautas anteriores tanto por lo que se refiere a las cuatro habilidades estudiadas, como en la formulación de las preguntas y también en la definición de contenidos. Asimismo se utilizó idéntica metodología para el tratamiento estadístico y explotación de la información recogida con la finalidad de garantizar la plena comparabilidad de las series. Finalmente, en el año 2001 se procedió a la actualización de las estadísticas de conocimiento de la lengua catalana con motivo de los últimos censos de población. En este año 2001 el INE incorporó las preguntas sobre conocimiento lingüístico directamente en el cuestionario censal; no obstante, en aras de asegurar una máxima eficiencia tecnológica de la operación censal en aspectos tales como el formato o la dimensión de las hojas censales, se han alterado contenidos tradicionales. Esto ha implicado, entre otras anomalías, la desaparición del cuestionario censal de instrucciones o definiciones asociadas a preguntas como las del Censo lingüístico. La no incorporación de estas instrucciones y definiciones ha tenido consecuencias negativas, ya que implica limitaciones en la comparabilidad de los resultados en relación con años anteriores. Por otra parte el modelo centralizado adoptado por el INE para la recogida de la información censal sin soporte de la Administración autonómica o municipal, ha supuesto en ocasiones graves problemas en la contratación de personal de campo, que se ha traducido en una inexhaustividad en la recogida de cuestionarios censales. El Idescat ha evaluado dicha falta de exhaustividad en el 11,55% de la población catalana, es decir que unas 750.000 personas no han aportado información censal en Cataluña. No obstante, esta inexhaustividad no se ha distribuido de manera homogénea en el territorio, ya que por comarcas alcanza niveles del 27,55% en La Cerdanya, el 21,33 en La Selva o el 19,83 en L’Alt Urgell. Si el análisis de la inexhaustividad censal se realiza por municipios, se llegan a registrar niveles muy superiores; así considerando únicamente los municipios de más de 5.000 habitantes, seis municipios tienen una falta de cobertura de más del 30%, diecisiete municipios tiene niveles de inexhaustividad comprendidos entre el 2% y el 30% y veintiún municipios se sitúan entre el 15% i el 20%. Estos elevados niveles de inexhaustividad que no se distribuyen de manera homogénea ni en el territorio ni por grupos sociales, unidos a las disfunciones relativas a la falta de definiciones e instrucciones para la correcta respuesta a las preguntas de conocimiento lingüístico, ha determinado que el tratamiento estadístico de los datos censales en general y del censo lingüístico en particular, tenga dificultades considerables que puede implicar limitaciones tanto en lo que se refiere a la desagregación territorial, especialmente cuando se precisa llegar a unidades censales pequeñas, así como para la desagregación conceptual derivada del tratamiento y análisis conjunto de diversas variables.

Page 3: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

1.2. Censos lingüísticos del aranés El Conselh Generau d'Aran y el Institut d'Estadística de Cataluña (ldescat) firmaron, en fecha 28 de setiembre del 2001, un convenio de colaboración para emprender la realización del Censo lingüístico sobre conocimiento y uso del aranés en la Val d'Aran, con ocasión del Censo de población del 2001, como operación paralela pero separada del Censo de población. El censo lingüístico del aranés se ha llevado a cabo por el Idescat con la colaboración del Conselh Generau d'Aran en el curso del período comprendido entre el 1 de noviembre del 2001 y el 31 de enero del 2002, con el apoyo de los ayuntamientos de la Val d'Aran. Como antecedentes de este Censo lingüístico destacamos que el Idescat realizó en el año 1991 el primer censo lingüístico sobre conocimiento del aranés a raíz de los Censos generales de dicho año, y los datos fueron recogidos mediante un cuestionario censal trilingüe, aranés, catalán y castellano. En el año 1996 el Idescat actualizó este censo del aranés a partir de la Estadística de población de Cataluña, cuyos datos también se obtuvieron con un cuestionario trilingüe. Posteriormente, el Parlament de Cataluña, mediante la Resolución 460/VI, encargó al Gobierno de Cataluña la realización, de acuerdo con el Conselh Generau d'Aran, de un estudio sociolingüístico sobre el conocimiento y uso del aranés a la Val d'Aran, en relación con el de las otras dos lenguas que son oficiales. Por todo lo expuesto el año 2001, el Idescat elaboró un cuestionario trilingüe que contenía las preguntas necesarias para recoger, de manera paralela pero separada del Censo de población, la información relativa al conocimiento del aranés según las habilidades ya pedidas en años anteriores y que hacían referencia a la comprensión, saber hablar, saber leer o saber escribir el aranés. A este contenido se han añadido las preguntas relativas a la lengua materna, la lengua hablada en casa, y en el caso de las personas que estaban trabajando la lengua que utilizan de manera más frecuente en el lugar de trabajo. Dado que, como ya se ha dicho, este Censo del aranés se ha hecho de manera paralela con el Censo de población, eso ha permitido cruzar la información lingüística con las variables censales para conocer las características sociodemográficas asociadas al conocimiento y uso del aranés por parte de la población residente en la Val d'Aran. 2. Estadísticas sobre los usos lingüísticos en Cataluña. Medir las habilidades que tiene la población de un territorio en relación a la lengua propia es esencial, pero no lo es menos conocer el uso que esta población hace de ésta y de las distintas lenguas con las que cohabita.

En este sentido, en el año 2001 la Secretaría de Política Lingüística impulsó la creación de un Sistema de Indicadores Lingüísticos (SIL) con el objetivo de compilar información sobre conocimiento, oferta y usos lingüísticos de la población y organizaciones, así como de los resultados e impactos de las actuaciones en materia de política lingüística. Durante el 2002, una comisión de expertos y responsables de política lingüística elaboró un informe inicial donde se constató el vacío de información en estadísticas relativas a los usos lingüísticos de la población. Los usos lingüísticos se concretaron fundamentalmente en dos grandes àmbitos: en las relaciones entre las personas (usos lingüísticos interpersonales) y en las relaciones con las organizaciones, sean públicas o privadas (administración pública, instituciones, empresas...).

En función de estos dos grandes ámbitos se han iniciado a lo largo del 2003 los trabajos relativos a realizar dos operaciones estadísticas bien distintas con la colaboración del Idescat. En primer lugar, la Estadística de usos lingüísticos en Cataluña (EULC), elaborada mediante una encuesta a la población de 15 años y más, incorporada en el Programa anual de actuaciones estadísticas, y de la que ya se han presentado resultados oficiales. En segundo lugar, la Estadística de usos lingüísticos a instituciones y empresas (EULIP) dirigida a organismos de la Administración pública, instituciones de derecho público, y empresas medianas, con el objetivo de conocer los usos y los criterios de usos lingüísticos de las

Page 4: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

organizaciones. Esta es una estadística en proyecto, cuya metodología está aún en proceso de validación. 2.1 Encuesta de usos lingüísticos en Cataluña 2003 (EULC03) La Estadística d’usos lingüístics a Cataluña es una actividad estadística incorporada en el Programa anual de actuaciones estadísticas del año 2004. Ha sido realizada a partir de la firma de un convenio de colaboración entre la Secretaría de Política Lingüística del Departamento de la Presidencia y el Idescat durante el año 2003 para la realización de una encuesta. La unidad administrativa encargada de ejecutar las tareas recogidas en el convenio ha sido el Instituto de Sociolingüística Catalana por parte del Departamento de la Presidencia, que se han concretado en el diseño de los contenidos, la ejecución del trabajo de campo y los análisis sectoriales de los datos resultantes. Por parte del Idescat, esta colaboración se ha centrado en prestar apoyo y asistencia técnica en los aspectos más vinculados al diseño y metodología estadística: diseño de la muestra y del cuestionario, supervisión del trabajo de campo, depuración y imputación, planificación y ejecución de las primeras tabulaciones, así como la elaboración de un fichero microdatos anonimizado.

1. Antecedentes

La Generalitat de Cataluña realizó con anterioridad estudios encaminados a conocer la presencia del catalán en la sociedad. El primero de ellos data del año 1983, en el cual se llevó a cabo un estudio sobre actitudes y expectativas de usos lingüísticos de la población de los grandes municipios de la conurbación de Barcelona. En la década de los noventa la Dirección General de Política Lingüística (en la actualidad Secretaría de Política Lingüística), mediante el Instituto de Sociolingüística Catalana, inició los trabajos metodológicos para construir un único indicador sintético que midiese la situación del catalán desde la perspectiva de la oferta y del uso. Ya en el año 1997 se realizó un estudio llamado Enquesta sobre l'ús oral del català, con el objetivo de conocer los usos orales del catalán de la población de 15 años y más. 2. Objetivos

El principal objetivo de la Estadística d’usos lingüístics a Cataluña 2003 es obtener información estadística periódica de caracter oficial sobre los usos lingüísticos en las relaciones interpersonales en Cataluña. Debido a la situación de diglosia oficial durante la mayor parte del siglo pasado, y de bilingüismo oficial a partir de la vigencia del Estatut de 1979, se ha puesto el énfasis en la medida de la situación sociolingüística del catalán. Ha sido considerada tambien la realidad de otra muchas lenguas presentes en el territorio, com son las lenguas de la población que ha llegado en las últimas olas migratorias. 3. Contenidos

Los contenidos de la Estadística d’usos lingüístics a Cataluña 2003 son fundamentalmente los siguientes: • Identificación lingüística, que ha sido descompuesta en

- Primera lengua - Lengua propia - Lengua habitual

• Nivel de conocimiento de la lengua catalana • Transmisión lingüística familiar: se ha recogido información en relación a tres generaciones atrás, o cuatro si la persona entrevistada tiene o ha tenido hijos • Usos lingüísticos en diversos ámbitos

Relaciones personales e inmediatas - Miembros del hogar - Amistades

Page 5: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

- Vecindad - Compañeros/as de estudios y trabajo

Relaciones de servicios - Pequeño comercio - Gran comercio - Entidades financieras - Personal médico

• Usos lingüísticos en las industrias culturales y en las tecnologías de la información y las comunicaciones • Actitudes lingüísticas • Opiniones en relación a la necesidad del conocimiento de las lenguas oficiales por parte del colectivo de población extranjera. • Nivel de conocimiento de otras lenguas 4. Características metodológicas La unidad de análisis y de muestreo es la población de 15 años y más que reside en una vivienda familiar en el territorio de Cataluña. La recogida de información es mediante entrevista telefónica, siendo la unidad primaria de muestreo el número de teléfono, y la segunda un individuo residente en el hogar escogido aleatoriamente. Uno de los requisitos de esta operación fue su significación estadística para cada uno de los siete ámbitos territoriales.1 La distribución territorial conjuntamente con la dimensión municipal fueron las dos variables de estratificación que intervinieron en el diseño de la muestra. Se realizó un control de cuotas proporcionales de sexo y edad. La dimensión de la muestra fue de 7.257 entrevistas, con un error muestral teórico del 1,25%.2 En ningún territorio se ha aceptado un error muestral superior al 5%. 5. Algunos conceptos

Primera lengua: Lengua que la persona entrevistada dice haber hablado primero en su casa. Se considera que esta lengua ha sido transmitida familiarmente y adquirida en el proceso de socialización del individuo.

Lengua pròpia: Lengua que la persona entrevistada considera como su lengua. Lengua habitual: Lengua que la persona entrevistada utiliza más frecuentemente.

Uso lingüístico: Expresión y comprensión —orales o escritas— de un individuo por medio de una lengua.

Ámbitos de uso: Conjunto de ocasiones en que la lengua es usada. Este conjunto se

delimita a partir de cuestiones fundamentales como son, quien habla a quien, de qué, en qué tipo de situación, por qué medio, con qué intención, etc..

6. Recogida de la información El método de recogida de la informació fue mediante entrevistas CAT. El trabajo de campo se inició el 5 de junio del 2003 y finalizó el 10 de julio del 2003. 7. Comparación con otros territorios Por iniciativa del Instituto de Sociolingüística Catalana la metodología de esta encuesta ha sido la base para promover estudios y estadísticas sobre los usos lingüísticos en otros territorios de habla catalana. En estos momentos ya se han llevado a cabo las encuestas en Baleares, Alguer (Cerdeña – Italia), Cataluña Norte (Francia), quedando pendiente el Principado de Andorra. Cabe destacar el convenio de colaboración que se firmó entre el Departamento de Cultura de la Generalitat de Cataluña (organismo competente en materia lingüística entonces), el Idescat y el Departamento de Cultura del Gobierno de Aragón para el desarrollo de esta 1 Los ámbitos territoriales son : Ámbit Metropolità, Comarques Gironines, Camp de Tarragona, Terres de l’Ebre, Ámbit de Ponent, Comarques Centrals, i Alt Pirineu i Aran. 2 El error muestral de cada ámbito territorial ha sido calculado bajo los parámetros de un nivel de confianza del 95% y una varianza pq=0,5.

Page 6: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

encuesta en las comarcas orientales de Aragón, operación de la que ya se ha llevado a cabo el trabajo de campo. 8. Algunos resultados

• El catalán es considerado como lengua propia por parte del 48,8% de la población de 15 y

más años residente en Cataluña, mientras que el castellano lo es para el 44,3%. • El 50,1% de la población de 15 y más años residentes en Cataluña declaran que su lengua

habitual es el catalán. • En cambio, el catalán és la primera lengua para el 40,4% de la población y el castellano lo

es para una proporción sensiblemente mayor, un 53,5%.

Primera lengua

Lengua propia

Lengua habitual

• El anàlisi territorial muestra como la presencia del catalán está directamente relacionada con las proporciones de población nacida en Cataluña. Los dos extremos son el Ámbit Metropolità de Barcelona por una parte, siendo el único territorio que se situa por debajo de la media catalana en todos los tipos de identificación lingüística, mientras que las Terres de l’Ebre, nueve de cada diez persones tienen el catalán como lengua habitual. Cabe destacar que el Àmbit Metropolità de Barcelona es la zona donde más población asume el catalán y el castellano a la vez como lengua propias.

Català2.670.100 Castellà

2.424.700 Ambdues283.200

Altres93.300

0

500.000

1.000.000

1.500.000

2.000.000

2.500.000

3.000.000

Persones de 15 anys i més

Català2.213.100

Castellà2.929.100

Ambdues152.000

Altres177.000

0

500.000

1.000.000

1.500.000

2.000.000

2.500.000

3.000.000

Persones de 15 anys i més

Català2.742.600

Castellà2.410.300 Ambdues

255.100Altres62.600

0

500.000

1.000.000

1.500.000

2.000.000

2.500.000

3.000.000

Persones de 15 anys i més

Page 7: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

Uso del catalán según ámbitos territoriales

Primera lengua Lengua propia Lengua habitual

• Los usos lingüísticos difieren considerablemente según los ámbitos de uso. En las relaciones familiares y personales inmediatas el catalán tiende a predominar, especialmente en las relaciones del hogar, con los compañeros de estudios y trabajo. Por el contrario, en las relaciones con las amistades y vecinos predomina ligeramente el uso del castellano, y aumentan las situaciones intermedias entre las dos lenguas. En las relaciones de servicios es donde se encuentran los ámbitos de un uso del catalán más elevados, sobretodo en el caso de las relaciones con las entidades financieras y con el personal médico. En el pequeño comercio hay una clara prevalencia del uso del catalán, mientras que en el gran comercio se tiende a equilibrar más el uso de las dos lenguas.

Page 8: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

2.2 Encuesta de usos lingüísticos a instituciones y empresas medianas (EULIP) La Estadística de usos lingüísticos a instituciones y empresas (EULIP) es una encuesta dirigida a organismos de la Administración pública, instituciones de derecho público y medianas empresas, con el objetivo de conocer los usos y los criterios de usos lingüísticos que se aplican en estas organizaciones. El método de recogida de la información es mediante una entrevista personal a un representante de la organización, y de manera complementaria se recoge información a través de la observación directa por parte del entrevistador. Las variables principales a investigar son los usos lingüísticos en carteles, rotulación, comunicación, documentación interna y externa, etiquetado de productos propios, adecuación lingüística del personal, actitudes y formación. Esta operación está incluida en el Programa anual de actuaciones estadísticas del 2004, como estadística en proyecto, puesto que su metodología y proceso de recogida de la información está todavía por validar. De todas formas, se han realizado ya trabajos exploratorios y pruebas piloto que permiten avanzar en la elaboración de una metodología més consolidada. 3. Estadísticas sobre presencia y uso del catalán en Internet

En tercer lugar, esta ponencia también analiza una nueva y creciente extensión de los usos lingüísticos, como es la presencia de los idiomas en las tecnologías de la información y comunicación (TIC). En el caso de Cataluña, este fenómeno se aborda en el vigente Plan estadístico 2001-2004 fundamentalmente a través de dos operaciones estadísticas específicas en el ámbito empresarial y en toda la red de Internet: la Encuesta de penetración de las TIC en las empresas catalanas y la Estadística del uso del catalán en la red de Internet, respectivamente, mediante la colaboración del Institut d'Estadística de Catalunya con el Departamento de Universidades, Investigación y Sociedad de la Información (DURSI) y el Instituto de Sociolingüística Catalana de la Generalidad de Cataluña.

Su ejecución, sobre todo en el primer caso, conlleva una periodicidad más intensa que las encuestas de usos lingüísticos o las estadísticas de población descritas anteriormente, en la medida que se trata de contextos más dinámicos. Ambas tratan de proporcionar evidencias objetivas sobre la presencia (oferta) del catalán en Internet, las cuales se pueden contraponer con su uso (demanda) segmentado por idiomas que manifesta la población y las instituciones.

En este sentido, la Encuesta penetración de las TIC en las empresas catalanas, elaborada con periodicidad anual desde el año 2000 por el Idescat y el DURSI, aborda la existencia de sitios web por idiomas según el sector de actividad económica. Por su parte, con carácter más general, se halla en marcha una estadística oficial sobre los sitios web en catalán en Internet, que pretende estimar su número absoluto y algunas características básicas de los mismos.

3.1 Encuesta anual de penetración de TIC en las empresas catalanas (2000-2003)

Desde la óptica de la oferta de sitios web en catalán generada por el sector empresarial, la Encuesta penetración de las TIC en las empresas catalanas, elaborada con periodicidad anual desde el año 2000 por el Idescat y el DURSI, aborda la existencia de sitios web por idiomas según el sector de actividad económica, a través de un panel de establecimientos de más de 10 empleados, además de los aspectos relacionados con la ocupación, equipamientos, usos, formación y gasto en este ámbito de actividad. Estos últimos elementos constituyen, de hecho, la información principal que inspira la ejecución de la encuesta pero, a los efectos de esta ponencia, solamente se pueden tomar en cuenta como variables adicionales en la delimitación del número de sitios web según idiomas, por sector de actividad económica.

Page 9: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

La clasificación sectorial contempla 8 sectores de actividad, excluyendo actividades agrícolas, ganaderas y de pesca, así como el sector público. Por otra parte, el sector de TIC se subdivide en cuatro ramas de actividad con el fin de apreciar con más detalle este ámbito de actividad. La muestra anual selecciona 1.600 empresas que ejercen su actividad en Cataluña (con independencia de la localización de su sede central), estratificadas por actividad económica y volumen de empleados, con afijación proporcional pero manteniendo un mínimo de individuos en cada estrato.

Atendiendo al crecimiento comparativo con otros idiomas y su distribución por sectores de actividad , los gráficos 1 y 2 reflejan la evolución de los sitios web en catalán a lo largo de los años 2001, 2002 y 2003, una vez eliminados los resultados de la operación piloto del año 2000). En todos los casos, la asignación del idioma a un sitio web se refiere a su presencia en las páginas web del mismo, sin que ello signifique que en tal sitio web se utilice exclusivamente dicho idioma. Así, por ejemplo, el dato de que el 55,5% de las empresas que tienen web incorporen el catalán en el año 2003 en Cataluña debe interpretarse como que el catalán está presente, exclusivamente o con otros idiomas, en el 55,5% de los sitios web empresariales catalanes.

De una parte, la distribución según idiomas revela una progresión de todos ellos, algo más acentuada en el caso del catalán e inglés con crecimientos en torno al 30% al cabo del período temporal analizado.

Gráfico 1. Idioma de la página web en empresas catalanas. Años 2001, 2002 y 2003

Porcentaje sobre el total de empresas catalanas con sitio web

46,8%48,3%

55,5%

80,2%89,4%

86,2%

37,4%

48,6%49,5%

0%10%20%30%40%50%60%70%80%90%

100%

2001 2002 2003

cataláncastellanoinglés

En relación a la distribución sectorial, el catalán figura en una proporción superior al 50% en la mayoría de sectores de actividad, especialmente en aquellos que cuentan con una mayor dimensión, pero no en el sector TIC, y esta tendencia se refuerza a partir del 2003.

Page 10: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

Gráfico 2. Páginas web en catalán por sector de actividad. Años 2001, 2002 y 2003

Porcentaje sobre el total de empresas con sitio web

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Con

teni

dos

dein

form

ació

n

Serv

icio

sin

fom

átic

os

Mat

eria

l y e

quip

.el

éctri

cos,

ele

ctr.

yóp

ticos

Serv

icio

s de

tele

com

unic

acio

nes

Alim

enta

ción

,be

bida

s y

taba

co

Mat

eria

les

detra

nspo

rte

Quí

mic

a, c

auch

o y

plás

tico

Com

erci

o,ho

stel

eria

ytra

nspo

rte

Con

stru

ción

,en

ergi

a, m

aq.,

text

ily

otra

s

Med

. fin

anci

era

yse

rv. t

écn.

prof

esio

nale

s

Act

iv. i

mm

obilia

rias,

educ

ació

n, s

anid

ady

otro

s

200120022003

3.2 Estadística del uso del catalán en Ia red de Internet (2004)

Des de finales del año 2003, se está desarrollando una estadística oficial sobre los sitios web en catalán, basada en la captura automatizada de la información disponible en la red de Internet, con la cual se pretende estimar el número y caracterizar sus contenidos, el volumen de información y su evolución en el tiempo. La Estadística del uso del catalán en la red de Internet (en adelante, ECXI) se plantea determinar dichos datos físicos a través de una exploración de la red de Internet mediante técnicas de muestreo y obtener también estimaciones para el castellano y el resto de idiomas. Concretamente, se pretende conocer el número de sitios web (web sites) accesibles al público, el recuento de páginas web, volumen de información según idiomas, ámbito temático, tipo de entidad editora, servicios ofrecidos, la ubicación de la sede central de la entidad editora (web publisher) y la ubicación de los equipos informáticos principales (web server).

1. Definiciones y unidades de análisis

La unidad básica de análisis “óptima” es el sitio web, entendido como “colección de páginas entrelazadas con una página principal y situadas en un dominio o grupo de dominios relacionados entre sí”. Se considera que el alcance del concepto de sitio web está limitado, en primer lugar, a los dominios que comparten la primera y la segunda parte del nombre (o sea, el “top level domain” i el que va después de este nivel de dominio más alto) y que tienen enlaces biunívocos entre ellos, o bien que sin tenerlos comparten el segundo nombre de dominio y el número IP (por ejemplo, todos los “lycos.com” con enlaces biunívocos, en el primer caso, y todos los “idescat.” con el dominio más alto que sea —.es, .net, .info,..., — en el segundo caso). A partir de este planteamiento, se establecen los criterios siguientes:

• Si desde alguna de las páginas de un sitio web se llega a otro nombre de dominio, las páginas y volúmenes pertenecerán a un sitio web diferente. El número de páginas de un sitio no influye en la definición de sitio web, el cual se contabiliza a partir de una página.

• Utilizando como unidad básica de análisis el sitio web, es posible introducir criterios clasificatorios como el tema y el tipo de entidad editora, que no tendrían un sentido tan preciso si se toma como unidad de análisis los “nombres de dominios correspondientes a servidores web”, ya que aumentaría artificialmente el número de sitios web en el

Page 11: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

momento en que los diversos nombres de dominio, que a menudo conforman un mismo sitio web, se considerasen separadamente.

• Según la definición de unidad, no es requisito para ser un sitio web tener un nombre de dominio asociado (caso de sitios web en instituciones universitarias, que hasta ahora estaban delimitados con un símbolo “~”, o alojados en empresas de alquiler de espacio en la red). Este conjunto de información, nada despreciable, presenta por una parte un problema de localización al no estar enlazadas sus páginas desde páginas de niveles más altos del servidor donde se ubican; por otra parte, problemas de delimitación del sitio web, ya que el nombre de dominio utilizado no facilita la diferenciación del sitio web de una forma automática ubicados en subdirectorios-.

• En relación al número de páginas, debe aclararse que no se buscan páginas originales, eliminando repeticiones, sino el número total de páginas situadas en sitios web —que no sean “mirrors” —. Se considera página web el texto existente dentro de la estructura html que forma la página. El resto de ficheros txt, doc, pdf, etc. se contabilizan en número y volumen, pero no se consideran páginas.

• Por último, el proceso de unidades de muestreo se realiza automáticamente, de forma aleatoria y parte de la relación exhaustiva de nombres de dominio utilizados —excluyendo aquellos nombres que corresponden a hardware o “mirrors” o copias de sitios web—. De éstos, se identifican los “nombres de dominios correspondientes a servidores web”, descartando aquellos nombres que se usan para otras finalidades. Es imprescindible que los sitios web sean de acceso público, directamente o mediante una contraseña y que no sea necesario pagar para acceder a la información.

2. Esquema de procedimiento

El procedimiento adoptado para la ECXI contempla tres fases bien delimitadas, las cuales se pueden esquematizar del modo siguiente. • La primera fase corresponde a la selección de un marco de muestreo. Se selecciona la

base de datos de Internet Software Consortium por ser la más exhaustiva y con una metodología más clara. Su contenido lo constituyen nombres de dominio asociados a una dirección IP (“host”). En este marco de 233 millones de registros, se efectúa la localización aleatoria de los nombres de dominio que se investigarán.

• La segunda fase es la que permite que la operación sea viable, ya que automatiza en un grado muy elevado la selección de unidades de muestreo —nombres de dominio—, según si corresponden a servidores web i según el idioma.3

• La tercera fase corresponde a la confección de la unidad de análisis “sitio web” a partir de los nombres de dominio usados —o una definición alternativa más sencilla, si hace falta— y la finalización semimanual o manual de la recogida de datos, como la contabilización de datos de volúmen de páginas y de cantidad de información, y las obtenidas por consulta de páginas o en contacto con la entidad editora/responsable del sitio web; en este sentido, se puede considerar como una operación estadística convencional.

3. Tamaño de la muestra y método de selección

Se pretende obtener tres muestras de sitios web, correspondientes a los que usan la lengua catalana, los que utilizan el castellano y otra que se refiera a otros idiomas. A los efectos de vincular la operación estadística a una fecha concreta, se almacenan todos los contenidos de las tres muestras que se prevé obtener de 2.000 o 2.500 unidades en cada una, así com los tres primeros niveles de los nombres de dominio accedidos para la identificación del idioma (aproximadamente, 500.000 nombres de dominio).

3 Se identifica únicamente el idioma de las páginas o ficheros escritos, y se excluyen los que correspondan a idioma hablado.

Page 12: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

Con el fin de poder estimar resultados con un nivel de error aproximado no superior al 2%, se ha considerado que el tamaño de la muestra de sitios web en catalán sea de 2.500. Por otra parte, se seleccionarán dos muestras de 2.000 sitios web en castellano y en otros idiomas, respectivamente, con el objetivo de practicar un análisis similar. Para ello, se utilizará un muestreo aleatorio simple en la extracción de las unidades muestrales que sigue la secuencia descrita a continuación en la estrategia de actuación.

4. Estrategia de actuación

En el diseño y desarrollo de la ECXI las dificultades a superar son las generales de limitaciones ya mencionadas sobre el acceso o problemas de localización de volúmenes de información, teniendo en cuenta además que para las unidades de la muestra deberá conocerse el volumen total de texto en páginas y ficheros de todo el sitio web (y no sólo los tres primeros niveles). Adicionalmente, se añaden las dificultades derivadas de la definición de sitio web: identificar los propios sitios web en el seno de un servidor web e identificar sitios web formados per diversos nombres de dominio.

En el caso de que el detalle previsto a partir del aumento de la muestra en la segunda fase sólo fuera posible realizarlo según nombres de dominio, se perdería relevancia, particularmente por lo que se refiere al ámbito temático y tipo de institución. Los sitios web formados por un conjunto de nombres de dominio pasarían a convertirse en una serie de unidades independientes, generando un incremento en los ámbitos temáticos o sesgándolos, y repitiendo los tipos de institución. Así, por una parte se perderían unidades y, por otra parte, se ganarían.

Tal como se refleja en el esquema indicado en la Figura 1, la estrategia de actuación sigue un procedimiento base y un conjunto de procedimientos paralelos que ayudarán a facilitar las validaciones y a contrastar resultados, así como también obtener cierta información necesaria para los cálculos finales de la naturaleza y tamaño del universo.

1. Procedimento base: selección de las tres muestras mediante un submuestreo aleatorio simple, en vistas al análisis posterior de su contenido.

2. Procedimentos paralelos o complementarios: a. Dado que el marco de muestreo inicial contiene un número muy elevado de

nombres relativos a hardware o copias de sitios web, se lleva a cabo una muestra de 1.000 unidades para estimar su proporción.

b. Con el fin de comprobar las direcciones IP que no se incluyen en el marco de muestreo o que están vacías, se realiza una muestra con una fracción de muestreo del orden de 1/65.000 direcciones IP.

c. Aproximadament se atacan 500.000 sitios web con el fin de obtener una muestra de 2.500 en catalán. Cuando se disponga de los primeros 38.000 se efectuará un análisis por tipología de idiomas que no supere el 0,5% de error.

d. En la medida que existen numerosos registros duplicados, el número final de sitios web que conforman la población objetivo se estima mediante técnicas de submuestreo que determinan su proporción dentro del conjunto de 500.000 registros atacados.

3. Por último, al respecto de la identificación del idioma de los sitios web se determina de la forma siguiente. En primer lugar, se comprueba el juego de caracteres declarado. Si no se declara, se procede a crearlo a partir de un texto mínimo de 512 caracteres localizados en los tres primeros niveles del sitio y examinando su compatibilidad con los diversos idiomas o grupos de idiomas. Si hay preposiciones y artículos se contrastan y finalmente se estudian los grupos de tres letras que sean característicos de cada idioma. Muchas lenguas se identifican por ser las únicas que usan un

Page 13: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

determinado juego de caracteres o símbolos. En todo caso, el problema reside en poder determinar aquellas lenguas que los comparten (caso europeo).

5. Resultados potenciales de la ECXI

Los resultados potenciales que se prevé cubrir con la primera edición o posteriores ejecuciones de la ECXI son los que se caracterizan a continuación.

• Número de dominios y de sitios web según accesibilidad (sin respuesta, no autorizado, no es servidor web, servidor web sin contenido, privado, público, público con contraseña), según idioma en la página principal y desagregado por ubicación de la entidad propietaria del dominio, de la entidad editora del sitio web —si está disponible— y de la gestión informática del dominio.

• Número de sitios web, número de páginas, volumen de información (textual y de otros tipos) y número de bases de datos según idioma de la página principal y según tema, teniendo en cuenta la ubicación de la entidad editora y de la gestión informática.

• Tipología de sitios web por tipos de entidad, según idioma y ubicación de la entidad editora del sitio web —si está disponible— y de la gestión informática del dominio. Igualmente, se desagrega por servicios ofrecidos según idioma y según ubicación de la entidad editora del sitio web —si está disponible— y de la gestión informática del dominio.

• Saldo total de tráfico entrante y saliente. Supervivencia de sitios web, tamaño, número de

enlaces entrantes y salientes, cobertura de buscadores, volumen promedio de páginas, etc.

Page 14: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los

Figura 1. Esquema de procedimiento y estrategia de actuación

Marco de muestreo original: 233 millones de registros

Marco de muestreo final: 70 millones de registros aproximadamente

Muestra aleatoria simple

Muestra sitios en catalán (2.500)

Muestra sitios castellano (2.000)

Muestra sitios otros id. (2.000)

Muestra 1.000 unidades: comprobación de que es hardware y copias de sitios web

Muestra fracción 1/65000: comprobación de espacios vacíos efectivos o no forman parte del universo

Realmente hay 3.700 millones de IPs, la gran mayoría vacíos

Eliminar hardware y copias de sitios web

500.000 sitios webs atacados: 0,7% aproximadamente

Análisis de los 38.000 primeros sitios web (tipología idiomas)

Submuestra del 0,7% para el análisis de sitios web duplicados mediante técnicas de submuestreo

a

b d

c

Procedimiento base

Depuración marco muestreo: supresión hardware, copias de sitios web y otros

Page 15: Planificación de estadísticas sobre el conocimiento … las estadísticas de conocimiento del catalán se han elaborado mediante la introducción de preguntas adicionales en los