red mundial para la diversidad lingüística DILINET CONSTRUYENDO INDICADORES PARA LA DIVERSIDAD LINGÜÍSTICA EN LA INTERNET UN PROYECTO MAAYA EN ESTUDIO DE FACTIBILIDAD
CON EL APOYO DE La UNESCO La UNIÓN LATINA La OIF
Daniel Pimienta pimienta@funredes Daniel Pimienta pimienta@funredes.org FUNDACIÓN REDES & DESARROLLO http://funredes.org http://funredes.org/LC
DEL CONSEJO EJECUTIVO DE MAAYA FUNREDES UN MIEMBRO DEL CONSEJO EJECUTIVO DE MAAYA http://maaya.org
REFERENCIAS (1/3) “Twelve years of measuring linguistic diversity in the Internet: balance and perspectives”, Unesco/2009. http://portal.unesco.org/ci/en/ev.php-URL_ID=29594 &URL_DO=DO_TOPIC&URL_SECTION=201.html
REFERENCIAS (2/3) -”Accessing Contents”, D. Pimienta, Chapter of Global Information Society Watch, APC, HIVOS, ITEM, 2008 http://www.giswatch.org/gisw2008/thematic/AccessingContent.html - Measuring linguistic diversity on the Internet, UNESCO, 12/2005, a collection of papers by: J. Paolillo, D. Pimienta, D. Prado, et al. http://portal.unesco.org/ci/en/ev.php-URL_ID=20882&URL_DO=DO_TOPIC&URL_SECTION=201.html
-“Quel espace reste-t-il dans l’Internet, hors la langue anglaise et la culture "made in USA" ?”, in « Nord et Sud numériques », Les Cahiers du Numériques, Vol 2 No 3/4 Hermès, Numéro spécial sur la fracture numérique, 2001 http://funredes.org/lc/l5/cahiersNumFinal.html - Activités de Funredes pour la promotion de la diversité linguistique dans l'Internet et enseignements de l'expérience, 5/05 http://portal.unesco.org/ci/en/file_download.php/92a27500bf11f4c73cd567943deb4077Daniel+Pimienta.doc REFERENCIAS (3/3)
LA REALIDAD A GRANDES RASGOS 40,000 idiomas han existido Entre 6,000 & 9,000 aún viven Uno desaparece cada 2 meses Alrededor de 500 están localizados Wikipedia utiliza 264 idiomas Google trabaja en 45 idiomas
¡LA REALIDAD A GRANDES RASGOS! 10 principales Idiomas en la Internet en millones de usuarios Inglés Chino Español Japonés Francés Portugués Alemán Arabe Ruso Coreano Todas las demás Millones de usuarios
LA REALIDAD A GRANDES RASGOS INGLÉS USUARIOS DE LA INTERNET PAGINAS WEB Fuente: FUNREDES/UL Año FUENTE: FUNREDES/UL 2007
LA BRECHA DIGITAL ES MUCHO MAS PROFUNDA EN MATERIA DE CONTENIDO QUE EN MATERIA DE ACCESO
ÁFRICA POR EJEMPLO 4.8 % de los usuarios de la Internet (fuente InternetWorldStats – 2010) 0.6 % de las páginas web en inglés (fuente FUNREDES/UL 2007) 0.6 % de las páginas web en francés Las lenguas africanas locales representan cada una entre 0.006 % & 0.06 % del total de las páginas web (fuente LOP 2007)
DIVERSIDAD LINGÜÍSTICA EN LA INTERNET Situación paradójica ¿SERÁ LA INTERNET REALMENTE PARA TODOS? IDN INDICADORES
PARADOJA DE LOS INDICADORES DE LA DIVERSIDAD LINGÜÍSTICA INTERÉS CAPACIDAD 1988 89 90 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 2010
PARADOJA DE LOS INDICADORES DE LA DIVERSIDAD LINGÜÍSTICA INTERÉS LOP…………… FUNREDES/UL…………………………………..…. IDESCAT……. ALIS/ISOC………..OCLC FUNREDES……………….. XEROX…………………….. CAPACIDAD 1988 89 90 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 2010
¿CUALES INDICADORES TENEMOS DISPONIBLES? Usuarios de la Internet por idioma (fuente InternetworldStats) Páginas web por idioma (¡No todas!) Otros indicadores por país (FUNREDES/UL)
¿DONDE ESTÁ EL CUELLO DE BOTELLA? Los dos principales indicadores para la construcción de actividades dependen de: La exploración de los ccTLD para las lenguas en Asia, África y el Caribe y la aplicación de los algoritmos de identificación (LOP). La utilización de la capacidad de conteo de los motores de búsqueda y su gran porcentaje de cobertura de la red (FUNREDES/UNIÓN LATINA).
¿DONDE ESTA EL CUELLO DE BOTELLA? Pero… - El tamaño de la red se torna demasiado grande para la exploración tradicional (¡Cerca del infinito!). Los motores de búsqueda dejaron de indexar una parte substancial (80% 20%). Los conteos de los motores de búsqueda ya no son confiables. … Y de todos modos solo tenemos datos estáticos esencialmente centrados sobre la cantidad de páginas web por idioma.
DILINET: UN PROYECTO DE INVESTIGACION Colaboración entre la UNESCO, la OIF y la UNION LATINA con la participación de la ITU. Definición del proyecto y del consorcio realizada por FUNREDES para MAAYA, el 15 de marzo de 2011 Teniendo por objetivo implementar un Proyecto Completo EU/PF7 para Obj. ICT-2011.4.4 Gestión inteligente de la información Enero de 2012
NECESIDADES INVENTARIO CONTEXTOS ESQUEMA DILINET UPF CT2 MAAYA CT1 GESTIÓN DEL PROYECTO NECESIDADES INVENTARIO CONTEXTOS COORD. CIENT.: R. BAEZA-YATES AGENDA DE INVESTIGACIÓN MÁS ALLÁ DE LOS LÍMITES DE LA EXPLORACIÓN CT4 ISTI PRODUCTOS1 CT3 FUNREDES CT7 CT6 PRODUCCIÓN INDICADORES SOSTENIBLES LIMSI MARCO DE CONTROL DE LOS PRODUCTOS DIALOGIC MÁS ALLÁ DE LOS INDICADORES BÁSICOS MÁS ALLÁ DEL HTML VISIBLE CT5 UPF CT8 CT9 MAAYA YAHOO EXALEAD PILOTOS M A R C O D E I M P A C T O PRODUCTOS3 PRODUCTOS2
AGENDA DE INVESTIGACIÓN INNOVATIVA DE LOS LÍMITES DE LA EXPLORACIÓN MÁS ALLÁ DEL HTML VISIBLE DE LOS INDICADORES BÁSICOS
SOBREPASAR LOS LÍMITES DE LA EXPLORACIÓN MEDIR GRACIAS A LOS ALGORITMOS GRACIAS A LAS INFRAESTRUCTURAS SUPER-COMPUTADOR BOINC ENFOQUE ESTADÍSTICO ENFOQUE MATEMÁTICO
SUPERAR LA FRONTERA HTML VISIBLE MEDIR EXPLORAR NUEVOS ESPACIOS NUEVOS FORMATOS DE RECONOCIMIENTO LINGÜÍSTICO VOZ/VIDEO OTROS FORMATOS WEB 2.0 OTROS ESPACIOS (JUEGOS, TEL. MÓVIL…)
SUPERAR LA BARRERA DE LOS INDICADORES BÁSICOS MEDIR DEL LADO DE LA OFERTA DEL LADO DE LA DEMANDA CARACTERIZACIÓN DEL CONTENIDO VISUALIZACIÓN ANALÍTICA RECOPILACIÓN COMPORTAMIENTO DE LOS USUARIOS ENCUESTAS ESTADÍSTICAS MAPAS CONCEPTUALES
PRODUCTOS & IMPACTO ESPERADOS Producción sostenible de indicadores confiables para la diversidad lingüística. Perspectivas ampliadas por nuevos formatos y espacios. Sensibilización y formación de los decisores frente a la integración de la diversidad lingüística dentro del marco de las políticas del mundo virtual. Apertura de oportunidades de negocio provenientes de la diversidad lingüística. Impactos sobre la investigación en el marco de la gestión inteligente de la información.
CONSORCIO DILINET 1 UPF España Coordinación general y extracción de la información 2 LIMSI/CNRS Francia Coordinación de las tecnologías lingüísticas 3 MAAYA Suiza Coordinación lingüística 4 FUNREDES República Dominicana Coordinación del marco de control de los productos 5 UNESCO Políticas lingüísticas 6 UIT Indicadores 7 OIF 8 UNIÓN LATINA Estadísticas lingüísticas 9 MENON Bélgica Sostenibilidad 10 LOP Japón Reconocimiento de lenguas 11 CCHS/CSIC Caracterización del contenido 12 ISTI/CNR Italia Estadísticas/Matemáticas para la exploración 13 DIALOGIC Países Bajos Recopilación de datos acerca del comportamiento del usuario 14 YAHOO o BARCELONA MEDIA Extracción de la información 15 EXALEAD 16 QUEDA POR DETERMINAR Piloto industrial
ACTIVIDADES DILINET CT1 : Administración del proyecto (UPF) CT2 : Contexto, inventario, necesidades (MAAYA) CT3 : Marco de control de productos (FUNREDES) CT4: Más allá de los límites de la exploración (ISTI) CT5: Más allá del HTML visible del lado de la oferta & más allá de los indicadores básicos respecto a espacios (UPF) CT6: Más allá del HTML visible del lado de la demanda (DIALOGIC) CT7: Más allá de los indicadores básicos respecto a formatos (LIMSI) CT8: Marco del impacto sobre la investigación (UPF) CT9: Marco del impacto sobre la sociedad (MAAYA)
Gracias Thank you Obrigado Dhonnyobaad Orkun Toda raba MERCI Tack Abhar Obrigado Amesegnalhu Shukran Dhonnyobaad Dekuji Adjarama Doh jeh N’gue penù