La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Seminario Lenguas y culturas hispánicas en Internet Dirección José Antonio Millán MADRID Residencia de Estudiantes 3 de diciembre del 2008.

Presentaciones similares


Presentación del tema: "Seminario Lenguas y culturas hispánicas en Internet Dirección José Antonio Millán MADRID Residencia de Estudiantes 3 de diciembre del 2008."— Transcripción de la presentación:

1 Seminario Lenguas y culturas hispánicas en Internet Dirección José Antonio Millán MADRID Residencia de Estudiantes 3 de diciembre del 2008

2 ATELIER Panorama crítico de experiencias para medir lenguas y culturas en el ciberespacio… con enfoque especial en el método Funredes/Union Latina

3 Daniel Pimienta, Álvaro Blanco pimienta@funredes.org alvaro@funredes.org FUNDACIÓN REDES Y DESARROLLO http://funredes.org http://funredes.org/LC pimienta@funredes.org alvaro@funredes.org pimienta@funredes.org alvaro@funredes.org

4 MIEMBRO DE http://maaya.org http://maaya.org

5 FUENTE: “Doce años de medidas de la diversidad lingüística en la Internet: balance e perspectivas.” D. Pimienta, D. Prado, Á. Blanco, 10/2008  A publicar por la Unesco en 2009.  Accesible en: http://funredes.org/lc/espanol/articulos/index.htm http://funredes.org/lc

6 DE QUE SE TRATA? CONOCER LA REPARTICIÓN DE LOS RECURSOS DE LA INTERNET EN TÉRMINOS DE DIVERSIDAD LINGÜÍSTICA:  Internautas  Páginas web  Correos  Y mas y mas…

7 ¿DONDE ESTA LA MEDICIÓN DE LA DIVERSIDAD LINGÜÍSTICA?  EN LA EDAD DE LA PIEDRA…  REPARTICIÓN DE INTERNAUTAS  DESINFORMACIÓN CRÓNICA SOBRE EL WEB  MUY POCA IDEA DEL RESTO  DESPUES DE AÑOS DE TRANCO, LA SITUACIÓN VA CAMBIANDO POR FIN  DESPUES DE AÑOS DE TRANCO, LA SITUACIÓN VA CAMBIANDO POR FIN

8 ¿Y PORQUE TOMARSE LA PENA (Y QUE PENA!!!) DE MEDIR? LA NECESIDAD DE POLÍTICAS LINGÚÍSTICAS VIRTUALES… APOYADAS EN DATOS CIENTÍFICAMENTE VALIDADOS.

9 ...Y PORQUE LA BRECHA DIGITAL DE CONTENIDOS ES MUCHO MAS PROFUNDA QUE LA DE ACCESO! Veamos África:  4 % de los conectados (80% en África del Sur)  0,6% de las páginas web en inglés  0,6% de las páginas web en francés  Entre 0,06 y 0,006% páginas en lenguas locales (de las pocas que están localizadas)

10 ¿Y PARA QUE COMPLICARSE LA VIDA VIRTUAL CON POLÍTICAS? APUESTAS CULTURALES, CULTURALES,SOCIALES,ECONÓMICAS,ECOLÓGICAS, DE GOBERNANCIA

11 ENTONCES, ¿QUE ES LO QUE HAY? ESTUDIOSTRABAJOSPUBLICACIONESDISCURSOSREFERENCIAS…

12 APROXIMACIONES PASADAS METODOPROCON USO SENCILLO MOTOR BUSQUEDA SIMPLE MUY APROXIMATIVO SIMPLISTA… ALIS/OCLC “creible por fuente… no por proceso”  MEJORABLE METODO ESTADÍSTICO NO REPETIDO Y… MUCHAS MAS LIMITACIONES VARIOS PRODUCTOS EMPR. MERCADEO NO TRANSPARENTE FUNREDES/ULDOCUMENTADOINDICADORESREPETIDO LIMITACIÓN LENGUAS & ESPACIO

13 APROXIMACIONES NUEVAS METODOPROCON LOPUPC/IDESCATPODER SIN LIMITE ALGORITMO DE RECONOCIMIENTO TAMAÑO DE CRAWL “A LA ALEXA” COBERTURAIDEAL NO EXISTE NO EXISTE FUNREDES/ULCONTRAPESO DEBE LIBERARSE DE LOS MOTORES

14 COMPLEMENTO DEL ESPACIO VACIO BUSCAR : “ –hhwhd3ygfvd” A veces los motores responden, incluyendo con la opción lengua, con el tamaño total del índice. A veces se puede buscar “*-*”. Muy usado sin documentarla.

15 ALIS/OCLC  3000 IP al azar (!!!)  Aplicación una sola vez (!!!!!!) del algoritmo de reconocimiento de lengua (!!) …. en la página de entrada (!!!).  Correcciones a la mano no documentadas(!)

16 LOP/IDESCAT Explorar la web y conservar las páginas. Aplicar algoritmo de reconocimiento de lenguas. LOP enfoca Asia e África Esperamos mas resultados de IDESCAT

17 A LA ALEXA Un programa espía que reportaría el comportamiento de un grupo amplio y representativo de usuarios podría producir datos esenciales… Nos encantaría poder hacerlo!

18 MÉTODO FUNREDES/UNION LATINA  BASADO EN MOTORES DE BÚSQUEDA  APROXIMACIÓN LINGÜÍSTICA SERIA  PARTE ESTADÍSTICA MUY CUIDADA  TOTALMENTE DOCUMENTADO  SEGUIMIENTO PERMANENTE DESDE 1998  PRODUCE VARIOS INDICADORES  CONSIDERA VARIOS ESPACIOS

19 MÉTODO FUNREDES/UNION LATINA LIMITADO EN LENGUAS (inglés, aleman., español, francés, italiano, portugués, rumano, catalán) LIMITADO EN LENGUAS (inglés, aleman., español, francés, italiano, portugués, rumano, catalán) RESULTADOS RELATIVOS AL INGLÉS RESULTADOS RELATIVOS AL INGLÉS MIDE EL WEB VISIBLE E INDEXADO MIDE EL WEB VISIBLE E INDEXADO YA NO CREIBLE DESDE 2006 YA NO CREIBLE DESDE 2006 FUTURO INCIERTO FUTURO INCIERTO

20 METODOLOGÍA FUNREDES/UNION LATINA  Definición 57 conceptos equivalentes semánticamente ===> 1600 términos  Medición comparativa ocurrencias con motores de búsqueda (automatizada)  Método estadístico sólido (distribución, promedio, varianza, ley de Fischer, intervalo de confianza)  Resultados en % del inglés  Evaluación del inglés aproximativa lleva a resultados absolutos en otras lenguas

21 CRITERIOS PARA SELECCIÓN DE CONCEPTOS: Neutralidad cultural Homografia trans-lingüística Homografía trans-lingüística con palabra compuesta Homografía trans-lingüística par emprunt Homografía con abreviación Homografía con nombre propio frecuente Seudo-homografía trans-lingüística Significaciones no equivalentes Morfo-síntaxis no equivalente : nom, verbe Morpho-síntaxis no equivalente : adjectivos y nombres Pluricentrismo lexicográfico y semántico Pluricentrismo ortográfico Formas agregadas (alemán)

22 Neutralidad cultural Propiedad de una palabra en relación con su frecuencia de uso en la lengua en función de la cultura respectiva. Las palabras francesas vin, parfum, gastronomie y las palabras del lenguaje diplomático no son neutras culturalmente, en relación con el francés.  Para obtener una muestra con el coeficiente de variación menor posible, se dejaron de lado las palabras no neutras culturalmente.

23 Homografía interlingüística La grafía de una palabra en un idioma es idéntica a la de otra palabra en otro idioma, incluido el caso de faux amis (significación diferente). Puede haber homografías con o sin diacríticos. Ejemplo de grafía idéntica (con el mismo sentido): casa en castellano y portugués. Ejemplos de faux amis: red en castellano y en inglés ; hier en francés y alemán.  Rechazar las palabras homógrafas (con o sin diacríticos).Se han tenido en cuenta, para rechazarlas, las homografías entre los idiomas del estudio o con un idioma muy presente en la Internet, como el alemán. Para evitar el riesgo estadístico de homografías con otros idiomas, se descartan por principio las palabras de menos de cuatros letras.

24 Homografía interlingüística por préstamo Cuando una palabra de un idioma es aceptada tal cual en otro. Anglicismos comme business, sandwich o software. El galicismo, deja vu en inglés, castellano, etc. (homógrafo de la expresión francesa sin diacríticos).  Excluir sistemáticamente o deducir (mardi-gras)

25 Homografía con una abreviación Sept, siete en francés, homógrafo de las abreviaciones de septiembre en varios idiomas, sobre todo en inglés.  Evitar estas palabras. Estamos relativamente protegidos por la consigna de evitar palabras de menos de cuatros letras.

26 Homografía con un nombre propio frecuente Windows es ventana en inglés.... pero es asimismo el nombre de un programa muy citado en la Internet.  Evitar estas palabras.

27 Pseudohomografía interlingüística La escritura de una palabra con une error de ortografía frecuente en un idioma corresponde a otra en otro idioma. Ambasador en rumano puede confundirse con ambas(s)ador en inglés.  Se rechazan estas palabras solamente si la lengua con que se confunde es el inglés.

28 Significados no equivalentes Prix en francés equivale en su significado a premio y a precio.  Evitar estas palabras, salvo si fuera posible incluir todos los significantes que completarían el sentido en las lenguas que lo necesiten.

29 Morfosintaxis no equivalente: sustantivo, verbo El inglés es diferente morfo-sintácticamente de los demás idiomas estudiados, suele tener una misma forma como sustantivo y variante verbal, ésta última equivalente a su vez de muchas formas conjugadas en los demás idiomas. Love en inglés es el sustantivo que significa amor y el verbo amar: en el infinitivo (cuando sigue a to), en el presente del indicativo (amo, amas, ama, amamos, amáis, aman), etc.  Evitar estas palabras.  Esta característica del inglés nos lleva a excluir los verbos.

30 Morfosintaxis no equivalente: adjetivos y sustantivos Adjetivos, invariables en inglés, varían en género y en número en los demás idiomas estudiados. Los sustantivos, que en general sólo varían en número en los demás idiomas, varían en rumano también según el caso (nominativo, genitivo, etc.) y la diferencia determinado / no determinado. El adjetivo inglés yellow corresponde a amarillo / amarilla / amarillos / amarillas. El sustantivo inglés instability / instabilities a las variantes rumanas siguientes: instabilitate / instabilitatea / instabilităţii / instabilităţi / instabilităţile / instabilităţilor.  Incluir las variantes de género, número y caso en los idiomas en la necesidad de equivalencia lo exige.

31 Pluricentrismo léxico y semántico Cuando un idioma tiene más de un centro normativo léxico-semántico. Según el país hispanohablante, se dice nafta o gasolina. Americano, en muchos países de América Latina, no tiene el mismo sentido que en otros o en España.  Incluir las variantes sinonímicas nacionales o regionales cuando corresponda.

32 Pluricentrismo ortográfico Cuando un idioma tiene más de un centro normativo ortográfico. Casos del inglés y del portugués: ortografía diferente en EE. UU. y en el Reino Unido (theater y theatre), en Portugal y en Brasil (electricidade y eletricidade).  Incluir las variantes ortográficas nacionales o regionales cuando corresponda.

33 Formas agregadas Las formas agregadas son comunes en alemán y el motor no las contabiliza.  Corregir globalmente las cifras en función de un porcentage de frecuencia.

34 CONCEPTOS: EJEMPLOS INGLÉS: cheese, cheeses ESPAÑOL: queso, quesos FRANCÉS: fromage, fromages ITALIANO: formaggi, formaggio PORTUGUÉS: queijo, queijos RUMANO: branza, branze, branzei, branzele, branzelor, branzeturi, branzeturile, branzeturilor brânza, brânze, brânzei, brânzele, brânzelor, brânzeturi, brânzeturile, brânzeturilor, brânzã ALEMÁN: kaese, kaesen, kase, kasen, käse, käsen

35 CONCEPTOS: EJEMPLOS INGLÉS: yellow ESPAÑOL: amarilla,amarillas amarillo, amarillos FRANCÉS: jaune, jaunes ITALIANO: gialla, gialle, gialli, giallo PORTUGUÉS: Amarela, amarelas, amarelo, amarelos RUMANO: Galben, galbena, galbene, galbeni, galbenã ALEMÁN: gelb, gelbe, gelbem, gelben, gelber, gelbes

36 MOTORES DE BÚSQUEDA entre maravilla y pesadilla… LOS HEMOS PROBADOS TODOS: Altavista, Excite, Fastsearch (Alltheweb), Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo et Webtop..

37 MOTORES DE BÚSQUEDA SELECCIÓN Para cada estudio se selecciona el mejor con esos criterios: - Fiabilidad de contabilidad de ocurrencias - Gestión de diacríticos - Coherencia de resultados - Tamaño del índice - Limitación de sezgos

38 MOTORES DE BÚSQUEDA un medio bastante opaco CASI SIEMPRE HAY PROBLEMAS CASI SIEMPRE HAY PROBLEMAS TOMA TIEMPO PARA VALIDAR Y ENTENDER LOS FENÓMENOS TOMA TIEMPO PARA VALIDAR Y ENTENDER LOS FENÓMENOS A MENUDO ESTUVIMOS MUY CERCA DE ABANDONAR… A MENUDO ESTUVIMOS MUY CERCA DE ABANDONAR…

39 MÉTODO ESTADÍSTICO - Distribución normal (Gauss) - Analisis del coeficiente de Varianza para validar resultados - Interval de confianza a 90% e 99% calculados a partir de la distribución Student-Fisher

40 PROGRAMACIÓN Interfaz a los motores automatizado en PHP Interfaz a los motores automatizado en PHP Nutre base de datos de resultados para conservación y comparación Nutre base de datos de resultados para conservación y comparación

41 PRODUCTOS PORCENTAJEE DE CADA IDIOMA COMPARADO CON INGLÉS PORCENTAJEE DE CADA IDIOMA COMPARADO CON INGLÉS COEFICIENTE DE VARIANZA COEFICIENTE DE VARIANZA INTERVAL DE CONFIANZA INTERVAL DE CONFIANZA

42 EVALUACIÓN DEL PORCENTAJE DEL INGLÉS - La parte le menos científica  - Realizada cruzando datos de los lenguajes no medidos - Cada día mas difícil

43 RESULTADOS DERIVADOS E INDICADORES - PORCENTAJE ABSOLUTO - PRESENCIA PONDERADA -PRODUCTIVIDAD - EVOLUCIONES

44 EVOLUCIÓN % PAGINAS WEB EN COMPAR. CON INGLÉS FUNREDES 1998-2008

45 INGLESESP.FR.IT.POR.RUM.AL.CAT.TOT. Locutores(millones)670400130602053012096600 Locutores (% pop. mundial) 10.1%6.1%2.0%0.9%3.1%0.5%1.8%0.1%130% Internautas(millones)36610258314755921154 Internautas(%)54.6%25.4%44.9%52.3%23.1%16.5%49.1%23.1%17.5% Internautas 5.5%1.5%0.9%0.5%0.7%0.1%0.9%0.0%17.5% % de Internautas por lengua 32%9%5%3%4%0%5%0.2%130% % de paginas web por lengua 45.0%3.8%4.4%2.7%1.4%0.3%5.9%0.1%100% Productividad por lengua 1.420.430.870.980.340.661.160.741 Pagina web per internauta 4.440.632.242.930.450.623.250.96 INDICADORES 2008

46 MAS RESULTADOS DERIVADOS E INDICADORES PARTIENDO DE BÚSQUEDA: - POR DOMINIO GENÉRICO - POR DOMINIOS DE PAÍSES - POR PAÍSES - POR LENGUAS  PRODUCTIVIDAD DE PAGINAS WEB EN UNA LENGUA DADA POR PAÍS…

47 ¿QUE PAÍSES PRODUCEN CONTENIDOS EN FRANCÉS? Noviembre 2007 Mayo20005Marzo2003 FRANCIA 60% -1,09 60% - 0,82 54% - 0,96 CANADA 20% - 1,06 19% - 1,27 24% - 1,83 BELGICA 7% - 0,60 8% - 1,55 7 % - 2,21 SUIZA 5% - 0,87 5% - 2,78 6% - 2,17 OTROS 8% - 0,84 8% - 1,38 9% - 3,10 FUENTE: FUNREDES/UL

48 ¿QUE REGIONES PRODUCEN CONTENIDOS EN FRANCÉS? 200720052003 EUROPA 75%79%71% AMERICA 22%21%25% AFRICA/MEDIO ORIENTE 0.3%0.4%0,4% ASIA/OCEANIA0.2%0.4%0,4% NO CLASIFICADO 2,11%0.19%3.32% FUENTE: FUNREDES/UL

49 ¿QUE PAÍSES PRODUCEN CONTENIDOS EN ESPAÑOL? FUENTE: FUNREDES/UL 20072005 2001 ESPAÑA 56% - 3.4 48 % - 2.4 54% - 2.7 EEUU 10% - 0.4 14% - 0.4 5 % - 0.12 ARGENTINA 9.4 – 0.9 10.6% - 1.9 9.6% - 1.3 MEXICO 8.4% - 0.45 7.4 % - 0.5 8.6 % - 0.45

50 QUE PAÍSES PRODUCEN CONTENIDOS EN PORTUGUÉS? FUENTE: FUNREDES/UL 20072005 BRASIL 71% - 0.90 71 % - 0.95 PORTUGAL 15 % - 0.98 17 % - 1.0 USA 4 % - 5.0 8 % - 5.4 SPAIN 3.8 % - 3.7 2.3 % - 1.2

51 QUE PAÍSES PRODUCEN CONTENIDOS EN INGLÉS? FUENTE: FUNREDES/UL nov-07may-05 EEUU 66% - 1 51 % - 0,8 INGLATERRA 6.5% - 0,6 7,2 % - 0,6 CANADA 3.5% - 0,7 5 % - 0,7 AUSTRALIA 1.5 % - 0,3 1.8 % - 0,4 ALEMAÑA 1.2 % - 39 1.9 % - 57

52 ¿CUAL ES EL ESPACIO DEL SUR EN ESTA PRODUCCIÓN? FUENTE: FUNREDES/UL En FRANCÉS: África + Asia < 0.8% (menos que España o Italia...). Destacan: Marruecos, Senegal y Vietnam En ESPAÑOL: America latina = 35% producción total Destaca: Nicaragua y Cuba en productividad En rojo: Guatemala, Honduras, Costa Rica, Puerto Rico, Perú En INGLÉS : Producción del Sur totalmente marginal excepto África del Sur, China, Brasil, algunas islas del Pacifico (uso negociado del dominio nacional!), Corea del Sur, India, Filipinas. Destaca (del Norte): Alemania, Francia, Italia, Holanda, Japón, Suiza, Rusia, Suecia, España con productividades enormes...

53 OTRAS ACTIVIDADES DEL OBSERVATORIO DE FUNREDES - Otros espacios: newsgroups, blogosfera, wikipedia - “Medición” muy aproximativa de las culturas a través las citaciones de personajes y evaluando las evoluciones. - Automatización de la traducción por programa en listas de discusión

54 EL FUTURO DE NUESTRO METODO Posiblemente hemos cumplido nuestro rol y debemos dejar el espacio a proceso mas “industriales” Posiblemente hemos cumplido nuestro rol y debemos dejar el espacio a proceso mas “industriales” Tal vez podríamos considerar lanzarnos (o mejor negociar con alguien) para aplicar el método no sobre los motores sino sobre el mismo web… Tal vez podríamos considerar lanzarnos (o mejor negociar con alguien) para aplicar el método no sobre los motores sino sobre el mismo web…

55 REFERENCIAS - Measuring linguistic diversity on the Internet, UNESCO, 12/2005, a collection of papers by: John Paolillo, Daniel Pimienta, Daniel Prado, et al. http:// portal.unesco.org/ci/en/ev.php- URL_ID=20882&URL_DO=DO_TOPIC&URL_SECTION=201.html - Activités de Funredes pour la promotion de la diversité linguistique dans l'Internet et enseignements de l'expérience, 5/05 http://portal.unesco.org/ci/en/file_download.php/92a27500bf11f4c73cd56794 3deb4077Daniel+Pimienta.doc -“Quel espace reste-t-il dans l’Internet, hors la langue anglaise et la culture "made in USA" ?”, in « Nord et Sud numériques », Les Cahiers du Numériques, Vol 2 No 3/4 Hermès, Numéro spécial sur la fracture numérique, 2001 http://funredes.org/lc/l5/cahiersNumFinal.html http://portal.unesco.org/ci/en/file_download.php/92a27500bf11f4c73cd56794 3deb4077Daniel+Pimienta.doc http://funredes.org/lc/l5/cahiersNumFinal.html http://portal.unesco.org/ci/en/file_download.php/92a27500bf11f4c73cd56794 3deb4077Daniel+Pimienta.doc http://funredes.org/lc/l5/cahiersNumFinal.html


Descargar ppt "Seminario Lenguas y culturas hispánicas en Internet Dirección José Antonio Millán MADRID Residencia de Estudiantes 3 de diciembre del 2008."

Presentaciones similares


Anuncios Google