La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

JOURNÉE INTERNATIONALE DE LA LANGUE MATERNELLE UNESCO PARIS 21 février 2007.

Presentaciones similares


Presentación del tema: "JOURNÉE INTERNATIONALE DE LA LANGUE MATERNELLE UNESCO PARIS 21 février 2007."— Transcripción de la presentación:

1 JOURNÉE INTERNATIONALE DE LA LANGUE MATERNELLE UNESCO PARIS 21 février 2007

2 ATELIER Expériences récentes pour mesurer les langues dans le cyberespace: un tour dhorizon et la méthode Funredes/Union Latine

3 Daniel Pimienta pimienta@funredes.org FUNDACIÓN REDES Y DESARROLLO http://funredes.org

4 APPROCHES EXISTANTES METHODEPOURCONTRE MOTEUR SIMPLE SIMPLE ORDRE DE GRANDEUR ALIS/OCLCAMELIORABLESTATISTIQUESALGORITHME MARKETING NON TRANSPARENT (FUNREDES/UL)DOCUMENTÉINDICATEURS LIMITES LANGUES & INDEX

5 APPROCHES FUTURES METHODEPOURCONTRE ALGO. RECONAIS. PUISSANCE PAS LIMITE ALGORITHME A LA ALEXA COUVERTURE (FUNREDES/UL) EVOLUTION MOTEURS

6 METHODE FUNREDES/UNION LATINE HTTP://FUNREDES.ORG/LC BASÉE SUR MOTEUR DE RECHERCHE BASÉE SUR MOTEUR DE RECHERCHE APPROCHE LINGUISTIQUE SERIEUSE APPROCHE LINGUISTIQUE SERIEUSE TRAVAIL STATISTIQUE SOIGNÉ TRAVAIL STATISTIQUE SOIGNÉ LA SEULE DOCUMENTÉE 100% LA SEULE DOCUMENTÉE 100% LA SEULE AVEC SUIVI RÉGULIER LA SEULE AVEC SUIVI RÉGULIER VARIETE DINDICATEURS VARIETE DINDICATEURS VARIETE DESPACE VARIETE DESPACE

7 METHODE FUNREDES/UNION LATINE LIMITATION EN LANGUES (anglais, allemand, espagnol, français, italien, portugais, roumain) LIMITATION EN LANGUES (anglais, allemand, espagnol, français, italien, portugais, roumain) DONNE RÉSULTATS RELATIFS DONNE RÉSULTATS RELATIFS MESURE LESPACE INDEXÉ MESURE LESPACE INDEXÉ FUTUR INCERTAIN FUTUR INCERTAIN

8 METHODOLOGIE FUNREDES/UNION LATINE Définition 57 concepts équivalents sémantiquement ===> 1600 termes Définition 57 concepts équivalents sémantiquement ===> 1600 termes Mesure comparative fréquence avec moteurs de recherche (automatisé para programme) Mesure comparative fréquence avec moteurs de recherche (automatisé para programme) Méthode statistique (distribution, moyenne, variance, loi de Fischer, intervalle de confiance) Méthode statistique (distribution, moyenne, variance, loi de Fischer, intervalle de confiance) Résultats % par rapport anglais Résultats % par rapport anglais Evaluation anglais par recoupement et résultats absolus autres langues. Evaluation anglais par recoupement et résultats absolus autres langues.

9 CONCEPTS: CRITÈRES LINGUISTIQUES Neutralité culturelle Homographie trans-linguistique Homographie trans linguistique avec un des éléments d'un mot composé Homographie trans-linguistique par emprunt Homographie avec une abréviation Homographie avec un nom propre fréquent Pseudo-homographie trans-linguistique Significations non équivalentes Morpho-syntaxe non équivalente : nom, verbe Morpho-syntaxe non équivalente : adjectifs et noms Pluricentrisme lexique et sémantique Pluricentrisme orthographique Formes aggrégées (allemand)

10 Neutralidad cultural Propiedad de una palabra en relación con su frecuencia de uso en la lengua en función de la cultura respectiva. Las palabras francesas vin, parfum, gastronomie y las palabras del lenguaje diplomático no son neutras culturalmente, en relación con el francés. Para obtener una muestra con el coeficiente de variación menor posible, se dejaron de lado las palabras no neutras culturalmente. Para obtener una muestra con el coeficiente de variación menor posible, se dejaron de lado las palabras no neutras culturalmente.

11 Homografía interlingüística La grafía de una palabra en un idioma es idéntica a la de otra palabra en otro idioma, incluido el caso de faux amis (significación diferente). Puede haber homografías con o sin diacríticos. Ejemplo de grafía idéntica (con el mismo sentido): casa en castellano y portugués. Ejemplos de faux amis: red en castellano y red en inglés (rojo); hier en francés (ayer) y hier en allemán (aquí). Rechazar las palabras homógrafas (con o sin diacríticos).Se han tenido en cuenta, para rechazarlas, las homografías entre los idiomas del estudio o con un idioma muy presente en Internet, como el alemán. Para evitar el riesgo estadístico de homografías con otros idiomas, se descartan por principio las palabras de menos de cuatros letras. Rechazar las palabras homógrafas (con o sin diacríticos).Se han tenido en cuenta, para rechazarlas, las homografías entre los idiomas del estudio o con un idioma muy presente en Internet, como el alemán. Para evitar el riesgo estadístico de homografías con otros idiomas, se descartan por principio las palabras de menos de cuatros letras.

12 Homografía interlingüística por préstamo Cuando una palabra de un idioma es aceptada tal cual en otro. Anglicismos comme business, sandwich o software. El galicismo, deja vu en inglés, castellano, etc. (homógrafo de la expresión francesa sin diacríticos). Excluir sistemáticamente o deducir (mardi-gras) Excluir sistemáticamente o deducir (mardi-gras)

13 Homografía con una abreviación Sept, siete en francés, homógrafo de las abreviaciones de septiembre en varios idiomas, sobre todo en inglés. Evitar estas palabras. Evitar estas palabras. Estamos relativamente protegidos por la consigna de evitar palabras de menos de cuatros letras.

14 Homografía con un nombre propio frecuente Windows es ventana en inglés.... pero es asimismo el nombre de un programa muy citado en la Internet. Evitar estas palabras. Evitar estas palabras.

15 Pseudohomografía interlingüística La escritura de una palabra con une error de ortografía frecuente en un idioma corresponde a otra en otro idioma. Ambasador en rumano puede confundirse con ambas(s)ador en inglés. Se rechazan estas palabras solamente si la lengua con que se confunde es el inglés. Se rechazan estas palabras solamente si la lengua con que se confunde es el inglés.

16 Significados no equivalentes Prix en francés equivale en su significado a premio y a precio. Evitar estas palabras, salvo si fuera posible incluir todos los significantes que completarían el sentido en las lenguas que lo necesiten. Evitar estas palabras, salvo si fuera posible incluir todos los significantes que completarían el sentido en las lenguas que lo necesiten.

17 Morfosintaxis no equivalente: sustantivo, verbo El inglés es diferente morfosintácticamente de los demás idiomas estudiados, suele tener una misma forma como sustantivo y variante verbal, ésta última equivalente a su vez de muchas formas conjugadas en los demás idiomas. Love en inglés es el sustantivo que significa amor y el verbo amar: en el infinitivo (cuando sigue a to), en el presente del indicativo (amo, amas, ama, amamos, amáis, aman), etc. Evitar estas palabras. Evitar estas palabras. Esta característica del inglés nos lleva a excluir los verbos. Esta característica del inglés nos lleva a excluir los verbos.

18 Morfosintaxis no equivalente: adjetivos y sustantivos Adjetivos, invariables en inglés, varían en género y en número en los demás idiomas estudiados. Los sustantivos, que en general sólo varían en número en los demás idiomas, varían en rumano también según el caso (nominativo, genitivo, etc.) y la diferencia determinado / no determinado. El adjetivo inglés yellow corresponde a amarillo / amarilla / amarillos / amarillas. El sustantivo inglés instability / instabilities a las variantes rumanas siguientes: instabilitate / instabilitatea / instabilităţii / instabilităţi / instabilităţile / instabilităţilor. Incluir las variantes de género, número y caso en los idiomas en la necesidad de equivalencia lo exige. Incluir las variantes de género, número y caso en los idiomas en la necesidad de equivalencia lo exige.

19 Pluricentrismo léxico y semántico Cuando un idioma tiene más de un centro normativo léxico-semántico. Según el país hispanohablante, se dice nafta o gasolina. Americano, en muchos países de América Latina, no tiene el mismo sentido que en otros o en España. Incluir las variantes sinonímicas nacionales o regionales cuando corresponda. Incluir las variantes sinonímicas nacionales o regionales cuando corresponda.

20 Pluricentrismo ortográfico Cuando un idioma tiene más de un centro normativo ortográfico. Casos del inglés y del portugués: ortografía diferente en EE. UU. y en el Reino Unido (theater y theatre), en Portugal y en Brasil (electricidade y eletricidade). Incluir las variantes ortográficas nacionales o regionales cuando corresponda. Incluir las variantes ortográficas nacionales o regionales cuando corresponda.

21 Formas agregadas Las formas agregadas son comunes en alemán y el motor no las contabiliza. Corregir globalmente las cifras en función de un porcentage de frecuencia. Corregir globalmente las cifras en función de un porcentage de frecuencia.

22 CONCEPTOS: EJEMPLOS INGLÉS: cheese, cheeses ESPAÑOL: queso, quesos FRANCÉS: fromage, fromages ITALIANO: formaggi, formaggio PORTUGUÉS: queijo, queijos RUMANO: branza, branze, branzei, branzele, branzelor, branzeturi, branzeturile, branzeturilor brânza, brânze, brânzei, brânzele, brânzelor, brânzeturi, brânzeturile, brânzeturilor, brânzã ALEMÁN: kaese, kaesen, kase, kasen, käse, käsen

23 CONCEPTOS: EJEMPLOS INGLÉS: yellow ESPAÑOL: amarilla,amarillas amarillo, amarillos FRANCÉS: jaune, jaunes ITALIANO: gialla, gialle, gialli, giallo PORTUGUÉS: Amarela, amarelas, amarelo, amarelos RUMANO: Galben, galbena, galbene, galbeni, galbenã ALEMÁN: gelb, gelbe, gelbem, gelben, gelber, gelbes

24 SEARCH ENGINE All are tested: Altavista, Excite, Fastsearch (Alltheweb), Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo et Webtop. The best suited is selected: - Counting reliability - Handling of diacritics - coherence of results - Size of Index - Homogeneity vs. Language

25 SEARCH ENGINE Almost always a headache… Almost always a headache… Takes time to validate and understand tricks… Takes time to validate and understand tricks…

26 COMPUTING Completely automatized by PHP program interfacing the web. Completely automatized by PHP program interfacing the web. Data base of results for comparation and historical storage. Data base of results for comparation and historical storage.

27 STATISTICAL METHOD - Normal distribution - Covariance analysis for sound results - 90% and 99% confidence interval Computed from Student T-Distribution

28 PRODUCTS RAW PORCENTAGE OF LANGUAGE COMPARED TO ENGLISH RAW PORCENTAGE OF LANGUAGE COMPARED TO ENGLISH VARIANCE COEFFICIENT VARIANCE COEFFICIENT CONFIDENCE INTERVAL CONFIDENCE INTERVAL

29 EVALUATION OF ENGLISH PORCENTAGE - The least scientifical part - Made by crosschecking with the porcentrage of reamaining languages and modelling - More and more difficult to do…

30 DERIVED RESULTS AND INDICATORS ABSOLUTE PERCENT - WEIGHTED PRESENCE OF LANGUAGE (RELATIVE TO NUMBER OF SPEAKERS) -PRODUCTIVITY (RELATIVE TO NUMBERS OF INTERNAUTS) - EVOLUTIONS

31 1998-2005 EVOLUTION % WEB PAGES BY LANGUAGE vs. ENGLISH 1998-2005 EVOLUTION % WEB PAGES BY LANGUAGE vs. ENGLISH

32 INDICATORS 2005 INGLESP.FRA.ITA.POR.RUM..ALEM.RES.TOT. SPEAKERS (millons) 630375130601903012053706000 SPEAKERS % 10,5%6,3%2,2%1%3,2%0,5%2%89,5%100% INTERNAUTS (MILLONS) 300804942384715161100 INTERNAUTS vs. SPEAKERS 47,621,3%37,7%70,0%20,0%14,7%59,2%9,6%18.3% INTERNAUTAS vs. POPULATION 5.0%1,3%0,8%0.7%0,6%0,1%1,2%8,6%18.3% % INTERNAUTS PER LANGUAGE 27%7%4%4%3%0,4%7%25%100% WEB PAGES % 45%4,6%5%3,0%1,9%0,2%6,9%33,4%100% WEB PRODUCTIVITY WEB PRODUCTIVITY1.570,661,140,810,550,701,061,321 WEB PAGE vs. SPEAKERS 4.290,742,283,050,590,333,470.37 (Sources: Global Reach y Funredes/Union Latina)

33 DERIVED RESULTS AND INDICATORS GOOGLE ALLOW HIGH FLEXIBILITY OF SEARCHES: - BY GENERIC DOMAIN - BY TOP LEVEL DOMAIN - BY COUNTRY - BY LANGUAGE This allow, with our methodology, to produce interesting indicators such as productivity per language per country…

34

35

36

37

38 OTHER ACTIVITIES OF FUNREDES OBSERVATORY - Measuring languages in other Internet spaces such as: newsgroups, blogospehere, wikipedia - Measuring cultures via citation index of representative personnages and weighting evolutions. - Automatic translation in electronic conferences.

39 AND BY THE WAY… ENGLISH WEB PAGES ARE BELOW 50% SINCE 2002…. CAN YOU BELIEVE IT? Go check: http://FUNREDES.ORG/LC


Descargar ppt "JOURNÉE INTERNATIONALE DE LA LANGUE MATERNELLE UNESCO PARIS 21 février 2007."

Presentaciones similares


Anuncios Google