Los corpus electrónicos

Slides:



Advertisements
Presentaciones similares
Fuentes de información
Advertisements

LENGUAJE, LENGUA Y LINGÜISTICA
Resultados de Escritura 4º Básico Primera evaluación nacional de Escritura.
LAS VARIEDADES LINGÜÍSTICAS
EL LENGUAJE.
TERMINOLOGÍA EN ESPAÑOL
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
La lengua como sistema.
EL URBANISMO COMO METÁFORA LA LENGUA COMO SISTEMA DE SIGNOS
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
Búsqueda y Recuperación de Información
INVESTIGACIÓN SOCIOLINGÜÍSTICA o “SURVEY”
LATINDEX.
¿Cómo hacer para que una máquina comprenda el LN?
INTERACCION HUMANO COMPUTADORA
I PARTE Lingüística.
DESARROLLO DE LA INVESTIGACION
Prof. José Joaquín Martínez Egido Profa. Pilar Escabias Lloret Universidad de Alicante.
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
Metabuscador Tutorial de Búsqueda Básica. Bienvenido al tutorial de uso del Metabuscador de la Biblioteca Electrónica. A través de EBSCO Discovery Service.
LAS CARAS DE LA EVALUACION
Observa detenidamente estas figuras , agrupándolas como prefieras anotando el número correspondiente
INTRODUCCIÓN A LA INGENIERÍA Clase 14
FACULTAD DE INGENIERIA QUIMICA E.A.P. INGENIERIA AMBIENTAL 1.
PCORPUS Corpus Cola on line.
Proceso de elección del tema a investigar
Autor INTRODUCCIÓN TAREA Título Textos Narrativos 2° Ciclo Lenguaje y Comunicación PROCESO RECURSOS EVALUACIÓN Autor
Para Referencias, Citas E Índices
El análisis y recuperación de información
La Universidad en Internet 1 TFG Trabajo FIN DE GRADO MAESTRO Sesión 2.
Lo bucadores son sistemas que permite al usuario buscar información,estos la consiguen de la web, pero otroa tanto la obtienen del news,gopher,ftp,etc.
Catálogo de las bibliotecas del CRAI de la Universidad de Barcelona.
“Los Logaritmos: Más que ejercicios algebraicos…”
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
LOMCE (Ley Orgánica para la mejora de la calidad educativa)
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Bilingüismo 1 Schroten (1994: 131): Bilingüismo es la capacidad de hablantes de hablar y entender más de una lengua; muchas veces se usa este término.
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
Universidad Andrés Bello
R esultados de la e valuación del p royecto del c urso p iloto de 3º de f ilosofía s egundo c uatrimestre.
Plagio de paginas web Plagió de paginas web Elaborado por : Montoya zuleima y estefany López.
Learning and Teaching Spanish. Internet Resources Belén Álvarez García Edmonton 30 octubre 2010
Tecnologías para el Aprendizaje
Por: Andrés y Samuel.  ¿Cuál crees que sea la lengua mas hablada del mundo?  ¿por que?  ¿Dónde crees que se habla mas?
Tecnologías para el Aprendizaje
Formación inicial en centros bilingües de la provincia de Sevilla Delegación Provincial de Educación 19 de enero de 2009 Elaboración de unidades didácticas.
Determinar claramente un objetivo. Traducir este objetivo a palabras claves o frases cortas que definan bien el tema.
El lenguaje se hace vida a través del habla.
Fichas de resumen.
Tomando decisiones sobre las unidades de análisis
INTERFERENCIAS DE OTRAS LENGUAS EN LA ENSEÑANZA / APRENDIZAJE DEL ESPAÑOL EN ALUMNOS POLACOS ¿ES POSIBLE CONVERTIR AL ENEMIGO EN EL ALIADO? Ewa.
Lingüística computacional unidad 2. lexicones y corpus
Tecnologías del lenguaje
Estadística aplicada a la Función Policial
MUESTREO : Generalidades
Temas: El Ordenador | Redes | ¿Qué es un wiki? | Diseño Web | Programación informática | Hojas de cálculo El OrdenadorRedes¿Qué.
La estrategia de búsqueda
Universidad Pedagógica Experimental Libertador La Investigación a través de ERIC Prof. María Correa Prof. Néstor Ojeda.
Recursos bibliográficos y gestión de la información
Contextualización y definición de las Normas APA
Técnicas de Investigación Documental
COMUNICACION.
ELABORADO POR: DIANA KARINA MARTÍNEZ TORRES.. ¿QUÉ ES? Programas educativos y programas didácticos como sinónimos para designar genéricamente los programas.
DHTIC Juan Esteban Hernández Pérez Estrategias de Búsqueda.
¿Quién es bilingüe? Día 2, 13 enero 2016 Bilingüismo hispánico SPAN 4350 Harry Howard Tulane University.
Velocidad, precisión y sencillez, en tus manos. Guía de Usuario.
Basado en el libro Léxico del español como segunda lengua: aprendizaje y enseñanza, de Mª Victoria Romero Gualda (2008).
Universidad de Los Andes Facultad de Humanidades y Educación Escuela de Idiomas Modernos Maestría en Enseñanza/Aprendizaje de las Lenguas Extranjeras USO.
Transcripción de la presentación:

Los corpus electrónicos Paloma Sorribes Miñana Curso: 2º Traducción y Comunicación Intercultural Asignatura: Traducción asistida por ordenador Profesor/a: Gisela Abad

Índice 1. ¿Qué son? 2. Tipos de corpus 3. Los corpus orales 4. Los corpus textuales 5. Los corpus mixtos

1. ¿Qué son? Un corpus lingüístico es una colección más o menos extensa de textos o de fragmentos de ellos en soporte electrónico. Su principal característica es la representatividad del estado o sector de la lengua seleccionado. Su objetivo es constituirse en elementos de referencia para el estudio de una frase concreta o un cierto aspecto de una lengua (p.e.: los corpus textuales que facilitan el estudio del español en los dialectos latinoamericanos).

2. Tipos de corpus En general, los principales parámetros para clasificar los corpus se centran en: La modalidad de la lengua: corpus orales, corpus textuales o corpus mixtos. El número de lenguas a que pertenecen los textos: monolingües, bilingües o multilingües. El tamaño o cantidad de textos que conforman el corpus: corpus grandes, equilibrados y piramidales. Los límites del corpus : corpus cerrados o abiertos (también llamados corpus monitor). La variedad lingüística o el grado de especialización de los textos: Generales o especializados. Genéricos o canónicos. El período temporal que abarcan los textos: Periódicos o cronológicos. Diacrónicos o históricos (a través del tiempo), diferenciándose de los sincrónicos (presente). El tratamiento aplicado al corpus: Corpus simples. Corpus verticales. Corpus simplificados o anotados. De todos modos, debido al límite de tiempo, en esta exposición se va a tratar solamente tres tipos de corpus muy diferenciados entre sí según la modalidad utilizada (es decir, el primer criterio de clasificación de la lista).

3. Los corpus orales Sirven para el estudio de una lengua desde un determinado aspecto (p.e., los dialectos). Únicamente recogen muestras de lengua hablada. El objetivo no es tanto el análisis de las características de tipo fonético, sino la obtención de una transcripción ortográfica de la lengua hablada.

Algunos corpus orales ACUAH: Análisis de la conversación de la Universidad de Alcalá de Henares. Cedido por la Universidad de Alcalá de Henares, Madrid. ALFAL: Macrocorpus de la Norma Lingüística Culta de las Principales Ciudades del Mundo Hispánico. Cedido por la Asociación de Lingüística y Filología de América Latina. The Bergen Corpus of London Teenage Language (COLT) es un corpus de medio millón de palabras cuyo objetivo fundamental es dar cuenta del dialecto de los adolescentes de Londres y, por tanto, servir como punto de referencia para estudios de índole lingüística. Corpus Oral de Lenguaje Adolescente (COLA): características similares al COLT. Corpus de Conversación Coloquial: también similar al COLT. Grabaciones orales.

4. Los corpus textuales Conjunto de datos, textos u otros materiales sobre determinadas materias que pueden servir de base para una investigación o trabajo. Están conformados exclusivamente por muestras de lengua escrita. Son de gran ayuda para el uso de términos, lexicografía, neologismos… en las traducciones. También se utilizan para otros fines, como la realización de análisis estadísticos o la validación de reglas lingüísticas dentro de un territorio específico de una lengua.

Algunos corpus textuales Thesaurus Linguae Graecae (sobre griego antiguo). Eastern Armenian National Corpus (EANC) (110 millones palabras). National Corpus of Polish. German Reference Corpus (DeReKo) (más de 4 billones de palabras de alemán contemporáneo). Corpus textual español (Molino de Ideas) (660 millones de palabras). Turkish National Corpus

5. Los corpus mixtos Los corpus mixtos combinan ambas modalidades de lengua, aunque siempre favoreciendo la escrita, ya que su obtención es menos costosa que la de la lengua oral.

Algunos corpus mixtos El Corpus de Referencia del Español Actual (CREA) El British National Corpus (BNC) Afasia: Corpus mixto de lenguaje conversacional (libro), publicado por Carlos Hernández Sacristán, Enrique Serra Alegre y Montserrat Veyrat Rigat.

Bibliografía http://www. wordreference

Observaciones Personalmente para mí, la búsqueda de información sobre los corpus ha resultado ser una tarea nada fácil, ya que en la red no parece haber tanta información concreta sobre ellos como debería –definiciones de los mismos, objetivos, utilización–. Tampoco he podido disponer de mucha información en los libros, ya que no disponía de obras escritas que hablaran sobre ellos al ser una herramienta de reciente aparición. He hallado mucho ruido informativo en mi búsqueda en la red incluso con la utilización constante de buscadores booleanos, lo cual no ha contribuido tanto a la eficacia de mi búsqueda como yo hubiera deseado.