Introducción a la Lingüística de corpus

Slides:



Advertisements
Presentaciones similares
MCB/Emerald. Nombre del servicio: Emerald Cobertura de la licencia: nacional para todas las bibliotecas del país, investigaciones sin fines de lucro e.
Advertisements

Un Weblog, blogs, bitácora o edublogs en el mundo educativo, es un sitio Web, formado por artículos (post) de uno o varios autores, en orden cronológico.
Conceptos. Ludy Tatiana Beltrán Montañéz Ficha: Servicio Nacional de Aprendizaje - Sena Tecnólogo en Gestión Administrativa Aplicar Tecnologías.
Conceptos. Ludy Tatiana Beltrán Montañéz Ficha: Servicio Nacional de Aprendizaje - Sena Tecnólogo en Gestión Administrativa Aplicar Tecnologías.
ACTIVA TU CONOCIMIENTO PREVIO ¿Qué sabes sobre el tema? LECTURA EXPLORATORIA Hojea el libro en forma rápida. Pasa las hojas.
LAS TIC’S. LAS TECNOLOGIAS DE LA INFORMACION Y LA COMUNICACION  Las tecnologías de la información y la comunicación son la realidad más avasallante de.
SEMINARIO DE TESIS I ALUMNO:  FLORES GONZALES SAUL. CARRERA PROFESIONAL:  Administración de Empresas. TEMA DE ESTUDIO:  DELIMITACIÓN DEL PROBLEMA.
LA INFOGRAFÍA. ¿Qué es la infografía? Es un diseño gráfico en el que se combinan textos y elementos visuales con el fin de comunicar información precisa.
Conocida también como informática en la nube, del inglés Cloud Computing, es un modelo o paradigma para la utilización de los recursos informáticos,
Introducción al mundo de las comunicaciones
Conceptos generales de base de datos
Conferencia 2. Herramientas generales y especializadas de Internet
1.¿Qué es la comunicación?
Registro de Software REALIZADO POR: ANDRÈS BARRETO.
Formato para la presentación de informes escritos
Computadora: Herramienta electromecánica que facilita diversas y muy variadas tareas dependiendo del programa que se utilice. Se caracteriza por aceptar.
Introducción La digitalización de documentos es hoy en día una práctica común en el ambiente computacional; un documento digital o un documento digitalizado.
INTRODUCCION AL DISEÑO DEL SOFTWARE EDUCATIVO
Facultad de Arquitectura y Urbanismo
TERMINOLOGÍA CIENTÍFICA Y ESPECIALIZADA
LENGUAJE DE PROGRAMACIÓN Y SOFTWARE PROPIETARIO
Hardware Software Sistema Informática Computadora Computación Datos.
Introducción al mundo de las comunicaciones
LENGUAJES Y REPRESENTACION TECNICA
INSTRUMENTOS PARA LA VALIDACIÓN DE MATERIALES IMPRESOS
REDES INFORMÁTICAS Es un sistema informatizado de comunicaciones e intercambio de información que se establece mediante conexión física de dos o más computadoras.
COMPUTADORA Una computadora es una colección de circuitos integrados  y otros componentes relacionados que puede ejecutar con exactitud, rapidez y de.
Lectura comprensiva.
Definición de un Sistema Distribuido
Lenguaje y representación técnica
INTEGRANTES: Denise Adriana Farfán del Ángel Yeni Guadalupe González Hernández Tomas Eduardo Villaseñor Rivera Juan Daniel cruz Hernández Uvaldo Rodríguez.
Aspectos generales del manual APA 6
Unidad 1 Introducción al mundo de la computación.
Representaciones Geográficas
Proceso de escritura El proceso consiste en una serie de pasos que normalmente se siguen para escribir.
LECTURA FINAL AÑO 2017.
LA APROPIACIÓN INTELECTUAL
Una estrategia es un conjunto de acciones que se llevan a cabo para lograr un determinado fin. DEFINICIÓN DE ESTRATEGIA.
Base de Datos TECNICATURA SUPERIOR EN INFORMÁTICA PROF.: GUANUCO, JUAN CARLOS.
Seguridad en el comercio electrónico Aldrid Pitti Austin Torres Arturo Merel.
Es un diseño gráfico (texto periodístico) en el que se combinan textos y elementos visuales con el fin de comunicar información precisa sobre variadas.
PROBLEMA DE INVESTIGACIÓN DEFINICIÓN - CONCEPTO: …………………………………..
LA SOCIEDAD DE LA INFORMACIÓN- SOCIEDAD DEL CONOCIMIENTO
Aspectos metodológicos 2 Metodología, Categorías y herramientas
1.¿Qué es la comunicación?
REGISTRO DE OBRAS EN EL INSTITUTO NACIONAL DE DERECHOS DE AUTOR
Profa. Maribell Díaz Ravelo Enero 2013
Producción editorial y corrección de estilo
Aspectos Fundamentales del Tratado de Marrakech
Implementación de los Sistemas de Información
NORMAS TÉCNICAS PARA PRESENTACIÓN DE TRABAJOS ESCRITOS
Programación (1).
Fiabilidad, Confidencialidad, Integridad y Disponibilidad
LA EXPOSICIÓN ORAL DEFINICIÓN CARACTERÍSTICAS EL LENGUAJE EXPOSITIVO
Computadora La computadora o computador es una maquina electrónica que recibe y procesa dato para convertirlos en información útil.
Características de las presentaciones
Compilación de corpus textuales
EL INFORME. ¿Qué es el informe? El concepto de informe, como derivado del verbo informar, consiste en un texto o una declaración que describe las cualidades.
¿C UÁL ES EL SENTIDO ÉTICO PARA LA BÚSQUEDA DE INFORMACIÓN ? El estudiante enfrenta dilemas en el uso ético de información. Conciencia ética Toda información.
INSTITUTO TECNOLOGICO DE VERACRUZ
Tema 3 El contexto del discurso
Fundamentos de la Programación I
Software educativo.
PROGRAMACIÓN BÁSICA CONCEPTOS BÁSICOS Software. TEMAS:  Software y sus funciones  Tipos de Software  Software de Sistemas  Software de Aplicación.
Investigación de mercado. DEFINICION La Investigación de Mercados es un elemento clave dentro del campo de la información de marketing. Vincula al consumidor,
ARTÍCULO INFORMATIVO Séptimo año básico. . ¿Dónde se encuentra este tipo de textos? Textos científicosTextos humanísticosManuales Textos especializados.
SISTEMA DE INFORMACION CATASTRAL DE SIC-COMUNIDADES DIGESPACR
Profesor del curso: UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU 2019-I Facultad de Ingeniería de Sistemas 1.
modalidades de la investigación según diseño y tipo
Software Libre vs Software Propietario Presentado por: Armas Magallanes, Rogger.
Transcripción de la presentación:

Introducción a la Lingüística de corpus Definición de corpus lingüístico Características de los corpus Gerardo Sierra

Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Representación de la realidad Pavlov PAVLOV N NOM SG PROPER had HAVE V PAST VFIN SVO HAVE PCP2 SVO shown SHOW PCP2 SV00 SVO SV that ADV PRON DEM SG DET CENTRAL DEM SG CS salivation N NOM SG Un corpus de textos consiste en un conjunto de texto reales y aceptables pertenecientes a un código lingüístico determinado.

Representatividad Un corpus siempre es una muestra de lengua y no pretende ser la totalidad de ella. Los textos que conformarán el corpus deben ser representativos del tema de estudio que se llevará a cabo.

Información personal del informante Localidad geográfica Tópico Variedad Información personal del informante Localidad geográfica Tópico Tipo de texto Fuente del texto Tiempo

Información personal del informante Localidad geográfica Tópico. Variedad Información personal del informante Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.

Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.

Información personal del informante. Localidad geográfica Tópico Variedad Información personal del informante. Localidad geográfica Tópico Tipo de texto. Fuente del texto. Tiempo.

Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto Fuente del texto. Tiempo.

Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto Tiempo.

Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo

Equilibrio

Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Tamaño de grandes corpus 520 Mill. 400 Mill. 100 Mill. 5 Mill (voz)

100 millones de palabras = 4 años de lectura a 150 pal/min X 8 hs. ¿Qué tanto es tantito? 100 millones de palabras = 4 años de lectura a 150 pal/min X 8 hs. 1 millón de palabras = 9 ejemplares del New Yorker (965 pal. X 112 págs.) = 8 libros medianos (375 pal. X 338 págs.) = 5 tesis de doctorado (210 mil pal. X 5)

Tamaño finito Tamaño = f (tiempo, $) Diferentes medidas: Tamaño del corpus Tamaño finito Tamaño = f (tiempo, $) Diferentes medidas: palabras horas informantes

Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Manejable por la computadora Soporte informático Recuperable computacionalmente Formato texto Formato estándar Clasificable

Ventajas de corpus informatizado Manipulación más fácil Velocidad de procesamiento Precisión Actualizable Compartible y reutilizable Accesible Costo de acceso

Desventajas de corpus informatizado Software especializado Digitalización de los textos Requerimientos de equipo de cómputo Gasto de inversión Actualización del equipo Fallas técnicas

Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Consentimiento del titular de la obra: Derechos de autor Consentimiento del titular de la obra: Previo, explícito y por escrito Corpus debe señalar las fuentes Excepciones: Investigación o docencia sin fines de lucro 70 años después del fallecimiento del autor Acceso sólo a parte del texto Excepto caso texto oral

Propiedad intelectual del corpus Reconocimiento al equipo de trabajo Agradecimiento al patrocinador Registro de usuarios Ser reconocido por los usuarios