El proyecto del Diccionario del Español de México (DEM)
Antecedentes Proyecto de El Colegio de México A. C. (Centro de Estudios Lingüísticos y Literarios). Equipo de trabajo del Dr. Luis Fernando Lara.
Objetivo Elaborar un diccionario que incluyera el léxico hablado en las fronteras políticas mexicanas.
Componentes Bibliografía en papel. Textos del corpus. Índice estadístico de palabras. Concordancias.
Metodología Crear una fuente primaria de información. Buscar información basada en datos reales. Constituir un corpus como muestra representativa del léxico del español usado en México.
Corpus del Español Mexicano Contemporáneo (CEMC) Creado entre 1921 y 1974. Etiquetado morfosintácticamente mediante un analizar gramatical. Cerca de 2 millones de palabras. 1, 932 textos.
Fragmento del CEMC Número de texto (3 dígitos). Página de la obra (3 dígitos). Línea en la cinta magnética (3 dígitos).
Sistema computacional (SCDEM) Archivos de concordancias. Archivos de datos estadísticos. INFORMIX.
Funciones de búsqueda (SCDEM) TIPOS: Estadística por palabra, raíz, palabra truncada, categoría gramatical y lema. Frecuencia corregida, índice de corrección e índice de dispersión.
Categorías gramaticales
Funciones de búsqueda (SCDEM)
Funciones de búsqueda (SCDEM) CONCOR: Recuperar concordancias. Categoría con palabra, raíz o palabra trunca: *hHOMBREh* - *hHOMBRE*h* - *hHOMBR*h* *[a-n]SER[a-n]* Combinación de categorías: *cYc* *fELf* *hFERROCARRILh* Salida a archivo de concordancias.
Ejemplo de concordancia
Funciones de búsqueda (SCDEM) TEXTOS: Consultar líneas de los textos. 219, 122 líneas. Búsqueda a partir de la concordancia.
Clasificación de documentos
Clasificación de documentos