Lenguaje de marcado o anotación de textos XML Lenguaje de marcado o anotación de textos Grupo de Ingeniería Lingüística – IINGEN – UNAM Septiembre 2012
Marcado Históricamente: “Anotación” Poner marcas dentro del texto que intentan resaltar una parte o dar una instrucción
Marcado Hace ochenta y siete años Que nuestros padres fundaron En este continente una nueva nación,
Marcado Actualmente: Códigos dentro de los textos electrónicos Dar formato Estilo de impresión Otros procesamientos.
Lenguaje de marcado Conjunto de convenciones de marcado usadas para codificar textos Debe indicar: Marcas permitidas Cómo se distinguirán del texto original Qué significan esas marcas
Historia GML (General Markup Language) Nace en 1969 en IBM Clasificar y almacenar cantidades de información de diversos temas Sintaxis complicada y poco estandarizada
Historia SGML (Standard Generalised Markup Language) Anotar de una forma altamente estructurada Conjunto de etiquetas definibles por el propio usuario
Historia HTML (HyperText Markup Language) 1989 – Internet - Tim Berners-Lee Tiene un conjunto de elementos y atributos fijos Orientado a formato
Historia XML (eXtensible Markup Language) 1996 - World Wide Web Consortium Orientado a estructura Permite al usuario definir sus propias etiquetas
XML Marcado descriptivo <párrafo>
XML Independencia de los datos
<párrafo>, <clítico>, <FN> XML Elemento Nombrar una entidad de interés en el corpus Identificar un fenómeno <párrafo>, <clítico>, <FN> <metátesis>, <composición>
<párrafo id=“1”> <clítico tipo=“proclítico”> XML Atributo Agregar información sobre un elemento <párrafo id=“1”> <clítico tipo=“proclítico”> <derivación tipo=“nominal”>
Ejemplo XML <antología> <poema id=“1”> <título>A UNA NARIZ </título> <estrofa id=“1”> <verso id=“1”> Érase un hombre a una nariz pegado, </verso> <verso id=“2”> érase una nariz superlativa, </verso> <verso id=“3”> érase una nariz sayón y escriba, </verso> <verso id=“4”> érase un peje espada muy barbado. </verso> </estrofa> <!– más estrofas --> </poema> <!– más poemas --> </antología>
Ejemplo XML
Esquema - XSD Lenguaje de esquema Conjunto de reglas sobre la estructura ¿Verso contiene a estrofa o al revés? Conjunto de restricciones de los contenidos Tipos de derivación permitidos = {nominal, verbal} <estrofa id=“1”> <verso id=“1”> Érase un hombre a una nariz pegado, </verso> <derivación tipo=“nominal”>
Hoja de estilo - XSL Lenguaje de hoja de estilo Transforma documento XML en otro formato Instrucciones de programación
Procesar XML APIs en lenguajes de programación SAX DOM Secuencial Rápido DOM Recorrido de nodos Más memoria
Instrucciones de programación Tecnología XML XSD Reglas Restricciones Valida Frecuencias Etiquetado POS Resumen automático API Librería Procesa XML <> XML <> PDF XSL Instrucciones de programación Transforma HTML
Esquema - XSD
Esquema - XSD Definir elemento que incluye elementos (complexType) Sequence - Orden estricto de elementos
Esquema - XSD Definir elemento que incluye elementos (complexType) Sequence - Orden estricto de elementos
Esquema - XSD Definir elemento con atributos
Esquema - XSD Definir elemento con atributos y restricción
Esquema - XSD Definir elemento con atributos y restricción