La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Presentaciones similares


Presentación del tema: "Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)"— Transcripción de la presentación:

1 Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

2 Presentació John Roberto Web Semàntica Enginyeria de la Web Visualització de la informació Gestió del coneixement i la informació

3 Contenido  Introducción  Objeto y objetivos  ¿qué? y ¿para qué? ¿cómo?  Tipos y niveles de corpus  Procesamiento del corpus  Adquisición de datos  Anotación del corpus  Revisión e inclusión  Explotación del corpus  Tareas de explotación  Metodología  Fases de procesamiento del corpus  Transferencia de información  Plan de desarrollo

4 Introducción La gestión y creación de un corpus es un trabajo que requiere una gran inversión de tiempo (y recursos), por lo que los criterios que se van a utilizar tienen que estar claramente definidos.

5 Objeto y objetivos ¿Qué? Recopilaciones de texto: Archivo/colección (informatizado): repertorio de textos en soporte informático sin buscar ningún tipo de relación entre ellos.  H Biblioteca de textos electrónicos: colección de textos en soporte informático, guardados en formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección.  H Corpus informatizado: recopilación de textos seleccionados según criterios lingüísticos, codificados de modo estándar y homogéneo, con la finalidad de poder ser tratados mediante procesos informáticos y destinados a reflejar el comportamiento de una o más lenguas.  M

6 Objeto y objetivos ¿Para qué? ¿cómo? ¿Para qué? El primer paso en el diseño de un corpus es establecer su objetivo: finalidad y aplicaciones. ¿Cómo? Recursos técnicos y humanos

7 Objeto y objetivos Tipos y niveles de corpus Límites Una vez especificada la finalidad, se han de establecer bien claramente los límites temporales, geográficos y/o lingüísticos que el corpus va a tener.

8 Objeto y objetivos Tipos y niveles de corpus Tipos De árboles: textos etiquetados sintácticamente. Orales: señales de voz, eventualmente con sus transcripciones Transcripciones: de anotación fonética. Textuales: lengua escrita o por lengua oral transcrita. Sincrónicos: textos en lengua actual. Diacrónicos: textos de varias etapas históricas de la lengua. Monolingües Multilingües Históricos: digitalizados por OCR (reconocimiento óptico de caracteres) a través de un escáner. Referencia: tiene un tamaño establecido, generalmente es de libre acceso y está estandarizado. Monitor: aumenta de manera constante su tamaño. Dialectales: disponibles normalmente sólo en forma oral porque por lo general no tienen una norma de escritura correcta o porque no existe la tradición de una escritura.

9 Objeto y objetivos Tipos y niveles de corpus Niveles Corpus: conjunto de textos que son representativos de una lengua o variedad (recopilación de materiales escritos y orales de una lengua x). Subcorpus: divisiones que se efectúan dentro de un corpus destinados a aumentar algún apartado del corpus general (subcorpus de textos orales). Componente: colección de muestras muy homogéneas de un corpus o de un subcorpus (textos de una variedad de la lengua x hablada en x zona geográfica).

10 Procesamiento del corpus Transformaciones que sufren los documentos, desde su formato y medio original, hasta adaptarlos a las estructura electrónica que hayamos definido para ellos. procesamiento = preparación = generación

11 Procesamiento del corpus Adquisición de datos Fase manual (o automática) que consiste en obtener una versión digital del documento que se va a tratar. – WWW: la red ofrece una cantidad inmensa de páginas web que se pueden bajar automáticamente, por ejemplo, con el programa BootCat. – Escáner: Se escanean libros y otros textos y se aplica el reconocimiento óptico de caracteres para obtener un texto en forma electrónica. – Compra (versión electrónica)

12 Procesamiento del corpus Adquisición de datos Derechos de autor El Derecho de autor es un conjunto de normas y principios que regulan los derechos morales y patrimoniales que la ley concede a los autores por el solo hecho de la creación de una obra literaria, artística o científica, tanto publicada o que todavía no se haya publicado. Una obra pasa al dominio público cuando los derechos patrimoniales han expirado. Esto sucede habitualmente trascurrido un plazo desde la muerte del autor (post mortem auctoris). Por ejemplo, en el derecho europeo, 70 años desde la muerte del autor. Dicha obra entonces puede ser utilizada en forma libre, respetando los derechos morales.

13 Procesamiento del corpus Anotación del corpus Con ayuda de elementos llamados tags se puede enriquecer el texto con informaciones estructurales, semánticas o de otra índole. Las herramientas de anotación disponibles determinan cuánto se requiere para efectuar este proceso. Tag (etiqueta): marca (palabra o frase) con la cuál identificamos un contenido. tetx

14 Procesamiento del corpus Anotación del corpus Estructuración del corpus Fase manual que consiste en estructurar los documentos digitales que resultan de la adquisición en un formato común que sea fácilmente procesable. – Organización en carpetas con ficheros de texto siguiendo una codificación lógica y secuencial. – No olvidemos codificarlos en un formato adecuado: ASCII, Unicode, JIS, ISOLatin-1, UTF-8.

15 Procesamiento del corpus Anotación del corpus Principios de anotación Separar contenido de estructura: La recuperación del texto original debe ser posible sin las anotaciones. La evaluación de las anotaciones debe ser posible sin el texto original. Las normas de anotación deben ser accesibles. Los anotadores y las circunstancias de la anotación deben ser conocidos. Los usuarios deben saber que las anotaciones pueden contener errores. Se deben tomar en cuenta los estándares de codificación (TEI, CES, LDC y EAGLES).

16 Procesamiento del corpus Anotación del corpus Formato de anotación HTML: inadecuado para la anotación porque el conjunto de tags es limitado y no cumple con algunos principios. SGML: ofrece la posibilidad de una anotación más amplia pero más costosa; útil para grandes proyectos. XML: es la opción más adecuada porque puede contener un conjunto de tags infinito, es poderoso y al tiempo fácil de utilizar.

17 Procesamiento del corpus Anotación del corpus Estándares de representación Actualmente, para el desarrollo de corpus utilizando XML, existen dos tendencias: 1.Utilizar alguno de los estándares disponibles como TEI, CES, LDC y EAGLES o XCES (Corpus Encoding Standard for XML). 2.Definir un XML propio para la representación de los documentos. 3.Definir un XML propio basado en estándares.

18 Procesamiento del corpus Anotación del corpus Estándares de representación Uso de estándares: Mayor compatibilidad entre corpus. Propiciar la movilidad del personal entre proyectos. Se optimiza el soporte de herramientas (de anotación y de explotación). XML propio: Etiquetas XML en una lengua diferente del inglés. Mayor flexibilidad a la hora de elegir y establecer una sintáxis para nuestras etiquetas.

19 Procesamiento del corpus Anotación del corpus Conversión Transformación de los documentos con el objetivo de adaptarlos al formato XML establecido: Manual (sin herramienta) Asistida (semiautomática) – Herramientas específicas de anotación: MMAX y NITE XML: anotación multimodal Annotate: anotación sintáctica EXMARaLDA anotación de discurso Transcriber y Praat: anotación fonética Anvil, Elan y TASX: anotación de vídeos – Herramientas adaptadas Automática (conversión) - scripts

20 Procesamiento del corpus Revisión e inclusión En la fase de revisión se tratan de corregir los errores que se hayan podido cometer en la anotación: Documentos bien formados: contienen todas las etiquetas. Documentos válidos: responden a una sintaxis común. Poner –en la carpeta que correspondiente– aquellos documentos que cumplen todos los requisitos.

21 Explotación del corpus El corpus por sí solo no es suficiente para facilitar datos exhaustivos del lenguaje. Para poder aprovechar al máximo las informaciones que contiene es necesario poder disponer de herramientas adecuadas para su explotación.

22 Explotación del corpus Tareas de explotación Frecuencias de aparición de palabras Índices y concordancias Lematización Análisis morfológico (tagging) Análisis sintáctico (parsing) Desambiguación semántica Detección de unidades recurrentes (collocations)

23 Metodología Fases del procesamiento del corpus

24 Metodología Transferencia de información Definir los protocolos de actuación que incluyan las tareas que hará el equipo de expertos (lingüistas) e informáticos. Los protocolos son útiles porque: mantienen un registro de todas las decisiones tomadas por el equipo evitando volver a discutir sobre decisiones tomadas en su momento, permiten formar a nuevos miembros del equipo, nos recuerdan los detalles de tareas repetitivas, facilitan la generación de documentos burocráticos, facilitan la dinámica entre los diferentes equipos y grupos de trabajo, etc.

25 Metodología Plan de desarrollo Cuando tiene un plan detallado, puede trabajar de manera más eficaz. Cuando planifica, tiene mayor probabilidad de cumplir sus compromisos. Hacer el plan es hacer el seguimiento del progreso de su trabajo. Después de que ha pensado todo el trabajo, conoce lo que ha de hacer y cuando ha de hacerlo.

26 Metodología Plan de desarrollo Etapas Realizar el Diseño Conceptual (fase de estrategia). Desarrollar la estrategia: diferentes partes del diseño conceptual (componentes, ciclos, productos). Realizar el plan del equipo: Lista de tareas requeridas para construir los productos identificados en el paso 2. Estime el tiempo que dedicará cada persona a la realización de cada tarea. Estime el tiempo que dedicará al proyecto la totalidad del equipo. Calcular la fecha de finalización esperada de cada tarea.


Descargar ppt "Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)"

Presentaciones similares


Anuncios Google