Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porGerardo Pereyra Franco Modificado hace 8 años
1
SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín antmarmar@us.es Dirigido por: Dr. Rafael Corchuelo Gil
2
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
3
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
4
Explosión de internet
5
Información distribuida Información distribuida ………… ACCESO Mediadores de Información (Construidos con WRAPPER)
6
Extracción de información SOFTMEALY Info Extractor. Form Filler Navigator Ontologizer Varifier
7
Fuentes semi-estructuradas “Existe un modelo de datos definido que se puede inferir.”
8
MEALY & Delimitadores Base del algoritmo: Máquina de estados finito de Mealy. Detección de separadores. …, |Professor of Computer…
9
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
10
Modelo de datos (Semi-Estructurados)
11
Clasificación de tokens
12
Separadores y reglas de contexto Separador S = S L S R. S L ::= Html( ) Punc(,) Spc(_) Html( ) | Punc(_) NL(_) Spc(_) Html( ) | Punc(,) Spc(_), Html( ).. S R ::= C1Aplh(_) …, |Professor of Computer… SLSL SLSL SRSR SRSR
13
Máquina de estados finita (MEALY) Induce la extracción de atributos. Formada por: Σ 1 : Conjunto de sepadores. Σ 2 : Atributos de salida. Q: Conjunto finito de estados (e, b y otros). R: Reglas de contexto. E: Conjunto de aristas. FST
14
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
15
Fases principales …, |Professor of … S R :== …… S L :== …… FST Atr1Atr2Atr3 ……… ……… ……… ……… ……… ………
16
Etiquetado de ejemplos Modelo de datos existente que se puede inferir. Al menos un ejemplo de cada tipo de tupla.
17
Generalización de reglas de contexto [word] nonword*| |nonword* [word] [word] nonword*| |nonword* [word]
18
Generalización de reglas de contexto
19
Contrucción de FST Estado inicial (e). Estado final (b). 1 atributo a extraer (A) Dos estados (A y A). Transiciones nulas: Mismo estado. Transiciones entre estados: Atributos adyacentes. e e U U U U b b ?/ε S / ”U=” S / ε …
20
Explotación del FST
21
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
22
Ejemplo de aplicación
23
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
24
Algoritmo supervisado. Datos semi-estructurados. Busca separadores entre atributos. Robusto Se adapta a permutaciones de los atributos y a valores perdidos. Requiere entrenamiento con cada posible tipo de tupla a extraer. Inconveniente: Posible ambigüedad en la extracción.
25
¡Gracias!
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.