SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín Dirigido por: Dr. Rafael Corchuelo Gil
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Explosión de internet
Información distribuida Información distribuida ………… ACCESO Mediadores de Información (Construidos con WRAPPER)
Extracción de información SOFTMEALY Info Extractor. Form Filler Navigator Ontologizer Varifier
Fuentes semi-estructuradas “Existe un modelo de datos definido que se puede inferir.”
MEALY & Delimitadores Base del algoritmo: Máquina de estados finito de Mealy. Detección de separadores. …, |Professor of Computer…
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Modelo de datos (Semi-Estructurados)
Clasificación de tokens
Separadores y reglas de contexto Separador S = S L S R. S L ::= Html( ) Punc(,) Spc(_) Html( ) | Punc(_) NL(_) Spc(_) Html( ) | Punc(,) Spc(_), Html( ).. S R ::= C1Aplh(_) …, |Professor of Computer… SLSL SLSL SRSR SRSR
Máquina de estados finita (MEALY) Induce la extracción de atributos. Formada por: Σ 1 : Conjunto de sepadores. Σ 2 : Atributos de salida. Q: Conjunto finito de estados (e, b y otros). R: Reglas de contexto. E: Conjunto de aristas. FST
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Fases principales …, |Professor of … S R :== …… S L :== …… FST Atr1Atr2Atr3 ……… ……… ……… ……… ……… ………
Etiquetado de ejemplos Modelo de datos existente que se puede inferir. Al menos un ejemplo de cada tipo de tupla.
Generalización de reglas de contexto [word] nonword*| |nonword* [word] [word] nonword*| |nonword* [word]
Generalización de reglas de contexto
Contrucción de FST Estado inicial (e). Estado final (b). 1 atributo a extraer (A) Dos estados (A y A). Transiciones nulas: Mismo estado. Transiciones entre estados: Atributos adyacentes. e e U U U U b b ?/ε S / ”U=” S / ε …
Explotación del FST
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Ejemplo de aplicación
Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones
Algoritmo supervisado. Datos semi-estructurados. Busca separadores entre atributos. Robusto Se adapta a permutaciones de los atributos y a valores perdidos. Requiere entrenamiento con cada posible tipo de tupla a extraer. Inconveniente: Posible ambigüedad en la extracción.
¡Gracias!