La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín Dirigido.

Presentaciones similares


Presentación del tema: "SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín Dirigido."— Transcripción de la presentación:

1 SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín antmarmar@us.es Dirigido por: Dr. Rafael Corchuelo Gil

2 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

3 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

4 Explosión de internet

5 Información distribuida Información distribuida ………… ACCESO Mediadores de Información (Construidos con WRAPPER)

6 Extracción de información SOFTMEALY Info Extractor. Form Filler Navigator Ontologizer Varifier

7 Fuentes semi-estructuradas “Existe un modelo de datos definido que se puede inferir.”

8 MEALY & Delimitadores Base del algoritmo: Máquina de estados finito de Mealy. Detección de separadores. …, |Professor of Computer…

9 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

10 Modelo de datos (Semi-Estructurados)

11 Clasificación de tokens

12 Separadores y reglas de contexto Separador  S = S L S R. S L ::= Html( ) Punc(,) Spc(_) Html( ) | Punc(_) NL(_) Spc(_) Html( ) | Punc(,) Spc(_), Html( ).. S R ::= C1Aplh(_) …, |Professor of Computer… SLSL SLSL SRSR SRSR

13 Máquina de estados finita (MEALY) Induce la extracción de atributos. Formada por: Σ 1 : Conjunto de sepadores. Σ 2 : Atributos de salida. Q: Conjunto finito de estados (e, b y otros). R: Reglas de contexto. E: Conjunto de aristas. FST

14 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

15 Fases principales …, |Professor of … S R :== …… S L :== …… FST Atr1Atr2Atr3 ……… ……… ……… ……… ……… ………

16 Etiquetado de ejemplos Modelo de datos existente que se puede inferir. Al menos un ejemplo de cada tipo de tupla.

17 Generalización de reglas de contexto [word] nonword*| |nonword* [word] [word] nonword*| |nonword* [word]

18 Generalización de reglas de contexto

19 Contrucción de FST Estado inicial (e). Estado final (b). 1 atributo a extraer (A)  Dos estados (A y A). Transiciones nulas: Mismo estado. Transiciones entre estados: Atributos adyacentes. e e U U U U b b ?/ε S / ”U=” S / ε …

20 Explotación del FST

21 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

22 Ejemplo de aplicación

23 Índice Introducción Conceptos básicos Fases del algoritmo Ejemplo Conclusiones

24 Algoritmo supervisado. Datos semi-estructurados. Busca separadores entre atributos. Robusto  Se adapta a permutaciones de los atributos y a valores perdidos. Requiere entrenamiento con cada posible tipo de tupla a extraer. Inconveniente: Posible ambigüedad en la extracción.

25 ¡Gracias!


Descargar ppt "SOFTMEALY: “Generating finite-state transducers for semi-structured data extraction from the web.” Antonio Carlos Maraver Martín Dirigido."

Presentaciones similares


Anuncios Google