Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2017-18   2019-20



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2018-19

Sistema para la recopilación automática de datos sobre empresas en web


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

En los últimos años están cobrando importancia los servicios que se basan o apoyan en el análisis de conjuntos datos.  En este sentido, y desde el punto de vista de la tecnología y ciencia informática, el foco suele ponerse en las herramientas y técnologías de análisis inteligente, ya que se parte de situaciones o supuestos en los que los datos están disponibles.  Sin embargo, existen situaciones y contextos en los que los servicios se definen a partir de información que no está disponible de manera directa, y los datos han de ser recolectados en fuentes externas. 

En este proyecto, se plantea uno de esos casos. Se pretende construír un sistema para la adquisición de información sobre los polígonos industriales existentes en España y las empresas que se alojan en ellos. La principal dificultad de este servico reside en la heterogeneidad de las fuentes (web, bases de datos) y en los distintos formatos existentes.

Básicamente, el sistema se centrará en la recolección de información pública de la web. Esta información consiste, además de la información administrativa o razón social, en la descripción del negocio. Para ello, se utilizarán técnicas de web scraping, así como consultas a bases de datos.

 


Metodología y Competencias

El desarrollo del proyecto consiste, inicialmente, en cinco pasos principales:

  1. Estudio del problema. 
    1. Estudio y definición de las fuentes de datos disponbiles. 
    2. Definición de la información relevante, objetivo de las búsquedas. 
    3. Definición de una arquitectura para el sistema. 
  2. Obtención de una primera capa de información básica (nombres) polígonos y empresas. 
    1. ​Identificación a partir de consultas a la API de google y filtrado.
    2. Identificación a partir de bases de datos.
  3. Obtención de información sobre las empresas.  
    1. Información relativa a razón social  a partir de páginas web de formato heterogéneo mediante scraping. 
    2. Consultas a bases de datos.
    3. Cotejamiento de la información a partir de varias fuentes de información. 
  4. Diseño de un sistema basado en técnicas de procesamiento de lenguaje natural para la identificación de palabras clave descriptivas de la actividad de cada empresa. 
  5. Creación de una base de datos NoSQL con toda la información. 

 

Con el TFG, se trabajarán las siguientes competencias específicas a la especificación de computación:

  • [CM1] Capacidad para tener un conocimiento profundo de los principios fundamentales y modelos de la computación y saberlos aplicar para interpretar, seleccionar, valorar, modelar, y crear nuevos conceptos, teorías, usos y desarrollos tecnológicos relacionados con la informática.
  • [CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • [CM6] Capacidad para desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.
  • [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

Para el desarrollo del trabajo se requieren dos herramientas principales:

  • Un entorno de programación Python, y las distintas librerías que se utilizarán:
    • Requests, BeautifulSoup, Selenium, Spacy, PyMongo, SQLAlchemy, etc. 
  • Acceso a base de datos:
    • http://www.infocif.es/, https://www.geonames.org/, etc.
 


Bibliografía

En principio, la bibliografía consistirá en los manuales y tutoriales de las distintas librerías de python. Asímismo, en la primera parte del trabajo se llevará a cabo una exploración, para la lectura de trabajos similares hechos en recuperación de información desde la web. 

 

 


Tutores


QUINTANILLA RODENAS, ANTONIO
OSSA JIMENEZ, LUIS DE LA
 

Alumno


SIMÓN SÁNCHEZ, ALEJANDRO MARTÍN

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2018-19
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete

informatica.ab@uclm.es
aviso legal
generar código QR de la página