Data Mining - a.a. 16/17

Titolare: D'Ambra Antonello

Programma del corso

Ai fini formativi

Questo corso si propone di descrivere metodi e modelli statistici per l’analisi di grandi moli di dati di proprietà delle aziende di produzione e/o servizi pubbliche o private. Più specificamente si propone lo studio della gestione dei data-warehouse, dalla codifica delle informazioni all’analisi della qualità dei dati; dallo studio descrittivo/confermativo dei fenomeni all’analisi esplorativa multivariata; dall’analisi della dipendenza tra due variabili allo studio dei modelli multivariati della dipendenza. Nella parte finale del corso si introducono strumenti di misura di fenomeni strettamente connessi all’attività di gestione e di marketing di una azienda, quali la valutazione dell’innovazione, le relazioni tra vendite/consumi, la soddisfazione del cliente/utente, etc..

Il corso intende favorire negli studenti:

a) lo sviluppo delle conoscenze degli strumenti statistici, la capacità di analisi statistiche per lo studio di problemi concreti. La capacità di utilizzo di pacchetti di software statistico e la conoscenza di un ambiente di programmazione lineare. La capacità dell’utilizzo di tecniche e metodi e/o strategie di analisi utili a prendere decisioni aziendali.

b) lo sviluppo di autonomia di giudizio nella scelta appropriata della tecnica/modello statistico per l’elaborazione dei dati, la capacità critica d’interpretare la bontà dei risultati dei modelli/metodi applicati su database aziendali pubblici o privati;

c) la sperimentazione dei metodi e modelli statistici con l’utilizzo di pacchetti di software statistico, la capacità di comunicazione dei risultati delle analisi effettuate e delle soluzioni proposte;

d) lo sviluppo di capacità di apprendimento utili per interpretare in maniera autonoma report tridimensionali –come ad esempio l’ OLAP (on line analytical processing)- grafici, tabelle, mappe fattoriali, alberi di classificazione, utilizzati nelle imprese per descrive fenomeni multivariati.

Nel corso si affrontano i seguenti argomenti:

Codifica dati, Qualità dei dati, Magazzini e Fonti dati, Analisi reportistica ed esplorativa dei dati, Modelli della Dipendenza, Analisi fattoriali.

In dettaglio

  • Introduzione al Data Mining
  • Qualità ed organizzazione dei dati: Data Warehouse e Data MART
  • Analisi esplorativa dei dati:
    • Analisi delle Componenti Principali
    • Modello di Regressione lineare multiplo
        • Ipotesi per la costruzione del modello
        • Inferenza sui parametri del modello
        • Diagnostica e Analisi dei residui del modello
    • Introduzione ai Modelli a scelta discreta: la regressione logistica
    • La classificazione automatica, metodi gerarchici e non-gerarchici.

Metodologie didattiche

(organizzazione della didattica)

La didattica si basa sulla seguente articolazione:

- Lezioni frontali partecipate finalizzate al miglioramento delle conoscenze e capacità di comprensione degli studenti mediante l’esposizione di teorie, modelli e metodi statistici multivariati; gli studenti sono invitati a partecipare alla lezione con autonomia di giudizio, formulando domande, presentando esempi.

- Laboratorio informatico-statistico e case study: gli studenti utilizzano i PC del laboratorio informatico e iniziano l’apprendimento dell’ambiente di programmazione R - http://cran.r-project.org/ e affrontano un case study, sotto forma di una matrice dati, nella quale sono presenti alcune informazioni “critiche” (variabili miste, di natura qualitativa e quantitativa). Gli studenti in gruppo elaborano i dati, simulando un intervento professionale e/o consulenziale del “data scientist”, nel quale, applicando i modelli e/o metodi statistici multivariati, espongono in maniera critica le analisi effettuate, i risultati ottenuti e le soluzioni proposte.

- Presentazioni e esposizione in aula delle analisi statistiche dei dati: alcuni studenti presentano in aula le elaborazioni svolte con il coordinamento del docente, si avvia così una discussione e un confronto fra le diverse metodologie di analisi possibili. Particolare enfasi viene dedicata alla capacità di critica dei metodi statistici considerati e alle abilità comunicative.

- Studio individuale: agli studenti sono suggeriti alcuni libri di testo, siti-web sul funzionamento di pacchetti di funzioni statistiche disponibili in R, funzionali allo sviluppo di autonome capacità di apprendimento.

Metodi di valutazione

La prova finale consiste

-applicazione pratica al PC delle tecniche, metodi e modelli teorici illustrati durante il corso, viene illustrata una matrice dati e si invita lo studente ad applicare una precisa tecnica d’analisi statistica, utilizzando i comandi in R disponibili su una dispensa predisposta dal docente

-Domande di teoria sui metodi e modelli multivariati oggetti di studio.

In entrambi i casi i candidati dovranno dimostrare:

a) il possesso di adeguate conoscenze e capacità di comprensione delle problematiche esposte o indicate, applicando in maniera pertinente le teorie e i modelli concettuali oggetto del programma;

b) il possesso di adeguate conoscenze e capacità di elaborazione e comunicazione di soluzioni coerenti con le problematiche affrontate nel corso, applicando in maniera pertinente gli strumenti e i modelli concettuali oggetto del programma.

Modalità di svolgimento dell’esame:

orale e applicazioni dei metodi/modelli su dati concreti utilizzando l’ambiente di programmazione R.

Testi di riferimento

Giudici P. Data Mining, metodi informatici, statistici ed applicazioni. McGraw-Hill- cap. I, II, III, IV, V.

Gherghi M., Lauro N.C. Analisi Multidimensionale dei Dati. Ed. EDISU; Introduzione, cap. I, VI.

Durante il corso saranno rilasciate alcune dispense integrative

Materiale didattico aggiuntivo

 

 

Course Syllabus

For training purposes

This course aims to describe methods and statistical models for the analysis of large database of the public or private companies. More specifically, the course proposes the study of the data-warehouse management, from the coding of the information to analyze the quality of data; from the descriptive/ confirmatory study to the exploratory multivariate data analysis of phenomena; from the analysis of dependence between two variables to the multivariate models. In the final part of the course, it will be introduced some statistical tools for measuring phenomena closely related to the management and marketing of a company, such as the assessment of the innovation, the relationship between sales and consumptions, the evaluation of the customer satisfaction, etc.

The course aims to foster in students:

  1. the development of statistical tools knowledge, the ability of statistical analysis for the study of concrete problems. The ability to use statistical software packages and knowledge of a linear programming environment. The ability to use techniques, methods and/or analysis strategies useful in making business decisions.
  1. the development of independent evaluation in the appropriate choice of the technique or statistical model for data processing, the critical capacity to interpret the goodness of the models/methods applied results on public and private corporate databases;
  1. the testing of methods and statistical models with the use of statistical software packages, the ability to communicate the results of the analyzes and proposed solutions;
  1. the development of learning skills for interpreting independently -like three-dimensional reports, for example the 'OLAP (online analytical processing) - graphs, charts, factorial maps, used in enterprises for describing multivariate phenomena.

The course will cover the following topics:

Data coding, quality of data, and stores data sources, reports and exploratory data analysis, models of addiction, factorial analysis.

In detail

• Introduction to Data Mining

• Quality and organization of the data: Data Warehouse and Data Mart

• Exploratory Data Analysis: Principal Component Analysis

Multiple Linear Regression Model

Inference on the model parameters

• Diagnostics and Analysis of model residuals
Introduction to discrete choice models: logistic regression

Cluster analysis, hierarchical and non-hierarchical algorithms.



Teaching methods

The teaching is based on the following breakdown:

- Participate Lectures aimed at improving knowledge and understanding of the students through the exposure of theories, models and multivariate statistical methods; students are invited to attend the lecture with independent judgment, asking questions, giving examples.

- Computer-Statistical Laboratory and case studies: students should use the computer lab and start learning the environment R - http://cran.r-project.org/- programming and tackle a case study, in the form of a data matrix, in which there are some "critical" information (mixed variables, qualitative and quantitative nature). Students process data, simulating a professional intervention and/or consulting as "data scientists", in which, applying the models and/or multivariate statistical methods critically expose the analysis findings carried out, the results obtained and the proposed solutions.

- Presentations and exposure in the classroom of the statistical analysis of data: some students present in the classroom the calculations carried out with the coordination of the teacher, so you start a discussion and a comparison between the different possible methods of analysis. Particular emphasis is given to the critical capacity of the statistical results and to the communication skills.

- Individual study: the students are suggested to consider some textbooks, web-sites about the available statistical R functions, functional to the development of autonomous learning ability.

Evaluation methods


The final exam for students who have followed the course consists

-application of the techniques using R statistical software, students should apply a precise statistical analysis technique, using commands in R available in a document prepared by the teacher.

-Theoretical questions about the multivariate statistical methods and models object of study.

Candidates must demonstrate:

a) sufficient knowledge and understanding of the exhibited or shown problems, by applying relevant theories and conceptual models covered by the program;

b) adequate knowledge and ability to process solutions consistent with the issues addressed in the course, applying a pertinent tools and conceptual models covered by the program.

Learning assessment procedures:

Oral and practical application using the programming environment R.

Textbook

Giudici P. Data Mining, metodi informatici, statistici ed applicazioni. McGraw-Hill- chap. I,II, III, IV, V.

Gherghi M., Lauro N.C. Analisi Multidimensionale dei Dati. Ed. EDISU; Introduction, chap. I, VI.

During the course it will be provided supplementary documents.

Other teaching material

 

   

  

cerca

Sei qui: Home Didattica insegnamenti 16-17 Data Mining - a.a. 16/17