Esci dai Frame


  Information Retrieval (a.a. 2019/20)
Docente: Giorgio Gambosi and Danilo Croce Email: croce@info.uniroma2.it
    Elenco dei File nel deposito

 

Sommario Contenuti

1.Novità

2.Programma del Corso

3.Testi di Riferimento

4.Link Utili

5.Diapositive delle lezioni

6.Progetti ed Esercizi Proposti


Novità

  • Le prove della Sessione di Settembre del corso di Information Retrieval sono fissate nelle seguenti date.
    • 01 Settembre 2020, ore 10.00
    • 25 Settembre 2020, ore 10.00
    Si ricorda che e' necessario prenotarsi alla prova scelta usando la Pagina di Iscrizione Corso ed agli Esami (Delphi).
  • Dato il particolare momento storico (complicato dal COVID-19) si comunica quanto segue:

    Gli studenti che hanno un voto sufficiente alle prove scritte sostenute entro febbraio, potranno presentare il progetto e sostenere l'esame orale entro Settembre 2020 (e non entro Luglio 2020 come comunicato in precedenza).
  • Sono state attivate le prenotazioni su Delphi per i due appelli del 30-6 (h 10) e 23-7 (h 16). Fate attenzione a iscrivervi all'esame corretto: gli studenti immatricolati prima del 2019-2020 hanno nel piano di studi il corso da 9 cfu (a meno che non abbiano cambiato qualcosa nel loro piano di studi) e, al superamento dell'esame, si vedranno attribuiti i 9 cfu mediante normale verbalizzazione. Gli studenti immatricolati nel 2019-2020 hanno nel piano di studi il corso da 6 cfu: avendo previsto a suo tempo l'attribuzione comunque di 9 cfu per coloro che completassero anche il progetto assegnato (come fatto da tutti), al superamento dell'esame gli verranno attribuiti 6 cfu mediante verbalizzazione dell'esame e, inoltre, verra' effettuata richiesta al coordinatore (e attraverso di lui alla Segreteria Studenti) di attribuzione di ulteriori 3 cfu per ulteriori attività.
  • Le prove della Sessione Estiva del corso di Information Retrieval sono fissate nelle seguenti date.
    NB: Dato il momento storico, queste date non prevederanno una prova scritta ma una prova orale effettuata utilizzando Microsoft Teams.
    E' necessario iscriversi all'esame su Delphi per sostenere la prova.

    Per maggiore informazione contattare i docenti.
    • 30 Giugno 2020, ore 10.00
    • 23 Luglio 2020, ore 16.00
  • ATTENZIONE: E' CAMBIATA L'AULA DELLA TERZA PROVA FINALE: si terra' Mercoledi' 26 Febbraio, ore 10.00 in aula 6 a SOGENE. E' obbligatorio iscriversi all'esame per poter sostenere la prova. Qualora si sperimentano difficolta' nella prenotazione sul sito DELPHI, e' necessario inviare una mail a croce@info.uniroma2.it
  • I Risultati della SECONDA PROVA FINALE sono disponibili al seguente LINK. Insieme ai risultati viene portata la proposta indicativa di voto che verra' tenuta in considerazione durante il colloquio orale.
  • ATTENZIONE: A causa di una sovrapposizione con altri esami, la terza prova finale e' stata posticipata a mercoledi' 26 Febbraio, ore 10 in aula B14.
  • E' possibile visionare le prove scritte il giorno Mercoledi' 29 Gennaio alle ore 11.00 nello studio del Prof. Gambosi nella Macroarea di Scienze.
  • I Risultati della PRIMA PROVA FINALE sono disponibili al seguente LINK. Insieme ai risultati viene portata la proposta indicativa di voto che verra' tenuta in considerazione durante il colloquio orale.
  • I Risultati della SECONDA PROVA DI ESONERO sono disponibili al seguente LINK. Insieme ai risultati viene portata la proposta indicativa di voto che verra' tenuta in considerazione durante il colloquio orale.
  • Il giorno 17 Febbraio 2020 nell'ambito delle lezioni del Corso, si terra' alle ore 14:00 in Aula 12 il seminario "Big Data: architetture tecnologiche e soluzioni reali" di Francesco Mesiano (PriceWaterhouse & Cooper - New Venture).
  • La presentazione dei progetti e la prova d'esame orale potra' essere sostenuta in una delle seguenti date:
    • Mercoledi' 5 Febbraio, ore 10.00 in Aula B14.
    • Martedi' 26 Febbraio, ore 10.00 in Aula B14.
    E' obbligatorio registrarsi su DELPHI per sostenere e verbalizzare l'esame.
    Gli studenti che hanno un voto sufficiente alle prove scritte sostenute entro febbraio, potranno presentare il progetto e sostenere l'esame orale entro la Seconda sessione (Luglio 2020).
  • Il SECONDO TEST FINALE e' fissato per Mercoledi' 5 Febbraio, ore 10.00 in Aula B14. Si richiede agli studenti di inviare una mail ai docenti per iscriversi all'esame.
  • Sono state pubblicate le PROPOSTE DI PROGETTO al seguente LINK.
  • La SECONDA PROVA di ESONERO e il PRIMO TEST FINALE sono fissati per Mercoledi' 15 Gennaio, ore 9.30 in Aula B10.
      Si ricorda a tutti gli studenti che e' obbligatorio registrarsi al corso per sostenere la prova d'esame.
  • I Risultati della PRIMA PROVA DI ESONERO sono disponibili al seguente LINK.
  • Si comunica che la lezione di VENERDI' 15 Novembre e' annullata e verra' recuperata il prima possibile in una data concordata con il docente.
  • La PRIMA PROVA di ESONERO e' fissata per Mercoledi' 20 Novembre, ore 9.30 in Aula B10.
      Si ricorda a tutti gli studenti che e' obbligatorio registrarsi al corso per sostenere la prova d'esame.
  • Le lezioni del Corso seguiranno il seguente calendario settimanale:
    • MERCOLEDI', h. 9:30-11:15 (Aula B10 Macroarea di Ingegneria)
    • VENERDI', h. 14:00-15:45 (Aula 12 Macroarea di Ingegneria)

  • Programma del Corso

    Segue il programma preliminare del Corso che sara' messo a punto ed finalizzato al termine delle lezioni del Corso.

    • Introduzione al problema dell'Information Retrieval
    • Definizione della nozione di Inverted Indices
    • Costruzione di Indici per l'Information Retrieval
    • Algoritmi per la codifica e compressione dell'Informazione
    • Funzione di Ranking documentale
    • Introduzione al Vector Space Model
    • Modelli Probabilistici per l'Information Retrieval
    • Valutazione dei Sistemi di IR
    • Sviluppo efficiente e su larga scala di sistemi di IR
    • Crawling e Detection di risorse duplicate
    • Introduzione a IR engines (e.g., Apache Lucene)
    • Introduzione a Map Reduce



    Testi di Riferimento

    • IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
    • Dispense fornite dal docente

    Lezioni (Lucidi)

    • QUI saranno pubblicate le slide delle singole lezioni. Non costituiscono l'esclusivo materiale didattico su cui si puo' preparare l'esame ma forniscono i dettagli sugli aspetti del programma cui concentrare la propria preparazione e gli esempi ed esercizi utili alla comprensione della materia.
    • Lezione Iniziale: Introduzione al Corso.
    • Lezione 1: Introduzione al Modello Booleano e Definizione della nozione di Inverted Indices (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 2: Costruzione di Indici per l'Information Retrieval (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 3: Algoritmi per la codifica e compressione dell'Informazione nell'IR (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 4: Funzione di Ranking documentale. Introduzione al Vector Space Model
    • Lezione 5: Modelli Probabilistici per l'Information Retrieval
    • Lezione 6: Valutazione dei Sistemi di Information Retrieval
    • Lezione 7: Sviluppo efficiente di sistemi di IR
    • Lezione 8: Language Models per l'Information Retrieval
      • Lezione 8.1: Modelli Bayesiani per la classificazione automatica
    • Lezione 9: Relevance feedback and Query expansion
    • Lezione 10: Link Analysis
    • Lezione 11: Near Duplicate Detection
    • Lezione 12: Big Data: architetture tecnologiche e soluzioni reali.

    Esercitazioni

    • Esercitazione 1: Implementazione di Indici per l'Information Retrieval in Python.
      Nei seguenti Python Book vengono riportati degli esempi di:
      • Indici non Posizionali
      • Query complesse ad Indici non Posizionali
      • Indici Posizionali
      Per gli esempi e' necessario scaricare il corpus 20Newsgroups anche scaricabile al seguente LINK.
    • Esercitazione 2: Implementazione di un Vector Space Model.
      Nel seguente Python Book viene riportato l'esempio di implementazione di un Vector Space Model.
      E' necessario scaricare il corpus scaricabile al seguente LINK.
    • Esercitazione 3: un Sistema di Information Retrieval: Lucene.
      Risorse (Lucene core, Luke dataset e wrapper code) relative alla Indicizzazione e Valutazione di un Motore di Ricerca sulla Collezione Cranfield sono disponibili al seguente LINK.
    • Esercitazione 4: Hand-on Spark. Gli esempi mostrati a lezione relativi alla programmazione in ambiente Spark sono disponibili al seguente LINK.

    Progetti

    • L'esame comprende lo svolgimento di un progetto implementativo da eseguire eventualmente in gruppi.
      La descrizione del progetti proposti per il corso e' disponibile al seguente LINK.