Esci dai Frame


  Information Retrieval (a.a. 2020/21)
Docente: Giorgio Gambosi and Danilo Croce Email: croce@info.uniroma2.it
    Elenco dei File nel deposito

 

Sommario Contenuti

1.Novità

2.Programma del Corso

3.Testi di Riferimento

4.Link Utili

5.Diapositive delle lezioni

6.Progetti ed Esercizi Proposti


Novità

  • Le lezioni del Corso seguiranno il seguente calendario settimanale:
    • MARTEDI', h. 11:30-13:00 (su piattaforma Teams dell'Ateneo)
    • VENERDI', h. 16:30-18:00 (su piattaforma Teams dell'Ateneo)
    Le lezioni saranno erogate sul canale TEAMS del corso: GAMBOSI-8067438-INFORMATION_RETRIEVAL
    Il ricevimento studenti si terra' dopo ciascuna lezione, previa prenotazione da parte dello studente.
  • Per essere aggiunti al corso ed al canale Teams, e' NECESSARIO ISCRIVERSI al corso stesso usando la Pagina di Iscrizione (Delphi).
  • La PRIMA PROVA di ESONERO e' fissata per Venerdi' 13 Novembre, ore 16.30 su Teams.
      Si ricorda a tutti gli studenti che e' obbligatorio registrarsi al corso per sostenere la prova d'esame.
  • I Risultati della PRIMA PROVA DI ESONERO sono disponibili al seguente LINK. E' possibile contattare i docenti per fissare un incontro per la visione delle prove.
  • La SECONDA PROVA di ESONERO e il PRIMO TEST FINALE sono fissati per Venerdi' 8 Gennaio, ore 16.30 su Teams.
      Si ricorda a tutti gli studenti che e' obbligatorio registrarsi al corso per sostenere la prova d'esame.
  • I Risultati della SECONDA PROVA DI ESONERO e della PRIMA PROVA FINALE sono disponibili al seguente LINK. La visione delle prove e' prevista per venerdi' 22 Gennaio a valle della lezione.
  • La Seconda Prova Finale (prova scritta) potra' essere sostenuta il giorno Venerdi' 19 Febbraio ore 10 sul canale Teams del corso.
    E' obbligatorio contattare i docenti del corso per poter sostenere tale prova scritta.
  • La presentazione dei progetti e la prova d'esame orale potra' essere sostenuta in una delle seguenti date:
    • Venerdi' 5 Febbraio, ore 10.00 sul canale Teams del corso.
    • Venerdi' 26 Febbraio, ore 10.00 sul canale Teams del corso.
    E' obbligatorio registrarsi su DELPHI per sostenere e verbalizzare l'esame.
  • I Risultati della SECONDA PROVA FINALE sono disponibili al seguente LINK.

  • Programma del Corso

    Segue il programma preliminare del Corso che sara' messo a punto ed finalizzato al termine delle lezioni del Corso.

    • Introduzione al problema dell'Information Retrieval
    • Definizione della nozione di Inverted Indices
    • Costruzione di Indici per l'Information Retrieval
    • Algoritmi per la codifica e compressione dell'Informazione
    • Funzione di Ranking documentale
    • Introduzione al Vector Space Model
    • Modelli Probabilistici per l'Information Retrieval
    • Valutazione dei Sistemi di IR
    • Sviluppo efficiente e su larga scala di sistemi di IR
    • Crawling e Detection di risorse duplicate
    • Introduzione a IR engines (e.g., Apache Lucene)
    • Introduzione a Map Reduce



    Testi di Riferimento

    • IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
    • Dispense fornite dal docente

    Lezioni (Lucidi)

    • QUI saranno pubblicate le slide delle singole lezioni. Non costituiscono l'esclusivo materiale didattico su cui si puo' preparare l'esame ma forniscono i dettagli sugli aspetti del programma cui concentrare la propria preparazione e gli esempi ed esercizi utili alla comprensione della materia.
    • Lezione Iniziale: Introduzione al Corso.
    • Lezione 1: Introduzione al Modello Booleano e Definizione della nozione di Inverted Indices (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 2: Costruzione di Indici per l'Information Retrieval (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 3: Algoritmi per la codifica e compressione dell'Informazione nell'IR (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 4: Funzione di Ranking documentale. Introduzione al Vector Space Model
    • Lezione 5: Modelli Probabilistici per l'Information Retrieval
    • Lezione 6: Valutazione dei Sistemi di Information Retrieval
    • Lezione 7: Sviluppo efficiente di sistemi di IR
    • Lezione 8: Language Models per l'Information Retrieval
    • Lezione 9: Relevance feedback and Query expansion
    • Lezione 10: Link Analysis

    Esercitazioni

    • QUI saranno pubblicate le slide delle singole esercitazioni e laboratori.
    • Esercitazione 1: Implementazione di Indici per l'Information Retrieval in Python.
      Nei seguenti Python Book vengono riportati degli esempi di:
      • Indici non Posizionali
      • Query complesse ad Indici non Posizionali
      • Indici Posizionali
      Per gli esempi e' necessario scaricare il corpus 20Newsgroups anche scaricabile al seguente LINK.
    • Esercitazione 2: Implementazione di un Vector Space Model.
      Nei seguenti Python Books vengono riportati esempi di implementazione di un Vector Space Model e modelli Probabilistici BM25
      E' necessario scaricare il corpus scaricabile al seguente LINK.
    • Esercitazione 3: un Sistema di Information Retrieval: Lucene.
      Risorse (Lucene core, Luke dataset e wrapper code) relative alla Indicizzazione e Valutazione di un Motore di Ricerca sulla Collezione Cranfield sono disponibili al seguente LINK.
    • Esercitazione 4: Hand-on Spark. Gli esempi mostrati a lezione relativi alla programmazione in ambiente Spark sono disponibili al seguente LINK.

    Progetti

    • L'esame comprende, in maniera NON obbligatoria per chi sostiene l'esame da 6 crediti, lo svolgimento di un progetto implementativo da eseguire eventualmente in gruppi. La descrizione dei progetti proposti sara' disponibile durante il corso.