Information Retrieval (a.a. 2024/25)
Docente: Danilo Croce Email: croce@info.uniroma2.it
    Elenco dei File nel deposito

 

Sommario Contenuti

1.Novità

2.Programma del Corso

3.Testi di Riferimento

4.Link Utili

5.Diapositive delle lezioni

6.Progetti ed Esercizi Proposti


Novità

  • Si comunica che la prova orale relative gli Esoneri e la Prima Prova Finale si terranno Mercoledi' 22 Gennaio 2025 alle ore 11.30 in aula B15 (Macroarea di Ingegneria).
  • Il risultato del Secondo Esonero e del Primo Test Finale sono stato pubblicati nel canale Teams del corso.
  • Si comunica che il Secondo Esonero e la Prima Prova Finale si terranno Mercoledi' 15 Gennaio 2025 alle ore 11.30 in aula B15 (Macroarea di Ingegneria).
    Si ricorda di iscriversi all'esame su Delphi (la stessa prenotazione vale per chi deve sostenere il secondo esonero e la prova finale) e di portare il PC per sostenere il Test a Risposta Multipla su Microsoft Forms.
  • Si comunica che la Seconda Prova Finale si terra' Lunedi' 10 Febbraio 2025 alle ore 11.30 in aula da definire.
  • Si comunica che il Primo Esonero è fissato per Mercoledi' 13 Novembre 2024 alle ore 11.30 in Aula B15. Si ricorda a tutti di iscriversi al canale teams e di venire muniti del proprio PC per poter sostenere il Test a Risposta Multipla che si terrà su Microsoft Forms
  • Le lezioni del Corso seguiranno il seguente calendario settimanale:
    • MARTEDI', h. 14:00-16:30 (Aula 1 - Macroarea di Ingegneria)
    • MERCOLEDI', h. 11:30-13:30 (Aula B15 - Macroarea di Ingegneria)

    Il ricevimento studenti si terra' dopo ciascuna lezione, previa prenotazione da parte dello studente.
  • Per essere aggiunti al corso ed al canale Teams, e' NECESSARIO ISCRIVERSI al corso stesso usando la Pagina di Iscrizione (Delphi).

  • Programma del Corso

    Segue il programma preliminare del Corso che sara' messo a punto ed finalizzato al termine delle lezioni del Corso.

    • Introduzione al problema dell'Information Retrieval
    • Definizione della nozione di Inverted Indices
    • Costruzione di Indici per l'Information Retrieval
    • Algoritmi per la codifica e compressione dell'Informazione
    • Funzione di Ranking documentale
    • Introduzione al Vector Space Model
    • Modelli Probabilistici per l'Information Retrieval
    • Valutazione dei Sistemi di IR
    • Sviluppo efficiente e su larga scala di sistemi di IR
    • Crawling e Detection di risorse duplicate
    • Introduzione a IR engines (e.g., Apache Lucene)
    • Introduzione a Map Reduce



    Testi di Riferimento

    • IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
    • Dispense fornite dal docente

    Lezioni (Lucidi)

    • QUI saranno pubblicate le slide delle singole lezioni. Non costituiscono l'esclusivo materiale didattico su cui si puo' preparare l'esame ma forniscono i dettagli sugli aspetti del programma cui concentrare la propria preparazione e gli esempi ed esercizi utili alla comprensione della materia.
      E' possibile visionare il materiale dello scorso anno accademico al seguente LINK.
    • Il seguente materiale viene pubblicato anche nel canale Teams del corso.
    • Lezione Iniziale: Introduzione al Corso.
    • Lezione 1: Introduzione al Modello Booleano e Definizione della nozione di Inverted Indices (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 2: Costruzione di Indici per l'Information Retrieval (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 3: Algoritmi per la codifica e compressione dell'Informazione nell'IR (le slide di riferimento possono essere trovate al seguente link)
    • Lezione 4: Funzione di Ranking documentale. Introduzione al Vector Space Model
      • Lezione 4.1: Una breve introduzione alla nozione di Distributional Lexical Semantics
    • Lezione 5: Valutazione dei Sistemi di Information Retrieval
    • Lezione 6: Wildcard queries e Spelling Correction
    • Lezione 7: Modelli Probabilistici per l'Information Retrieval
    • Lezione 8: Language Models per l'Information Retrieval
    • Lezione 9: Sviluppo efficiente di sistemi di IR
    • Lezione 10: Relevance feedback and Query expansion
    • Lezione 11: Link Analysis

    Esercitazioni

    • QUI saranno pubblicate le slide delle singole esercitazioni e laboratori.
    • Esercitazione 1: Implementazione di Indici per l'Information Retrieval in Python.
      Nei seguenti Python Book vengono riportati degli esempi di:
      • Indici non Posizionali
      • Query complesse ad Indici non Posizionali
      • Indici Posizionali
      Per gli esempi e' necessario scaricare il corpus 20Newsgroups anche scaricabile al seguente LINK.
    • Esercitazione 2: Implementazione di un Vector Space Model e applicazione di BM25.
      Nei seguenti Python Books vengono riportati esempi di implementazione di un Vector Space Model e modelli Probabilistici BM25
      E' necessario scaricare il corpus scaricabile al seguente LINK.
    • Esercitazione 3: una Libreria per l'Information Retrieval: Lucene.
      Risorse (Lucene core, Luke dataset e wrapper code) relative alla Indicizzazione e Valutazione di un Motore di Ricerca sulla Collezione Cranfield sono disponibili al seguente LINK.
    • Esercitazione 4: Introduzione a SOLR.
      • Esercitazione 4.1: SOLR in ambiente distribuito.
      • Il materiale del laboratorio e' disponibile al seguente LINK.

    Progetti

    • L'esame comprende, in maniera NON obbligatoria, lo svolgimento di un progetto implementativo da eseguire eventualmente in gruppi. Per gli studenti che dovessero sostenere ancora l'esame da 9 CFU (A.A. 2019-2020) il progetto e' obbligatorio. La descrizione dei progetti proposti sara' disponibile durante il corso.