|
Information Retrieval (a.a. 2021/22) |
|
|
Elenco dei File nel deposito |
|
|
Sommario Contenuti
1.Novità
2.Programma del Corso
3.Testi di Riferimento
4.Link Utili
5.Diapositive delle lezioni
6.Progetti ed Esercizi Proposti
|
Novità
Sono stati pubblicati i risultati della prima prova finale al seguente LINK.
Sono stati pubblicati i risultati del secondo esonero al seguente LINK.
Sono stati pubblicati i risultati del primo esonero al seguente LINK.
Si comunica che il Primo Esonero è fissato per Venerdì 19 Novembre 2021 alle ore 14.00. Per dare a tutti la possibilità di partecipare, la prova si terrà su Teams nel canale del corso.
Si conferma che, in via del tutto straordinaria, la lezione di Venerdi' 29 Ottobre viene anticipata alle ore 11.30.
Le lezioni del Corso seguiranno il seguente calendario settimanale:
- LUNEDI', h. 15:00-17:00 (Aula 27 - piattaforma Teams dell'Ateneo)
- VENERDI', h. 15:00-17:00 (Aula 27 - piattaforma Teams dell'Ateneo)
Le lezioni saranno erogate sul canale TEAMS del corso: INFORMATION_RETRIEVAL_2122 oppure GAMBOSI-8067438-INFORMATION_RETRIEVAL_1
Il ricevimento studenti si terra' dopo ciascuna lezione, previa prenotazione da parte dello studente.
Per essere aggiunti al corso ed al canale Teams, e' NECESSARIO ISCRIVERSI al corso stesso usando la Pagina di
Iscrizione (Delphi).
|
Programma del Corso
Segue il programma preliminare del Corso che sara' messo a punto ed finalizzato al termine delle lezioni del Corso.
- Introduzione al problema dell'Information Retrieval
- Definizione della nozione di Inverted Indices
- Costruzione di Indici per l'Information Retrieval
- Algoritmi per la codifica e compressione dell'Informazione
- Funzione di Ranking documentale
- Introduzione al Vector Space Model
- Modelli Probabilistici per l'Information Retrieval
- Valutazione dei Sistemi di IR
- Sviluppo efficiente e su larga scala di sistemi di IR
- Crawling e Detection di risorse duplicate
- Introduzione a IR engines (e.g., Apache Lucene)
- Introduzione a Map Reduce
|
Testi di Riferimento
-
IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
-
Dispense fornite dal docente
|
Lezioni (Lucidi)
-
QUI saranno pubblicate le slide delle singole lezioni. Non costituiscono l'esclusivo materiale didattico su cui si puo' preparare l'esame ma forniscono i dettagli sugli aspetti del programma cui concentrare la propria preparazione e gli esempi ed esercizi utili alla comprensione della materia.
-
Lezione Iniziale: Introduzione al Corso.
-
Lezione 1: Introduzione al Modello Booleano e Definizione della nozione di Inverted Indices (le slide di riferimento possono essere trovate al seguente link)
-
Lezione 2: Costruzione di Indici per l'Information Retrieval (le slide di riferimento possono essere trovate al seguente link)
-
Lezione 3: Algoritmi per la codifica e compressione dell'Informazione nell'IR (le slide di riferimento possono essere trovate al seguente link)
-
Lezione 4: Funzione di Ranking documentale. Introduzione al Vector Space Model
-
Lezione 5: Modelli Probabilistici per l'Information Retrieval
-
Lezione 6: Language Models per l'Information Retrieval
-
Lezione 7: Valutazione dei Sistemi di Information Retrieval
-
Lezione 8: Sviluppo efficiente di sistemi di IR
-
Lezione 9: Relevance feedback and Query expansion
-
Lezione 10: Near Duplicate Detection
|
Esercitazioni
-
QUI saranno pubblicate le slide delle singole esercitazioni e laboratori.
-
Esercitazione 1: Implementazione di Indici per l'Information Retrieval in Python.
Nei seguenti Python Book vengono riportati degli esempi di:
- Indici non Posizionali
- Query complesse ad Indici non Posizionali
- Indici Posizionali
Per gli esempi e' necessario scaricare il corpus 20Newsgroups anche scaricabile al seguente LINK.
-
Esercitazione 2: Implementazione di un Vector Space Model e applicazione di BM25.
Nei seguenti Python Books vengono riportati esempi di implementazione di un Vector Space Model e modelli Probabilistici BM25
E' necessario scaricare il corpus scaricabile al seguente LINK.
-
Esercitazione 3: una Libreria per l'Information Retrieval: Lucene.
Risorse (Lucene core, Luke dataset e wrapper code) relative alla Indicizzazione e Valutazione di un Motore di Ricerca sulla Collezione Cranfield sono disponibili al seguente LINK.
-
Esercitazione 4: un Sistema per l'Information Retrieval: Apache SOLR.
-
Esercitazione 5: un Sistema Distribuito di Information Retrieval: Apache SOLR e Apache ZooKeeper.
|
Progetti
- L'esame comprende, in maniera NON obbligatoria, lo svolgimento di un progetto implementativo da eseguire eventualmente in gruppi.
Per gli studenti che dovessero sostenere ancora l'esame da 9 CFU (A.A. 2019-2020) il progetto e' obbligatorio.
La descrizione dei progetti proposti sara' disponibile durante il corso.
|