Large Scale Data Management Systems



Code: MSC-13

Description: Introduction into massive datasets. Modern computational models.  Modern storage models.
Modern distributed, scalable, non-relational data stores.
Storage and querying massive graphs. Graph databases. Triple-stores. Linked-Data.
Scientific data management.
The Stream Data Model. Stream Queries. Sampling of Streams. Counting Distinct Elements.
The external memory model. I/O efficient algorithms. I/O efficient traversal of large graphs.
Large-scale file systems and Map-Reduce framework for parallel computations. Basic algorithms using Map-Reduce: matrix multiplication, relational-algebra operations. High-level languages for expressing data analysis programs.

Objectives: Modern internet applications have created a need to manage huge amounts of data as quickly as possible. The task of repeatedly processing very large datasets, which do not fit into memory, cannot be tackled by traditional algorithmic approaches.
The course offers students the knowledge and skills in order to be able to solve problems where the involved datasets are massive and thus cannot be loaded in memory. The course is divided into two parts. The first part describes the design of systems dealing with massive data. The second part discusses the algorithmic aspects of large-scale computations. Both parts are presented by real-world case studies using open source tools.

    Teaching Methods: a) lectures, b) case studies, c) laboratory exercises, d) group assignments, e) students’ presentations, f) Invited lectures

    Recommended Reading:

    1. Anand Rajaraman, Jeffrey D. Ullman: “Mining of Massive Datasets”.     Cambridge University Press. 2011.
    2. Jeffrey Scott Vitter: “External memory algorithms and data structures:  dealing with massive data”, ACM Computing Surveys (CSUR), Volume 33 Issue 2, June 2001.
    3. Guy Blelloch and Bruce Maggs: “Parallel Algorithms”, from Computer Science Handbook, Second Edition, Allen B. Tucker (Editor), 2004.
    4. M. Garofalakis, J. Gehrke, and R. Rastogi (editors): Data Stream Management, Springer, 2009.
    5. Jim Gray, David T. Liu, Maria A. Nieto-Santisteban, Alexander S. Szalay, David J. DeWitt, Gerd Heber: “Scientific data management in the coming decade”, SIGMOD Record 34(4): 34-41 (2005).

    Prerequisites: -

    Website: at http://eclass.hua.gr/

     

    9 υποτροφίες

    Το πρόγραμμα προσφέρει συνολικά εννέα (9) υποτροφίες στις καλύτερες επιδόσεις κάθε κατεύθυνσης σε κάθε εξάμηνο, οι οποίες καλύπτουν το σύνολο ή μέρος των διδάκτρων.

    Πλήρους Μερικής Φοίτησης

    Το Π.Μ.Σ. προσφέρει τη δυνατότητα πλήρους φοίτησης και μερικής φοίτησης. Η χρονική διάρκεια για την απονομή του Μεταπτυχιακού Διπλώματος Ειδίκευσης ορίζεται σε τρία (3) ακαδημαϊκά εξάμηνα για το πλήρους φοίτησης, ενώ για το μερικής φοίτησης η χρονική διάρκεια διπλασιάζεται.

    Μεταπτυχιακό Πρόγραμμα Σπουδών

    Στο Π.Μ.Σ. γίνονται δεκτοί ως υποψήφιοι πτυχιούχοι Τμημάτων Πανεπιστημίων της ημεδαπής ή αναγνωρισμένων ομοταγών ιδρυμάτων της αλλοδαπής, καθώς και πτυχιούχοι Τμημάτων ΤΕΙ συναφούς γνωστικού αντικειμένου.

    Department of Informatics & Telematics - 2017