Mar
23
2009
data deduplication - fdupes

Όσο περνάει ο χρόνος τόσο μεγαλώνουν οι χωρητικότητες των δίσκων. Συνέπεια αυτού να μην σβήνουμε τπτ.
Έτσι ενώ κάποτε στο σπίτι ένας δίσκος 10Gb ήταν υπέραρκετός αυτή την στιγμή 2ΤB να είναι ελάχιστα.

Το γεγονός αυτό σε μία εταιρεία που όλα τα δεδομένα της είναι κρίσιμα και μάλιστα εθνικής υψίστης σημασίας σημαίνει
hw raid / sw raid / tapes / εξωτερικά usb κ.ο.κ. Εντάξει το rsync για backup (χρησιμοποιώ το rsnapshot μου κάνει την ζωή πιο εύκολα αλλά και πάλι όταν έχεις 2TΒ (ίσως και λίγο παραπάνω) τι κάνεις;

Σκέφτηκα να δοκιμάσω το fdupes και θα τολμήσω να πω δημόσια, ότι μου αρέσει αρκετά. Φυσικά δεν μου λύνει το πρόβλημα κι όταν υπάρχουν πολλά αρχεία σε ένα κατάλογο ψιλοαργεί (π.χ. 120337 αρχεία, 3,7G έκανε 7,5 λεπτά, ενώ για περίπου 1500000 mp3 γύρω στα 35GB έκανε 28λεπτά)

Πως το χρησιμοποιεί κανείς:

fdupes -R . > fdupes.log

Έτσι το τρέχω εγώ και μετά από το log διαβάζω τι πρέπει να διαγράψω και τι όχι, φυσικά έχει και επιλογή για άμεση διαγραφή … αλλά ποιος τρέχει μετά να βρει αρχεία από το backup :)

Εάν κάποιος έχει να προτείνει παρόμοιο πρόγραμμα ή ακόμα καλύτερα κάποιο patch kernel και να παίζει σε fs layer ακόμα καλύτερα. Σίγουρα θα έχω impact σε time read/write αλλά εάν ο δίσκος είναι μόνο για backup ποιος νοιάζεται.