Doppelte Dateileichen

Moin Gemeinde,

momentan stehen wieder diverse Kindergeburtstage an, bei denen historische Aufnahmen und bildhafte Zeitzeugen zur Entwicklung der Kleinen hervorgekramt werden und wir räumen in diesem Zuge unseren NextPi ein wenig auf.

Wie das manchmal so ist, haben die Elterntiere verschiedene Sortier- und Ablagegewohnheiten und so stehen etliche tausend Fotos im Fokus, die manchmal doppelt und drei- oder noch mehrfach gespeichert sind.

Hier die Frage in die Runde und dies betrifft ausschließlich Linuxsysteme:

  1. ganz allgemein: wie speichert Ihr Bilder ab (also Sortieralgorythmus)? …hier kann man ja auch mal ganz allgemein von den Gewohnheiten anderer lernen…

  2. welche Software (Scripte sind leider wenig hilfreich, da auch meine Frau damit zurecht kommen muß und die steht klar auf GUI) setzt Ihr ein, um einen sehr umfangreichen (mehrere tausend jpg) Ordner mit vielen Unterodnern auf doppelte Dateien zu prüfen?

Danke in die Runde und Euch ein möglichst kühles Wochenende

Grüße von der Ostsee
w.

Ich bin gespannt, was Du für Antworten bekommst.

Ich hatte neulich nach sowas ähnlichem gesucht zum Herausfinden doppelter Dateien, aber nichts gescheites gefunden, und bin dann wieder bei einem Windows-Programm, Anti-Twin, hängen geblieben. Du kannst ja auf alternativeto schauen, was es da für Linux gibt und inwiefern die bei Euch gehen. Oder Du verwendest Anti-Twin mit den üblichen Windowsersatz-Möglichkeiten für Linux (Windows auf virtueller Maschine, auf Live-USB-Stick oder das Programm in wine), Du brauchst für das Programm ja keinen Internetzugang, von daher datenschutztechnisch nicht so problematisch. Ich hab selbst mit Windows auf Linux keine Erfahrung, aber so würde ich es machen.

Bzgl. Abspeichern würde ich mir ein allgemeines Schema zulegen, über das ihr Euch vorher einig werden solltet (Ergebnis irgendwo festhalten). Z.B. Ordner Kind1, Kind2, Kind1 mit mehreren, usw. Darunter jeweils Geburtstag, Ausflug xy, oder man macht es schlicht nach Datum. Ich hab nicht so viele Bilder zu bewältigen, aber wenn, würde ich schauen, was es an Software gibt, wo man den Bildern Schlagworte zuordnen kann, dann muss die Ordnerstruktur nicht so ausgetüftelt sein (allerdings solltet ihr Euch auch über die Schlagworte einig werden und das Ergebnis festhalten).

@wasesha

https://github.com/arsenetar/dupeguru

Noch ein wenig ausführlicher erklärt.

https://www.linux-bibel-oesterreich.at/viewtopic.php?t=1670

@Morpheus

Das liest sich sehr vielversprechend. Danke für den Link.

Gruß w.

Die Herausforderung habe ich auch, aber über Computer, Festplatten und verschlüsselte Container verteilt. Wenn man fit im Programmieren ist, dann müsste man ein Script schreiben, dass über alle Datenträger hinweg von jeder Datei deren Hashwert berechnet und diesen in eine Datenbank zusammen mit Datenträger ID und dem Dateinamen einträgt und in einem zweiten Schritt dann die Dubletten, Tripletten, etc. sucht, der Benutzer den präferierten Datenträger angibt und dann das Löschen organisiert. Vielleicht hebe ich mir das für die Rente auf :wink:

…bitte, bitte …nicht bis zur Rente damit warten!

Leider kann ich zum Thema Programmieren nichts beitragen. Ich freue mich jedes Mal, wenn ich diversen Hürden in Linux eine lange Nase zeigen kann und meine Kinder und meine Frau beeindruckt sind…;0)

@Toughy
Momentan wird nach Datum sortiert. Wenn allerdings verschiedene Quellen das Datum verschieden formatieren…
Nach Kind macht bei sechs Gören und entsprechenden Schnittmengen wenig Sinn… ;0)

Wenn es nur um Fotos geht käme auch digikam in Frage.
Es ist vielleicht etwas überdimensioniert, kann dafür aber auch mit Leichtigkeit dir eine Sortierung abnehmen, doppelte Bilder finden und über mehrere Datenträger verwalten.
Aufgrund des Funktionsumfangs muss man sich etwas Zeit für die Oberfläche nehmen und einarbeiten. Es gibt aber auch eine gute Hilfe.

Ich verschiebe meine Fotos in Ordner, einen für jeden Monat. Anschliessend werden die Bilder nach dem Muster „Bild_2023_07_XXXX.jpg“ umbenannt, da ich die Bilder aus verschiedenen Quellen bekomme und die doppelte Namen vermeiden will. Das widerum mache ich mit Pix in Mint.
Ich lese die Bilder in Shotwell ein und verschlagworte da die Bilder. Im Anschluss kann ich sehr einfach bestimmte Ereignisse oder Personen oder was auch immer raussuchen.
Für die doppelten Bilder nutze ich Czkawka
https://qarmin.github.io/czkawka/
Das hat nicht nur einen unaussprechlichen Namen, es arbeitet wirklich gut. Es rechnet Hashwerte für die einzelnen Bilder und findet sehr zuverlässig die doppelten heraus.

Da ich grundsätzlich alle Metadaten der Bilder entferne und es auch nicht 100.000te Bilder sind, habe ich es recbt simple, Ordner Bilder/Jahr/ und dort alle Bilder eines Jahres rein und ich behalte den Namen der Kamera bei. Sollte ein spezielles Event sein mit sehr vielen Fotos z.B. Hochzeit gibt es dann einen Extra Ordner /Bilder/Jahr-Hochzeit/ . Mehr sortiert wird nicht. Bevor ich die Bilder auf das Datengrab schiebe, wird vorher durchsucht was gelöscht wird und dann sämtliche Metadaten nochmals entfernt.
Ich entferne die Metadaten auch schon wenn ich Bilder versende, aber versende nicht jedes Bild.
Doppelte kommen so eigentilich nicht vor.

Das Problem habe ich auch, allerdings ohne Verschlüsselung. Das wird ein großer Punkt bei mir sein, meine vielen verstreuten Daten in ein Ordnersystem, welches sinnvoll ist, einzugießen. Problem ist, je mehr unordentliche Daten man angehäuft hat, umso beschwerlicher wird es (also wenn es nicht nur um Bilder geht und man sie nach Themen sortiert).

Lege ein Format fest, schreibe das fett auf einen Zettel und klebe das an den/die Monitore (und erkläre es vorher).

Gut, dass Du da gute Erfahrungen hast, das hatte ich mir auch überlegt. Ist ja glaube ich ein Nachfolger von FSlint. Kann es auch Dateien rausfinden, die in gewissem Grad nur ähnlich sind?

Wie machst Du das?

Es rechnet die Hashwerte aus. Man kann definieren, nach welchem Algorithmus und wie gross die Genauigkeit sein soll. Er findet ähnliche Dateien und meldet sie qls gleich. Wenn man z.B. an der Kamera eine Serienaufnahme einstellt und 10 fast gleich aussehende Fotos hat. Er kennzeichnet gleiche/ähnliche Fotos. Ich persönlich habe überwiegend mir tatsächlich die einzelnen Bilder angeguckt und dann entschieden, ob ich welche löschen möchte. Einfach einmal ausprobieren, es gibt immerhin ein natives Linuxprogramm!
Und ja, man bekommt sehr leicht doppelte Dateien, wenn einem die Frau verbietet Speicherkarten zu löschen und man dann auch Jahre später Fotos auf herumfliegenden Speicherkarten findet.
Ich persönlich nutze Metadaten sehr gerne. Das Aufnahmedatum ist für mich sehr wichtig, da ich danach sehr gerne sortiere. So hat man die Urlaubsbilder, egal von welcher Kamera gleich inder richtigen Reihenfolge.
Meine Frau hat noch 1800 Dias von ihren Eltern. Nur leider sind diese Dias einmal komplett aus dem Schrank gefallen und hatten sich auf dem Boden verteilt. Ich hatte die Bilder eingescannt und mit verschiedenen Schlagworten versehen. So hat man dann ein weig Überblick über die Bilder bekommen.
Der Unterschied zwischen verschiedenen Ordnern und Schlagwörtern zum sortieren ist recht trivial. Ich kann einem Bild mehrere Schlagwörter zuweisen, ich kann das Bild aber nur in einen Ordner verschieben.

Gibt da zwei Apps die dabei ganz hilfreich sind, einmal das Bilder beim sharen zuvor befreit werden, indem man beim sharen zuerst die App Scrambled Exif auswählt, womit die Metadaten dann gelöscht werden, dann erscheint das Auswahlmenü erneut, womit man dann die App auswählt womit man das Bild teilen möchte ohne die Metadaten.

Und als zweites die App EXIFEraser mit der man einzelne Bilder oder ganze Ordner auf einmal befreien kann.

Dabei lasse ich den Namen der Datei unberührt, welcher zwar Datum und Uhrzeit verrät (sollte das Foto mit meiner Kamera gemacht worden sein), aber irgendwie muss ich die ja auch sortieren können. Es lässt sich aber in beiden Apps auch ein zufälliger Namen generieren und/oder auch kann eine Kopie angelegt werden und/oder auch direkt die Löschung des Originals veranlasst werden.
Ich habe diese App bei F-Droid geladen, weiß nur nicht aus welchem repo die kommt (kann man das irgendwo sehen?), deshalb der Link zu github.

Doppelte Bilder lasse ich unregelmäßig mit https://github.com/qarmin/czkawka finden.

Ansonsten wird hier alles nach dem Ordnerschema YYYY/YYYY-MM bzw. je nach „Event“ auch „YYYY/YYYY-MM-DD Geburtstag ABC“, „YYYY/YYYY-MM Urlaub Usbekistan“ usw. einsortiert. Beim Bilder-Upload kann man z.B. in Nextcloud auch gleich die Dateinamenmaske anpassen: YYYYMMDD-HHmmss- ergibt dann sowas:
20230710-102313-nnnn.jpg (nnnn=laufende Nummer der Fotos auf dem Smartphone, also von 0001-9999 und dann wieder von vorne)

Die sind dann für Smartphones, oder? Ich suche eher was für den Rechner.

Du machst die Photos mit dem Rechner?

Nee, da sind sie nur drauf. Mache sie mit Fotoapparat.

Ich denke mal mit einer sehr guten Kamera, dann würde ich mal in der Bedienungsanleitung schauen, ob man die Exif Daten überhaupt mit dem Bild speichern muss oder das deaktivieren kann.

Aber ich frag mal die alte Tante für ein PC Programm

Gibt welche, sogar viele.

Aber ich habe es auf dem PC gerade getestet, es geht auch mit windows boardmittel.
Alle Bilder im Ordner mit STRG+A markieren, im Rechtsklick Menü Eigenschaften auswählen, dort den Reiter Details öffnen, dann den Link unterhalb des Informationsfensters klicken, indem erscheinenden Fenster den zweiten Punkt wählen, welche Eigenschaften entfernt werden sollen, unten alle auswählen klicken und mit OK bestätigen.
Wenn Du die Original Bilder behalten willst, wähle den ersten Punkt dann wird eine Kopie mit entfernten Metadaten erstellt. Dafür benötigt es also nicht unbedingt eine Programm.

Danke sehr!
Meine Kamera ist schon sehr alt und war billig, die Einstellungsmöglichkeiten übersichtlich, aber ich schau mal. Aber die Rechnerversion ist mir lieber, dann hab ich die Infos noch, wenn ich sie doch für irgendwas brauche.

Ich bin soeben erneut über die Mächtigkeit von fdupes . -r auf meinem Linux-Rechnerchen gestossen:
Wow, das findet aber auch echt „alles“! Und kann bei Bedarf auf gleich aufräumen:

-d --delete
prompt user for files to preserve, deleting all others (see CAVEATS below)