q16marvin
Goto Top

Squid ssl https cache pdf files

Hi,

ich habe in pfsense einen squid proxy mit ssl man in the middl installiert.

Speziell geht es um eine Firmeninterne Webseite die leider nur auf https läuft. Von dieser Seite müssen aber mehrere 100 Mitarbeiter PDF Datein (Kataloge mit bis zu 100MB Grösse) herunterladen. Daher wollte ich gern diese PDF Dateien mit dem Squid cachen. Doch leider cached er nur von http Seiten, hier ein Log Beispiel:

http://i.imgur.com/qTgGA3t.png

Jemand eine Idee?

Danke!

Content-Key: 283038

Url: https://administrator.de/contentid/283038

Printed on: April 25, 2024 at 19:04 o'clock

Member: marvin42
marvin42 Sep 16, 2015 at 11:54:41 (UTC)
Goto Top
Hallo q16marvin,

ich habe in pfsense einen squid proxy mit ssl man in the middl installiert.

Speziell geht es um eine Firmeninterne Webseite die leider nur auf https läuft. Von dieser Seite müssen aber mehrere 100 Mitarbeiter PDF Datein (Kataloge mit bis zu 100MB Grösse) herunterladen. Daher wollte ich gern diese PDF Dateien mit dem Squid cachen. Doch leider cached er nur von http Seiten, hier ein Log Beispiel:

es hört sich etwas danach an, als ob Du ziemlich auf dem Holzweg bist! Wenn Du mehrere hundert Mitarbeiter hast, die Kataloge mit 100MB Größe etc. da runter laden, dann geht's Dir ja um alles mögliche, aber nicht wirklich um einen normalen Webserver & Squid caching, oder?

Wolltest Du vielleicht nicht doch, FTP, Samba, ein CMS oder was anderes zur Verfügung stellen, was für Deinen Anwendungsfall evtl. besser geeignet ist als ein Squid der gerne kleine Webseiten cached?

Beschreib doch bitte mal genau, was Eure Anwender machen, wie der Worklow für dass normale Arbeiten der Anwender ist und wie deine technische Infrastruktur genau ausschaut!


Viele Grüße vom Namensvetter
Marvin42
Member: q16marvin
q16marvin Sep 16, 2015 updated at 12:19:52 (UTC)
Goto Top
Hallo Marvin,

okay ich hole mehr aus.

Ein Partner von uns stellt eine Art Wikipedia / Intranet auf Basis von Confluence bereit (https://de.atlassian.com/software/confluence). Ist eine riesige Wissensdatenbank. 3 verschiedene Standorte mit in Summe ca. 500 Mitarbeiter greifen auf diese Webseite zu. Diese Mitarbeiter müssen sich in besagten Katalogen informieren. Diese Kataloge werden täglich angepasst erneuert und so weiter. Mein Problem ist nun folgendes Beispiel: Schichtbeginn und 80 Mitarbeiter starten ihre Programme und laden sich ihre benötigten Kataloge. Der Hauptkatalog ist ca. 100MB gross, bedeutet ca 8GB werden vom Partner heruntergeladen, weil jeder Client sich die Daten seperat zieht. Meine Idee war es jetzt, ein Squid dazwischen zu setzen und nur ein Mitarbeiter muss die 100MB vom Partner ziehen, der Rest läd es dann schnell aus dem Cache.

Meine Anfrage an den Partner das System auf HTTP statt HTTPS laufen zu lassen, da wir ja eh verschlüsselt über VPN zugreifen, ist leider nicht möglich. Wir bekommen auch keine "andere" (FTP, etc) Möglichkeit auf diese Dateien zuzugreifen.

Jetzt ein extra CMS in jedem Standort lokal zu installieren und 1 Person einstellen, die sich um die ständige Pflege kümmert wäre jetzt die letzte Wahl face-smile

PS: entschuldige das Wort "Firmenintern", war hier wohl falsch angebracht...
Member: catachan
catachan Sep 16, 2015 at 13:27:51 (UTC)
Goto Top
Hi

der Proxy kann das nicht cachen da die Daten verschlüsselt sind und er somit nicht weiß was er eigentlich durchschleust. Du müsstest den HTTPS Verkehr aufbrechen (=intercepten) so dass die Daten im Klartext über den Proxy gehen. BItte vorher mit Betriebsrat abklären ob erlaubt

http://wiki.squid-cache.org/ConfigExamples/Intercept/SslBumpExplicit

LG
Member: q16marvin
q16marvin Sep 16, 2015 updated at 14:00:36 (UTC)
Goto Top
hi,

exakt das läuft bereits, geklärt ist es auch bereits mit der Leitung.

Wie oben in dem Link bereits zu sehen, kann ich im Squid log ja die einzelnen Downloads der PDF's Files sehen. Diese werden leider nur niemals gecached.
Member: marvin42
marvin42 Sep 16, 2015 at 14:47:13 (UTC)
Goto Top
Hallo q16marvin,

warum gehst Du nicht ganz anders ran?

Zieh Dir die großen PDF's automatisiert (per WGet-Script, Webdownloader, etc.) oder halbmanuell in den für Euch besten Abständen auf einen internen Server.

Den stellst Du Deinen Kollegen zur Verfügung.

Von da an kann Dir jedes Bandbreitenproblem nach außen sehr egal sein face-wink.


Viele Grüße
Marvin42
Member: q16marvin
q16marvin Sep 16, 2015 at 15:09:24 (UTC)
Goto Top
ja so in der art habe ich auch schon überlegt, bin mir aber unschlüssig wie ich das am besten angehen soll (ca. 40000 Kataloge). ca. 10% davon ändern sich täglich. Gecached über den Squid wäre halt die einfachste Lösung, nutzen wir ja ständig für andere Projekte (da laufen die Seiten unter http und können damit perfekt gecached werden). Nur besagte Seite halt auf https, welche ich halt trotz SSLBump nicht gecached bekomme face-sad
Member: marvin42
marvin42 Sep 17, 2015 updated at 09:00:59 (UTC)
Goto Top
Hallo q16marvin,

ja so in der art habe ich auch schon überlegt, bin mir aber unschlüssig wie ich das am besten angehen soll (ca. 40000 Kataloge). ca. 10% davon
ändern sich täglich. Gecached über den Squid wäre halt die einfachste Lösung, nutzen wir ja ständig für andere Projekte
(da laufen die Seiten unter http und können damit perfekt gecached werden). Nur besagte Seite halt auf https, welche ich halt
trotz SSLBump nicht gecached bekomme face-sad

naja, schau dass über den Squid wäre nur dann die einfachste Lösung, wenn der Squid dass auch ganz normal macht.
Macht er aber leider nicht face-wink.

Wenn Du die externen Kataloge nach intern replizierst, replizierst Du natürlich nur die, die sich geändert haben. Die anderen lässt Du liegen. Wenn Du dass richtig schlau anfängst, dann wird der Katalog sofort repliziert, wenn er auf dem Zielsystem erneuert wurde. Besser geht's glaub ich nicht. Alternativ müssen die Nutzer halt etwas länger warten, bis der jeweilige Download durch ist. Über was für Zeiten & konkrete Datenmengen reden wir denn da an einem normalen Tag und an einem "besonders intensiven" Tag?


Viele Grüße
Marvin42
Member: q16marvin
q16marvin Sep 17, 2015 at 08:16:23 (UTC)
Goto Top
vielleicht bin ich auch zu blöd, aber warum gibt es dann SSLBump, wenn er dann trotzdem nicht cachen kann?

ich bin derzeit am testen verschiedener tools wie "WinHTTrack" usw., alles bis jetzt nicht gerade erfolgreich. in summe sind es laut partner ca. 1TB an Daten. Ist halt dann untereilt in x Kategorien, für jeden Fachbereich halt. WinHTTrack läuft seit gestern abend und ist laut Anzeige bei 10% ^^. Die Partner Maschinen sind halt gedrosselt, weil noch viele weitere Standorte zugreifen. Daher dauert so ein Download einer 100MB Datei schon mal 15 Minuten.

Gibt es vielleicht noch andere Proxy Server die SSL Sites cachen können?
Member: marvin42
marvin42 Sep 17, 2015 at 09:06:27 (UTC)
Goto Top
nein, Du bist sicherlich nicht zu blöd. Die Frage ist nur, ob Du die richtige Lösungs-Brille auf hast face-wink.
Wie seit Ihr & Euer Partner denn angebunden? Nur per Internet oder habt Ihr auch eine direkte Leitung.
Welche Bandbreien gibt es?

Du hast Dich mit Proxy & Squid, SSLBump etc. schon so tief auf eine Lösung eingeschossen, dass erst mal zu fragen ist ob die Lösung wirklich zum Problem, bzw. zu den Anforderungen passt.

Von wem hast Du denn den Auftrag bekommen, da nach einer Verbesserung zu suchen? Und was genau soll die Verbesserung alles bringen, darf sie kosten, nicht kosten, was soll passieren, was darf nicht passieren?

Wenn Du die Daten ohne Proxy & Squid etc. einfach replizierst, wird vieles sehr viel einfacher (wenn es nur darum geht, dass die Daten in Eurem internen Netz ganz schnell aufrufbar sind und 15 Minuten halt als Regelfall zu lang sind).