pasubs
Goto Top

MS SQL 2008 R2 - Dienst beendet sich

Hallo liebe Community,

wir hatten heute in unserem Bereich eine Großstörung, da die Datenbankfestplatte vollgelaufen ist. Um dies zu verhindern, haben wir eigentlich einen Job, der alle 10 Minuten die veralteten Daten aus der Datenbank löscht.

Störung bestand seit 13:00 Uhr.

Als ich um 14:30 Uhr meine Schicht antrat, wurde ich dann auch gleich zur Problemstelle gerufen. Als ich dort ankam, war die Datenbank schon unbedienbar.
Nachdem ich dann ein bisschen Platz auf der Platte geschaffen hatte (manuelles wegkopieren von Log-Datein und Backups), konnten wir die Datenbank "shrinken".

Nachdem die Datenbank dann wieder i.O. war, kam natürlich die Frage: WIESO passiert das. Nun analysiere ich gerade das Problem und stelle folgendes fest:

Am 29.07.2016 steht in der History des Jobs als Message:
" The job was stopped prior to completion by User sa. The Job was invoked by Schedule 37 (Every10Minutes). The last step to run was step 1 (DS_SP_DeleteOldData)

Message im Step Name - DS_SP_DeleteOldData:
Excecuted as user: NT-AUTORITÄT\SYSTEM. The Step was cancelled (stopped) as the result of a job request.

Duration: 10:07:25:00

Am 08.08.2016 steht in der History des Jobs als Message:
"The job was stopped priro to completion by User sa. The Job was invoked by user sa. [...]

Message im Step Name - DS_SP_DeleteOldData
Excecuted as user: NT-AUTORITÄT\SYSTEM. The Step was cancelled (stopped) as the result of a job request.

Dies sieht nun so aus als hätte der User sa (Admin) diesen Job beendet. Dieser User ist aber nur ein Kollege und ich. Und der Kollege hat Urlaub.

Frage: Wie kann ich meinem Chef erklären, dass sich dieser Dienst beendet hat? Der JOB ACTIVITY LOG scheint sich nach dem reboot meiner Kollegen überschrieben zu haben..

Hilfe..??

Gruß,
PASU

Content-ID: 312396

Url: https://administrator.de/contentid/312396

Ausgedruckt am: 22.11.2024 um 14:11 Uhr

Pjordorf
Pjordorf 11.08.2016 um 21:07:25 Uhr
Goto Top
Hallo,

Zitat von @PASUbs:
wir hatten heute in unserem Bereich eine Großstörung, da die Datenbankfestplatte vollgelaufen ist. Um dies zu verhindern, haben wir eigentlich einen Job, der alle 10 Minuten die veralteten Daten aus der Datenbank löscht.
Das ist keine Lösung, noch nicht mal ein Notbehelf.
Warum ist das Volume so klein?
Was da drin wird alles abgelegt?
Was braucht ausser der SQL datenbank dort noch Platz?
Was in den Volume belegt immer wieder allen freien Platz? (TreeSizeFree mit Systemkonto aufrufen). Eine CMD datei mit
rem TreeSizeFree als Systemkonto ausfuehren
rem Als Admin bzw. mit erhoehten Rechten starten

E:
CD \TreeSizeFree

E:\SysInternals\PSTools\psexec -i -s e:\TreeSizeFree\TreeSizeFree_345\treesizefree.exe
Nachdem ich dann ein bisschen Platz auf der Platte geschaffen hatte (manuelles wegkopieren von Log-Datein und Backups)
Warum liegen die Logs und und Backups nicht in ein anderes Volume? Was hindert euch dazu eine andere billigplatte ala 1 TB zu nutzen (muss weder RAID können noch wahnsinng schnell sein)?

konnten wir die Datenbank "shrinken".
Ist nur ein Notbehelf bis das eine größere Platte verfügbar ist

Nachdem die Datenbank dann wieder i.O. war, kam natürlich die Frage: WIESO passiert das. Nun analysiere ich gerade das Problem und stelle folgendes fest:
Falsche SQL Planung

" The job was stopped prior to completion by User sa. The Job was invoked by Schedule 37 (Every10Minutes). The last step to run was step 1 (DS_SP_DeleteOldData)

Frage: Wie kann ich meinem Chef erklären, dass sich dieser Dienst beendet hat?
Steht im Ereignisprotokoll drin

Der JOB ACTIVITY LOG scheint sich nach dem reboot meiner Kollegen überschrieben zu haben..
Je nach wie ihr euren SQL eingerichtet bzw. Konfiguriert habt und je nach wie gross diese Logs sind....

Hilfe..??
Schauen wo die engpässe sind und diese beseitigen, notfalls größere Plattensysteme. LOGS, Protokolle, Backups auf einer anderen Partition schreiben lassen.

https://www.brentozar.com/archive/2008/03/sql-server-2005-setup-checklis ...
https://technet.microsoft.com/en-us/magazine/c623b226-6940-4cb9-915f-fd5 ...
https://blogs.msdn.microsoft.com/felixmar/2011/08/29/partitioning-archiv ...
https://www.brentozar.com/sql/table-partitioning-resources/
https://blogs.technet.microsoft.com/dataplatforminsider/2012/12/19/disk- ...
https://technet.microsoft.com/en-us/library/dd758814(v=sql.100).aspx
http://searchsqlserver.techtarget.com/tip/Optimize-disk-configuration-i ...
http://dba.stackexchange.com/questions/37162/optimal-drive-configuratio ...
http://serverfault.com/questions/19866/recommended-disk-partition-setup ...

Gruß,
Peter
PASUbs
PASUbs 11.08.2016 aktualisiert um 21:27:07 Uhr
Goto Top
Hallo Peter,

das unsere Infrastrukur und unsere SQL Planung unter aller Sau ist, habe ich bereits mehrsmals angemahnt.
Unser Failover-Cluster wurde abgeschafft. Kostengründe. Ersatzplatten durften nicht angeschafft werden. Kostengründe.

Eigentlich ist es traurig, dass ein Unternehmen dieser Größe nicht in der Lage ist, Geld für eine ordentliche IT-Lösung in die Hand zu nehmen.
An dieser Infrastrukrur dürfen wir weder was verändern, noch hinzufügen. Dies wurde seitens unserer E-Planung untersagt.

Wir haben dies nur zu betreuen.

Ich habe es, um ehrlich zu sein, auch nach dreieinhalb Jahren in dieser Abteilung aufgegeben, gegen Windmühlen zu kämpfen.
Gott sei Dank geht es ab dem 01.10 in einer richtigen Abteilung los.

Das ganze ist leider ein Hausgemachtes Problem und kommt davon, wenn man sich ein System samt Infrastruktur von einer Firma verkaufen lässt, wo man nicht einmal zu 100 % genau weiß, welches Device wohin kommuniziert, wo man nicht weiß, welche Daten in die Datenbank geschrieben werden.

Es ist wie gesagt, einfach traurig. Und das muss man dann "anständig" betreuen.

Trotzdem danke für deine Hilfe.
StefanKittel
StefanKittel 12.08.2016 aktualisiert um 00:12:33 Uhr
Goto Top
Hallo,

ist doch recht einfach.

Lieber Chef.

Der Notbehelf des 10 Minuten-Skriptes ist aufgrund einer Fehlfunktion des SQL-Servers fehlgeschlagen.
So etwas kann immer mal passieren. Es ist halt ein Computer.

So etwas kann und wird immer mal wieder passieren.
Dabei kann es auch passieren, dass die Datenbank zerstört wird und Daten verloren gehen.

Dagegen können wir mit der aktuellen Ausstattung nichts machen.

Mein Maßnahmenkatalog haben sie ja bereits schon länger.

Dann rechnest Du kurz noch aus wieviele MA für wie lange nicht arbeiten konnten und was das die Firma gekostet hat.
Und was es bei 24h kostet.

Wir hatten mal die Diskussion mit einem Kunden mit Tiefkühllage und 10 Jahre altem Server (ein einziger für alles).
Die Antwort für den 24h Ausfall lautete 300.000 Euro. Am nächsten Tag wurden 2 neue Server angeschafft.

Wie gesagt:
- Es wird wieder passieren wenn Du nicht daneben stehst
- Es wird früher oder später zu einem Datenverlust kommen
Sieh zu, dass es nicht Dein Kopf ist der rollt.

Stefan
Kraemer
Kraemer 12.08.2016 um 08:52:35 Uhr
Goto Top
Moin.
Zitat von @PASUbs:
Frage: Wie kann ich meinem Chef erklären, dass sich dieser Dienst beendet hat?
Gar nicht. Dazu fehlen dir die nötigen Informationen. Und die fehlen dir aus "Kostengründen". Platte voll - Logs weg. Eigentlich ganz logisch.

Mein Beileid und Mitleid hast du auf jeden Fall. Ich musste so auch schon arbeiten face-sad

Gruß Krämer
clSchak
clSchak 12.08.2016 um 12:24:48 Uhr
Goto Top
hi

hach, zum Teil wie bei uns, erst muss etwas passieren sonst ändert sich nichts face-smile - wobei wir mittlerweile auf der Schiene angekommen sind: was kostet ein System das gar nicht/weniger Ausfällt - das wird dagegen gerechnet und fertig (zum Glück) - aber in einer ähnlichen Situatuion wie du gerade bist war ich vor ein paar Jahre auch - es ist schwer Leuten etwas zu erklären das sie nicht verstehen und auch nicht verstehen möchten...klar ist es dann schön das man immer brav nach oben gemeldet hat (Melden macht ja bekanntlich frei) - schützt aber vor Strafe im Regelfall nicht, man ist nach wie vor noch der Dumme face-smile.

Gruß
@clSchak