Infrastruktur

Unsere Infrastruktur umfasst zwei Cluster: WIRKsam und Solar.

WIRKsam Cluster:

Das WIRKsam Cluster ist ein spezielles Forschungscluster für das verteilte Training von Machine Learning-Anwendungen auf umfangreichen Datensätzen. Es besteht aus zwei Head Nodes und acht Worker Nodes. Die interne Vernetzung erfolgt mit einer Geschwindigkeit von 2×10 Gigabit/s.

•	SYS: PowerEdge R7525
•	RAM: 512 GB DDR4
•	CPU: 2x AMD EPYC 7313 16 Cores
•	GPU: NVIDIA H100 PCIe
•	HDD: 8x8TB NL-SAS

Mobile Data Science Workstation:


Data Group Nodes

Die Cluster bestehen jeweils aus acht Nodes. Die Nodes sind alle gleich aufgebaut:

Software

Im Big Data Lab kommen viele verschiedene Anwendungen koordiniert zum Einsatz, um die Dienste anzubieten. Wir setzen wann immer möglich auf quelloffene Software und passen die Dienste nach unseren Bedürfnissen an.

In der folgenden Übersicht ist unsere Lambda-Architektur erkennbar.

Die Daten werden über Apache Kafka eingespeist und innerhalb eines Hadoop HDFS persistiert. Der Zugriff auf persistierte oder im Stream befindliche Daten geschieht vorrangig über Drill Cluster oder Spark Worker. Wir bevorzugen die Entwicklung in Python 3.

Wir arbeiten auch mit gängigen Datenbankmanagementsystemen wie PostgreSQL und verteilten Datenspeichersystemen wie Elastic und MongoDB.