A beszerzés leírása
A beszerzés tárgya egy HPC (High Performance Computing System) szuperszámítógép szállítása – a csatolt műszaki leírásban részletezett feltételeknek megfelelően –, amely a Debreceni Egyetem telephelyén lévő, de a KIFÜ által üzemeltetett Szuperszámítógép Központba kerül elhelyezésre. Továbbá része a beszerzésnek a HPC rendszerhez integrált adattárolók, gépészeti eszközök leszállítása, üzembehelyezése, integrációja és működtetésének támogatása.
A HPC rendszernek legalább a következőkben felsorolt logikai komponensekből kell felépülnie:
— Adatfeldolgozási egység: Univerzális számítási partíció (CPU), Gyorsított számítási partíció (GPGPU), Mesterséges intelligencia (MI) partíció, Big Data partíció,
— Adattárolási egység: Átmeneti tároló (scratch, staging) SCRATCH, Home (felhasználói könyvtárak) PROJECT, INFRA tároló, Archívum/HSM réteg, Szalagkönyvtár,
— Kiegészítő hardver elemek: management node-ok (bootolás, konfigurálás, monitorozás, diagnosztizálás) és login node-ok (felhasználók számára az elérési pont)
— Hálózati eszközök (a belső összeköttetések és a távoli elérhetőség biztosítása)
— Szoftver elemek
A számításokat végző adatfeldolgozási egységnek a legkisebb energia fogyasztással a legnagyobb számítási teljesítményt kell nyújtania, és architektúrájában támogassa a legkülönfélébb alkalmazás és algoritmus típusokat. Az adatfeldolgozási egység mind a négy partíciójának tartalmaznia kell x86 architektúrára épülő hagyományos processzorokat (CPU-kat). Az adatfeldolgozási egység partícióinak összességében el kell érniük az 5000 Tflops Rpeak teljesítményt. Az összes partíció számítási csomópontjait úgy kell kialakítani, hogy mind a memóriaelérés, mind pedig az I/O műveletek elérhető sebessége illeszkedjen a feldolgozó egységek sebességéhez, ne legyen szűk keresztmetszet.
Az univerzális és gyorsított számítási partíciók generált hőmennyiségét legalább 95 %-ban a számítási csomópontonkénti direkt hűtéssel, legalább 32 Celsius fok hőmérsékletű bemenő folyadékkal kell hűteni.
A megajánlott rendszer többi erre alkalmas komponensének (szalagkönyvtár kivételével) hőelvezetését szintén folyadékhűtéses technológiával kell elvezetni, zárt rack technológia alkalmazásával.
Az adattárolási egységnek a felhasználás teljes folyamatát támogatni kell. Mindezt úgy, hogy nagyon nagy mennyiségű adat kezelése is gyors, hatékony és megbízható legyen, és a feldolgozó egységek sebességét nem korlátozva, a kívánt gyorsasággal hajtsa végre a műveleteket. A rendszerek és az adattárolási egység hálózati bekötése is redundáns kell legyen, azaz a környezet nem tartalmazhat olyan elemet, melynek hibája esetén az adattárolási egység elérhetetlenné válna. Az adattárolási egység részének tekintjük a kapcsolódó (pl. menedzser, metaadat, export, mover) szervereket is, így ezek tekintetében szintén elvárt a nagy megbízhatóság. A redundancia helyreállítása kivitelezhető kell legyen az adattárolási egység leállása nélkül. Kapcsolódó szerverek esetén egy szerver meghibásodása után a javított (vagy csere) szerver rendszerbe visszaállítása is leállás nélkül kell megtörténjen. A különböző igényeknek megfelelően az adattárolási egység egyes részei különböző technológiával kerüljenek kialakításra. A nagy tömegű adatok tárolásához diszkeket vagy SSD-ket, míg a hosszú távú, biztonságos és költséghatékony megőrzéshez szalagos technológiát tartalmazzon a szállított rendszer.
A számítási (compute) alrendszer által támasztott várható terhelést figyelembe véve az adattárolás alrendszer kialakítását úgy kell megtervezni, hogy két, speciálisan hangolt fájlrendszert szolgáltasson: SCRATCH, PROJECT (home). E két rétegnek egymástól és az adatfeldolgozási egységtől is függetlennek kell lennie, a teljesítmény béli elvárásokat a többi rétegtől/alrendszertől függetlenül kell teljesítenie.
A kiegészítő hardver elemek a rendszer elérhetőségét, használhatóságát és menedzselését/üzemeltetését támogatják. Az üzembiztonság szempontjából fontos szolgáltatásoknak támogatniuk kell a HA-t (magas rendelkezésre állást) redundáns módon. A rendszer esetében elvárás, hogy megfelelő számú boot node-ot tartalmazzon a legfeljebb 20 perces teljes számítási rendszert magába foglaló hidegindítási idő eléréséhez. Továbbá legalább 4 db login node-ot tartalmazzon a rendszer interaktív elérésének biztosításához megfelelő redundanciával a magas rendelkezésre álláshoz, és a számítási csomópontokon történő számításokhoz kapcsolódó elő- és utó számítások és műveletek elvégzéséhez (pl. kódok fordítása). Ezeknek el kell érniük a nagysebességű, az Ethernet és a management hálózatot is, a nagysebességű hálózatot 200 Gbit-es sávszélességgel.
A hálózati eszközök kiépítése során legalább három hálózat kiépítése szükséges: Nagysebességű hálózat, Ethernet hálózat, Management hálózat. A nagysebességű hálózati megoldás legalább 200Gbit/s átvitelre legyen képes, amely a tárolókat és számítási egységeket egyetlen speciális topológiájú hálózatba rendezi.
A szállítandó rendszernek telepítve és bekonfigurálva tartalmaznia kell a működéshez szükséges szoftver komponenseket, minimálisan: az operációs rendszert az összes eszközre, firmware-t, driver-eket, klaszter menedzsert, megosztott tároló megoldást és monitorozást, amelyek a teljes rendszer hatékony működéséhez szükségesek.
A rendszer a hagyományostól eltérő hűtési megoldást, a szerverekhez kapcsolódó folyadékhűtést igényel. A csatolt kiviteli tervdokumentációban minden abban szereplő műszaki megoldásra kiterjedő ajánlatot kell benyújtani.
A projekt során szállított termékek megbízható üzemeltetéséhez szükséges összes szaktudást, a KIFÜ telephelyén rendezett, videó folyamként rögzített magyar vagy angol nyelvű személyes tréning sorozaton keresztül kell átadni.
Ajánlatkérő a teljes telepítésen, tesztelésen és a megrendelt szolgáltatások üzemeltetésre történő átadásán túl 60 óra emelt szintű mérnöki konzultációs lehetőséget kér, amelynek tárgya a HPC géptermi integrációjával, a szállított hardver-, és szoftver komponensekkel, valamint azok integrációjával és optimalizációjával kapcsolatos.