Un guide des meilleures pratiques

nVidia vient de dévoiler un guide des meilleures pratiques pour l’écriture de code C pour CUDA. Il veut aider les développeurs à mieux écrire leurs applications pour mieux profiter de la puissance que CUDA peut leur apporter.

Il sera inclus dans CUDA 2.3, prévu pour ce trimestre, mais il est d’ores et déjà disponible pour tous, parce qu’il a été jugé très utile à tous les développeurs pour CUDA, pas forcément des gurus : il est prévu pour tous ceux qui connaissent déjà un peu l’outil.

CUDA 2.3 est parmi nous !

Ce 21 juillet est sortie la version 2.3 de CUDA. Quelques nouveautés sont au menu de cette version, dont voici des extraits choisis.

Les pilotes 190.38 (Windows 32 et 64 bits), 190.18 (Linux 32 et 64 bits), 2.3.1 (Mac OS X et GT200) et 2.3.0 (Mac OS X) contiennent les pilotes pour cette nouvelle version de CUDA.

  • CuFFT a subi une séance d’optimisation, et sur du matériel compatible, peut effectuer des calculs en double précision.
  • Le débogueur est inclus dans le Toolkit, et est compatible avec toutes les distributions Linux.
  • Auparavant, des GPU en SLI étaient vus comme un seul et unique GPU : désormais, chaque GPU peut être commandé séparément, qu’il soit ou non dans un groupe SLI.
  • La cross-compilation devient possible : les toolkits 64 bits peuvent être utilisés pour compiler des applications 32 bits, uniquement sous Linux.
  • De nouveaux exemples sont apportés, pour mieux utiliser la puissance de CUDA.

Vous pouvez télécharger cette nouvelle version sur le site officiel de nVidia.

Cet article se base uniquement sur le communiqué officiel : CUDA Toolkit and SDK 2.3 .

LAPACK et CUDA : CULA

EM Photonics propose désormais, en version beta, un port de la librairie Fortran LAPACK (Linear Algebra Package, paquet pour l’algèbre linéaire), très utilisée dans le monde laborantin. Cette librairie contient BLAS, dont une implémentation orientée CUDA est d’ores et déjà disponible dans le runtime.

Cette version beta est gratuite, mais ne propose des algorithmes que pour des calculs réels de simple précision. La version finale proposera aussi les versions complexes de ces algorithmes, tandis que la double précision sera payante.

Comme beaucoup de librairies portées sur GPU, celle-ci promet de belles performances, autant en simple qu’en double précision : jusqu’à 120x plus rapide, sur certains types de calculs, que l’implémentation de référence ! En moyenne, 95x.
CULA vs Netlib Performance

Comme d’autres librairies pour CUDA, CULA propose de cacher entièrement la partie GPU, en exposant une simple API, peu différente de ce qu’on peut trouver pour du calcul sur CPU.

La librairie sera disponible en deux versions : une gratuite, la Basic, sans double précision mais redistribuable ; une payante (395$ annoncés), avec double précision mais seulement pour usage interne. La première ne supporte que six fonctions de LAPACK, la seconde une quinzaine, et ce chiffre devrait augmenter. Le code source n’est jamais disponible. Au niveau du support, cela varie du forum (Basic, gratuit), aux tickets en ligne (Premium, 395$), et même au téléphone et à l’email (em>Commercial, en volume).