La prochaine génération de transistors 3D pourrait remettre la loi de Moore au goût du jour

Dans l’industrie des semiconducteurs, la loi de Moore suppose que la quantité de transistors sur une puce double tous les deux ans (la taille de ces puces étant limitée par les processus de production). Jusqu’à présent, bien qu’entièrement empirique, elle a été respectée, même si de plus en plus de gens la déclarent morte : il faut maintenant plus de deux ans pour doubler la densité de transistors. Par exemple, Intel a annoncé avoir changé son cycle d’ingénierie des processeurs : le rythme est toujours d’une nouvelle gamme de processeurs par an, une pour l’amélioration du processus physique (Core 5e génération, dite Broadwell, sortie en 2014-2015), une pour l’amélioration de la microarchitecture (Core 6e génération, dite Skylake, sortie en 2015-2016), puis une d’optimisation (Core 7e génération, dite Kaby Lake, qui devrait commencer à arriver dans les rayons fin de cette année 2016).

Cependant, même les industriels ne sont pas toujours entièrement d’accord avec l’affirmation que la loi de Moore est morte : elle pourrait continuer à s’appliquer dans la prochaine décennie grâce à une nouvelle génération de transistors 3D. Chez Intel et les autres fondeurs qui exploitent des processus 14-16 nm, les transistors actuellement gravés sur les processeurs sont déjà en 3D, des FinFET. Plusieurs de ces transistors doivent être associés pour effectuer une opération sur un ou plusieurs bits, c’est-à-dire former une porte logique (par exemple, le complément d’un bit, le ET logique de deux bits, etc.) ; les fonctions intéressantes des processeurs sont obtenues en combinant ces portes logiques.

Adieu CMOS ?

Les idées en cours de développement dans l’industrie partent plutôt sur un changement de paradigme plus profond que simplement des transistors 3D améliorés. Pour former des portes logiques (par exemple, un NOT), ces transistors sont associés en paires : un seul des deux transistors de la paire laisse passer du courant en sortie, l’autre étant bloqué (ce qui permet de choisir la valeur binaire en sortie, selon la tension reliée à chacun des deux transistors). Ces paires sont donc symétriques (chacun des deux transistors effectue la même opération), mais complémentaires (chacun est relié à une tension différente). Ce principe est à la base des technologies CMOS (complementary metal-oxyde semiconductor), prédominantes sur le marché des semiconducteurs depuis les années 1960.

Cette technologie CMOS a bon nombre d’avantages, comme une consommation d’énergie réduite en fonctionnement statique (le transistor consomme une certaine quantité d’énergie pour commuter, mais presque rien sinon) ou une grande immunité au bruit. Par contre, il est très difficile d’assembler les transistors en trois dimensions. Pour augmenter la densité de transistors sur une même puce, la seule solution, dans le paradigme CMOS, est de réduire la taille de chaque transistor : c’est ce qui est fait depuis des années dans l’industrie, en améliorant les processus de lithographie. En passant dans la troisième dimension, il devient possible d’augmenter la densité de transistors sur une même puce sans forcément changer ces transistors. Il n’empêche que les processus de lithographie doivent s’adapter à cette nouvelle manière de penser.

De nouvelles portes logiques

Ce type de construction devient un choix de plus en plus clair : quand la taille de la plus petite altération du silicium tend vers 10 nm, les courants de fuite à travers les transistors deviennent problématiques. À l’horizon 2020-2025, la situation aura empiré, puisque la lithographie aura atteint des précisions de gravure de quelques nanomètres, c’est-à-dire à peine quelques dizaines d’atomes (un atome de silicium a un diamètre de 0,22 nm). À cela s’ajouteront d’autres problèmes d’ordre quantique (l’effet tunnel permettra à des électrons de franchir un transistor).

Dans cette ère nanoscopique, l’électronique CMOS serait remplacée par des transistors à spin ou des transistors à effet tunnel (TFET), afin de réduire la consommation énergétique (le facteur limitant des processeurs actuels). Ces TFET peuvent fonctionner à des tensions bien plus faibles que les transistors actuels tout en ayant un courant de fuite très faible ; de même, les transistors à spin consomment peu d’énergie (ils stockent l’information dans le spin d’électrons) et seraient très adaptés au stockage non volatil.

Avantages de la construction 3D

Actuellement, cette technique de construction en 3D est nommée 3D power scaling par les industriels. Une version proche est déjà sur le marché : plusieurs couches de silicium sont empilées et connectées verticalement par des TSV, mais chaque couche garde sa logique CMOS. Ces TSV sont à l’origine de la mémoire HBM ou HMC, où les principales difficultés d’assemblage viennent de l’alignement parfait requis entre les différentes couches. 3DPS éviterait ce problème, puisque les transistors seraient construits aussi à la verticale dans un seul processus intégré.

La mémoire NAND (utilisée pour les cartes mémoires et les SSD) utilise déjà des procédés de type 3DPS, avec trente-deux à soixante-quatre couches (notamment chez Samsung). Les industriels estiment que l’avenir des semiconducteurs en général est dans ces puces multicouches, y compris pour les processeurs, voire pour l’électronique de puissance. Le plus gros problème est la dissipation de l’énergie consommée : la chaleur serait alors bien plus concentrée, la recherche de transistors bien moins énergivores est un prérequis indispensable à un déploiement à plus grande échelle des processus 3D ; peut-être faudrait-il alors penser à refroidir les puces de l’intérieur.

Cette nouvelle manière de penser l’organisation des puces aurait d’autres avantages, notamment celui de pouvoir intégrer bien d’autres composants directement sur la même puce que le processeur : les registres pourraient être situés sous les cœurs de calcul, la mémoire à quelques niveaux de la partie calcul du processeur, d’autres circuits pourraient aussi être intégrés. Ainsi, les distances entre toutes ces parties seraient fortement réduites, ce qui limiterait de facto les délais de propagation et pourrait augmenter de manière phénoménale la puissance de calcul disponible. Aussi, les canaux de transmission auraient une section utile bien plus importante qu’actuellement, ce qui limiterait l’impact du bruit.

La recherche est toujours en cours au niveau des transistors adaptés à ces nouvelles directions, mais les industriels ont bon espoir et estiment qu’ils devraient arriver en production dans la prochaine décennie. Bien qu’ils évitent toute annonce au niveau des gains en performance ou des coûts, ils estiment que, grâce à ces technologies, la loi de Moore pourrait même être dépassée.

Source : Next-Generation 3D Transistors Could Rejuvenate Moore’s Law.
Voir aussi : rapport ITRS 2015 (chapitre 9).

FUJITSU passe à l’architecture ARM pour ses prochains superordinateurs

Dans le dernier classement des superordinateurs les plus puissants, FUJITSU classe une de ses machines à la cinquième position, la plus puissante au monde en dehors de la Chine et des États-Unis (elle était la plus puissante lors de sa construction, en 2011) ; elle est installée chez RIKEN, le plus grand institut de recherche japonais. K utilise des processeurs avec une architecture SPARC64, quand la majorité des supercalculateurs listés utilise la plus conventionnelle x86, la même qui équipe la majorité des ordinateurs personnels.

Cependant, FUJITSU abandonne le SPARC64 pour ses prochains superordinateurs : la société japonaise passera à l’ARM, architecture actuellement reine dans les applications embarquées, notamment les téléphones portables. Cette annonce a été faite à la conférence ISC, lors de la présentation sur le futur des superordinateurs de la marque, dont le remplaçant du K installé chez RIKEN. Il vise l’échelle de l’exaflops (comme les Américains) pour 2020.

Au niveau technologique, la microarchitecture de ces futurs processeurs (qui sert à implémenter les instructions accessibles en assembleur) devrait être similaire à l’actuelle, mais l’architecture ARM devrait mieux l’exploiter, selon les dires de FUJITSU. Actuellement, peu de détails sont cependant disponibles au niveau technique, le projet devant aboutir d’ici à peu près quatre ans.

La stratégie de FUJITSU semble se réorienter : alors que leur avantage compétitif s’amenuise, ils devaient réagir et exploiter un écosystème déjà existant (afin de limiter en partie leurs coûts, vu la faible production en systèmes HPC de FUJITSU). Trois architectures principales coexistent dans le secteur HPC : x86 (Intel et AMD), POWER (IBM) et ARM. La gamme de serveurs FUJITSU inclut les PRIMERGY, qui utilisent des processeurs Intel x86 : il restait à faire un choix entre ARM et POWER.

Le côté ARM est nettement moins développé que POWER pour du calcul scientifique de très haute performance, ce qui laisse une chance à FUJITSU de se différentier (seul Cavium est présent sur ce marché, avec ses ThunderX). De plus, la communauté ARM a une grande expérience quand il s’agit de diminuer la consommation énergétique, à cause des besoins des applications mobiles. Cependant, l’architecture ARM aura besoin d’extensions pour les applications HPC, notamment pour vectoriser les opérations de calcul : FUJITSU travaille main dans la main avec ARM.

Le marché HPC semble récemment se dynamiser, la position dominante d’Intel étant mise à mal : tant par IBM et son architecture POWER que les accélérateurs NVIDIA ou FUJITSU, avec l’arrivée d’AMD sur ce marché.

Source et image : Fujitsu Switches Horses for Post-K Supercomputer, Will Ride ARM into Exascale.

IBM annonce sa feuille de route pour son architecture POWER9

Dans le monde des serveurs, Intel règne à peu près sans partage en ce qui concerne les processeurs utilisés, notamment avec sa gamme de Xeon. Cependant, sa place est convoitée dans ce marche lucratif : d’un côté par ARM, des processeurs bien plus simples et qui permettent de stocker plus de processeurs avec plus de cœurs (bien plus lents) pour la même consommation énergétique ; de l’autre par IBM et son architecture POWER, concurrent de longue date d’Intel (une architecture de la même famille que les PowerPC chers à Apple, avant de passer chez Intel il y a dix ans).

Après avoir lancé l’OpenPOWER Foundation en 2013 avec la nouvelle version de son architecture POWER8, voici venu, pour IBM, le temps des premières annonces sur sa prochaine architecture, dénommée POWER9. La caractéristique mise en avant est que ces processeurs POWER9 auront vingt-quatre cœurs (par rapport aux vingt-deux proposés récemment par Intel dans ses Xeon E5 v4), soit le double de la génération actuelle POWER8 ; ils devraient arriver dans la seconde moitié de 2017 et seront utilisés pour le supercalculateur américain Summit.

Quelques détails plus croustillants sont d’ores et déjà disponibles sur le processeur lui-même : la gravure se fera en 14 nm (comme les processeurs Intel de dernière génération, par exemple) par GlobalFoundries. Il utilisera de la mémoire vive DDR4 et profitera d’un grand cache à faible latence de type eDRAM (comme certains processeurs Intel actuels). Au niveau communication, les entrées-sorties se feront par PCIe 4.0, les accélérateurs seront connectés par NVLink 2.0 (technologie propriétaire NVIDIA — une version améliorée par rapport aux GPU actuels Pascal) ou CAPI 2.0 (technologie ouverte du consortium OpenPOWER, notamment pour utiliser des FPGA). Chaque processeur aura des parties spécifiques pour la compression et la cryptographie, afin d’accélérer ces parties du traitement (ce qui donne des indications sur les marchés visés, comme les serveurs Web). Les serveurs seront prévus pour accueillir deux de ces processeurs.

Pendant la présentation d’IBM, Google est venu présenter son utilisation de cette architecture, en remplacement des processeurs Intel. Bon nombre de leurs services Web ont migré vers des systèmes POWER, ce qui a été une opération somme toute assez mineure au niveau logiciel pour eux : Google garde ses logiciels indépendants de la plateforme d’exécution, ce qui permet d’effectuer des tests sur d’autres architectures rapidement (comme des processeurs ARM ou POWER).

Google doit garder son matériel toujours à la pointe, afin de rester dans la compétition pour ses différents services et répondre à une demande toujours croissante. Par exemple, sur une dizaine d’années, le nombre de pages Web indexées a été multiplié par un facteur soixante. Depuis 2012, Gmail a vu son nombre d’utilisateurs actifs multiplié par deux ; quand YouTube recevait sept heures de vidéo chaque minute, il doit maintenant en traiter quatre cents chaque minute, à encoder de différentes manières pour les offrir aux visiteurs plus tard.

La société doit en plus limiter ses coûts : la technologie avançant, il est de plus en plus cher de réduire la taille des transistors… et donc d’augmenter la performance fournie pour chaque dollar investi dans l’infrastructure (de la construction à la maintenance). L’architecture POWER semble leur permettre d’atteindre ces objectifs. Google travaille justement avec Rackspace au développement de baies POWER9, sous le nom de Zaius. Intel ne sort pas complètement de leur infrastructure, mais une bonne partie utilise maintenant les processeurs d’IBM, compétitifs avec la solution d’Intel.

Sources : Power9: Google gives Intel a chip-flip migraine, IBM tries to lures big biz (dont l’image), IBM Fires a Shot at Intel with its Latest POWER Roadmap.

Intel concurrence NVIDIA avec son nouveau Xeon Phi Knights Landing

Annoncée il y a de cela un an, la nouvelle mouture des processeurs Intel Xeon Phi, nom de code Knights Landing, était annoncée : ces processeurs sont maintenant livrés aux fournisseurs de matériel HPC. Avec ces nouvelles puces, Intel vise le même segment que NVIDIA avec ses cartes graphiques (GPU) de génération Pascal : l’apprentissage profond, le calcul scientifique de haute performance (HPC).

Actuellement, quatre modèles sont disponibles, avec un nombre de cœurs variable (de soixante-quatre à septante-deux) et des fréquences aussi variables (entre 1,3 et 1,5 GHz), des caractéristiques proches des GPU actuels comme NVIDIA Pascal. Tous sont livrés avec seize gigaoctets de mémoire vive (MCDRAM), empilée et très proche du processeur, pour une bande passante de presque cinq cents gigaoctets par seconde. Ces différentes puces représentent des compromis différents : la plus puissante (7290, 3,46 Tflops) est la plus chère (6294 $), avec un produit bien plus abordable au niveau du téraflops par euro (7210 à 2438 $ pour 2,66 Tflops) ; l’une optimise le ratio performance par watt (7250, 3,05 Tflops pour 215 W, là où le 7290 fournit 3,46 Tflops pour 245 W) et la dernière la mémoire disponible par cœur (7230, soixante-quatre cœurs, comme le 7210, mais la mémoire a une fréquence plus élevée).

Au niveau des chiffres bruts, ces processeurs ne dépassent pas l’offre de NVIDIA : « à peine » trois téraflops et demi pour le plus haut de gamme, quand les GPU NVIDIA Pascal atteignent cinq téraflops (et une bande passante de cinquante pour cent plus élevée, à sept cent vingt gigaoctets par seconde). Par contre, selon les applications, à cause de la différence d’architecture fondamentale, les résultats varient énormément (les Xeon Phi sont organisés comme des processeurs traditionnels : chaque cœur peut exécuter une instruction propre, contrairement aux GPU, où la même instruction est exécutée sur un grand nombre de cœurs). Ainsi, pour de la simulation de dynamique moléculaire, pour le test de performance LAMPPS, un Xeon Phi de milieu de gamme (7250) a fonctionné cinq fois plus vite en consommant huit fois moins de mémoire qu’un GPU NVIDIA K80 (la génération précédant les Pascal). Pour de la visualisation par lancer de rayon, Intel indique être cinq fois plus rapide ; le facteur descend à trois pour de la simulation de risque financier. Ces comparaisons ne sont pas entièrement équitables, à cause de la différence d’âge entre les processeurs, mais donnent la tendance qu’Intel veut montrer. Ces résultats devront être confirmés par des indépendants pour être fiables.

Parmi les tests de performance, Intel s’est aussi orienté vers l’apprentissage profond, branche dans laquelle NVIDIA s’impose actuellement. Ce domaine est actuellement à la pointe de la recherche, avec des résultats de plus en plus intéressants : c’est grâce à des techniques de ce genre que Google a pu battre le joueur le plus fort au monde au jeu de go. Sur un même jeu de test, un Xeon Phi 7250 a obtenu sa réponse en cinquante fois moins de temps qu’un seul processeur traditionnel ; avec quatre tels Xeon Phi, les temps de calcul ont été réduits d’un facteur deux par rapport à quatre GPU NVIDIA K80.

Intel précise également qu’il est plus facile de programmer ses processeurs Xeon Phi : ils embarquent beaucoup plus de cœurs, mais c’est la seule différence avec les processeurs habituels de nos PC, alors qu’il faut réécrire complètement son code (ou utiliser des API adaptées) pour les GPU, avec une phase d’optimisation du code qui nécessite des compétences plus spécifiques. La nouvelle génération de Xeon Phi apporte cependant une distinction plus importante : ces processeurs Intel pourront être utilisés comme processeurs principaux (pas seulement comme cartes d’extension), ce qui évite les opérations de transfert de données, très limitantes pour la performance des applications actuelles. Il reste cependant à déterminer si ces processeurs seront suffisamment rapides pour effectuer toutes les opérations des applications qui leur sont soumises (ils fonctionnent à une fréquence réduite par rapport aux processeurs habituels : ils excellent dans le traitement parallèle, mais pas en série, qui constitue parfois une part importante du code à exécuter).

Ni ces nouveaux Xeon Phi ni les GPU NVIDIA Pascal ne sont actuellement utilisés à grande échelle pour du calcul scientifique. Cependant, ces premiers résultats montrent que les deux jouent dans la même cour. Si les mesures d’Intel se généralisent, ils deviendront un concurrent plus que très sérieux de NVIDIA, notamment dans le marché en expansion de l’apprentissage profond ; s’ils ont en plus l’avantage du prix, la dominance de NVIDIA sera vite mise à mal.

Sources : Intel Takes on NVIDIA with Knights Landing Launch, Intel’s Knights Landing: Fresh x86 Xeon Phi lineup for HPC and AI, Intel Xeon Phi Knights Landing Now Shipping; Omni Path Update, Too.

Merci à Claude Leloup pour sa relecture orthographique.

L’avenir des circuits intégrés passe par la troisième dimension, selon Samsung

Depuis plus d’une décennie, le paradigme principal pour la conception de puces électroniques était d’assembler une série de transistors sur un plan. Ainsi, par exemple, Samsung est passé d’une technologie 120 nm en 2003 à du 16 nm en 2014, avec une amélioration chaque année au niveau de la finesse de gravure, en moyenne. Cependant, les améliorations se font au prix de processus de plus en plus compliqués, notamment au niveau de l’exposition des circuits : pour dessiner les transistors, un laser est utilisé à travers un masque, avec différents processus optiques pour atteindre les finesses de gravure actuelles (de nouvelles techniques sont en cours d’exploration, comme les EUV). Actuellement, les processus les plus avancés utilisent une exposition en quatre phases, ce qui nécessite une préparation des galettes de silicium en amont de plus en plus coûteuse : les étapes de dépôt et d’attaque chimique de la surface représentent maintenant les deux tiers du coût de fabrication d’une galette.

Cependant, cette manière de procéder doit évoluer, notamment à cause des difficultés à faire progresser les technologies d’impression de circuits tout en maintenant des coûts raisonnables. Pour ce faire, une technique actuelle est de combiner plusieurs circuits dans une même puce, comme le font déjà AMD et NVIDIA pour leurs processeurs graphiques (pas tous, loin de là !) ou encore Altera : la partie mémoire HBM2 est superposée au processeur principal.

De son côté, Samsung va encore plus loin : dès 2014, le fondeur coréen pousse l’idée de superposition encore plus loin pour leurs composants de mémoire. Une telle puce est composée de trois types de couches :

  • une couche CMOS pour toute la partie auxiliaire du composant, les contrôleurs ;
  • plusieurs couches formant un tableau de mémoire, là où les valeurs sont effectivement stockées ;
  • une structure d’interconnexion entre les deux types de couches.

Les contrôleurs et l’interconnexion sont des couches planaires tout à fait traditionnelles, alors que la mémoire proprement dite exploite un procédé tout à fait spécifique, en trois dimensions — schématiquement, un film de silicium est déposé, puis une première couche de transistors est créée, l’opération est répétée un grand nombre de fois. L’information est alors stockée le long d’une chaîne de cellules, au lieu d’une seule cellule : pour en agrandir une, il suffit de déposer un plus grand nombre de couches.

L’un des avantages est que les cellules sont plus grandes et peuvent contenir plus d’électrons, ce qui aide à améliorer certaines caractéristiques comme la vitesse ou l’endurance, par rapport aux technologies purement planaires.

Pour les chiffres, la densité peut beaucoup augmenter : par rapport à quelques mégaoctets par millimètre carré en 2003 à plus 1,1 Go en 2014 à raison de trois bits par cellule, la première génération 3D ne montait qu’à 0,97 Go le millimètre carré, en 2014, avec deux bits par cellule et vingt-quatre couches. Depuis lors, le processus s’améliore : en 2015, avec trente-deux couches, il était possible de stocker trois bits par cellule (1,86 Go/mm²) ; cette année, en montant à quarante-huit couches, la densité monte à 2,62 Go/mm², toujours avec trois bits par cellule. Dans le futur, de nouvelles couches devraient s’ajouter, avec à l’horizon 2020 cent vingt-huit couches, quatre bits par cellule, pour une densité de 8,67 Go/mm² (plus de huit fois la densité actuelle).

Actuellement, la technologie de Samsung reste relativement expérimentale, elle n’est pas prête pour la production de masse : les rendements sont relativement faibles, mais s’amélioreront avec l’expérience. Micron planche sur des techniques similaires et, d’après les premières expériences, une production avec trente-deux couches serait vingt-cinq pour cent moins chère par bit mémorisé que le même composant en technologie 16 nm. Les coûts de production d’une galette augmentent, mais il semblerait que ce soit dans des proportions raisonnables.

Source (dont image) : 3D NAND – Moore’s Law in the third dimension.

Retours du symposium annuel de TSMC : le 10 nm en 2017, le 7 nm en 2018

Fin mars avait lieu le symposium annuel de TSMC, où le fondeur de semiconducteurs présente l’état de son commerce, mais aussi les avancées (notamment technologiques), comme les nouveaux processus de fabrication de puces. Cette habitude persiste depuis 1995, avec une édition chaque année, sans interruption. Cette fois, le symposium avait pour slogan Unleash Your Innovation : en pratique, cela signifie que TSMC étend considérablement son offre pour faciliter l’innovation du côté de ses clients.

Le marché des semiconducteurs se divise en trois types de société : les intégrées, qui comme Intel conçoivent les puces au niveau abstrait (en manipulant des portes logiques, avec des outils d’EDA) et s’occupent de leur réalisation effective sur du silicium (y compris la recherche nécessaire pour améliorer le processus), puis celles qui se spécialisent dans l’une des deux branches. ARM, AMD, NVIDIA ou encore Apple font partie de celles qui ne s’occupent que de la conception des circuits, elles sont dites fabless ; au contraire, TSMC ou GlobalFoundries s’occupent de la réalisation de ces circuits.

TSMC est une société qui se porte bien : dans sa niche, elle compte 470 clients, avec une moyenne d’un nouveau client par semaine (!). Elle fabrique 8900 produits différents, avec ses 220 technologies en cours d’exploitation : ainsi, par an, TSMC produit 10 milliards de puces. L’entreprise investit toujours : elle prévoit un total de 2,2 milliards de dollars en recherche pour la seule année 2016, a achevé la construction d’un nouveau bâtiment dans son usine Fab 12 de Hsinchu (pour la production de circuits en 7 nm) et de trois nouveaux pour la Fab 14 à Tainan (pour le 16 nm), quatre autres sont prévus à Tainan (pour le 5 nm) et deux sont en cours de construction à la Fab 15 de Taichung (pour le 10 nm). Toutes ces usines se situent à Taïwan, un autre site est prévu en Chine pour une mise en production à la fin 2018.

Une diversification des processus existants

TSMC continue à produire des semiconducteurs dans différents nœuds, pas toujours très proches de sa plus haute finesse de gravure (le 16 nm, actuellement) : ces processus plus anciens ont l’avantage d’être mieux maîtrisés, notamment au niveau des coûts. L’objectif principal de TSMC est d’améliorer la consommation énergétique (de l’ordre de vingt à trente pour cent), notamment avec ses 55ULP et 40ULP (respectivement, en 55 nm et 40 nm), dont les premières versions ont été introduites dans la période 2006-2008 ; côté 28 nm, le 28HPC+ promet d’améliorer la performance (fréquence des puces) et de diminuer encore la consommation énergétique (tension d’alimentation). Ces trois améliorations de processus existants conviendront aux applications de type « Internet des objets » de milieu de gamme.

Le haut de gamme en très basse consommation revient aux processus les plus modernes, le 16FFC (avec des transistors FinFET plus compacts). Il s’agit d’une amélioration du 16 nm existant, le 16FF+, en production de masse depuis le troisième trimestre de 2015 : la principale différence est une tension d’alimentation de 0,55 V (par rapport au 0,7 V actuels), soit une diminution de consommation de l’ordre de cinquante pour cent. Cette évolution vient à contrecarrer les plans initiaux sur le 16 nm : les premières annonces indiquaient que les clients les plus sensibles aux questions de coûts resteraient probablement très longtemps sur le 28 nm ; maintenant, un an plus tard, TSMC prévoit d’augmenter sa capacité de production.

Les prochains processus : 10 nm en 2017, 7 nm en 2018

TSMC est plus que très confiant sur son 10 nm : les premières puces devraient sortir fin de cette année, la production en volume de puces arrive en 2017, avec de l’ordre de 200 000 galettes de silicium par trimestre (300 000 par trimestres prévues en 16 nm pour 2016).

Cependant, ce processus devrait être une transition très rapide vers le 7 nm : seulement deux bâtiments devraient produire dans ce processus (pas d’autre prévu en construction), le 7 nm devant arriver… l’année d’après. Par conséquent, certains clients comme Xilinx ont d’ores et déjà annoncé qu’ils passeront complètement le nœud 10 nm et ne quitteront le 16 nm que pour le 7 nm.

La justification du côté de TSMC est que le 7 nm réutilisera 95 % de l’équipement du 10 nm, qui sera donc maîtrisé. Par contre, la densité en transistors augmentera d’un facteur 1,63 entre le 10 et le 7 nm, à comparer à un facteur 1,9 entre le 28 et le 20 nm.

Le 7 nm sera disponible, dès le début, en deux versions : l’une orientée mobilité et basse consommation, l’autre pour la haute performance (l’habitude est plus de concentrer sur une version au début, puis d’en développer de nouvelles, comme les 55ULP, 40ULP ou encore 16FFC). La première gagnerait trente à quarante pour cent en consommation énergétique et quinze à vingt pour cent en performance, jusque vingt-cinq pour cent en performance pour la deuxième version (pour atteindre des fréquences de l’ordre de quatre gigahertz).

Sources : Key Takeaways from the TSMC Technology Symposium Part 1, Key Takeaways from the TSMC Technology Symposium Part 2, TSMC Adding Near-threshold Voltage Operation at 16nm.

Les transistors nanomagnétiques atteignent les limites fondamentales

Les processeurs actuels sont principalement limités par leur consommation énergétique : il n’est pas possible de garder tous les transistors d’une même puce allumés simultanément, car la densité d’énergie est beaucoup trop importante — chaque millimètre carré consomme trop d’énergie, la puce brûlerait à coup sûr sans désactiver des parties. Ce phénomène a conduit à la notion de silicium noir, c’est-à-dire les parties qui ne peuvent pas être utilisées à un instant donné dans un processeur. Un domaine de recherche dans les semiconducteurs concerne donc la création de transistors qui consomment nettement moins d’énergie (et donc dissipent moins de chaleur).

En 1961, des chercheurs d’IBM ont déterminé une limite absolue dans la consommation d’énergie d’un transistor (la limite de Landauer) : en effet, d’un point de vue thermodynamique, la bascule d’un transistor n’est pas réversible, ce qui s’accompagne inévitablement de pertes d’énergie (en application de la seconde loi de la thermodynamique). Cette valeur a été déterminée comme trois zeptojoules (3 10^-21 joules). A contrario, des transistors actuels optimisés pour la consommation d’énergie se placent au niveau de la picojoule, c’est-à-dire 10^-12 joules, soit un milliard de fois plus que le minimum théorique (!), pour la réalisation de puces mémoire magnétiques par transfert de spin (STT-MRAM). Les transistors plus courants consomment encore plus d’énergie.

En 2012, une équipe allemande a, pour la première fois, démontré expérimentalement que cette limite inférieure de consommation pouvait être atteinte. Ils ont, pour ce faire, utilisé une pince optique pour déplacer des perles de verre de deux microns de large (similaires à des bits) entre deux puits de potentiel. Une équipe américaine vient de montrer un résultat similaire, mais bien plus directement applicable à l’électronique : ils ont directement manipulé des bits faits d’aimants à l’échelle nanométrique. Ce genre d’aimants est déjà à la base des disques durs magnétiques actuels, mais également des mémoires de type STT-MRAM.

Des aimants nanométriques stockent l’information par la direction du champ magnétique de l’aimant. Avec un champ magnétique externe, les chercheurs ont pu inverser l’orientation du champ des aimants. En mesurant très précisément l’intensité et l’orientation du champ de l’aimant en fonction du champ extérieur, ils ont pu déterminer que cette opération consommait en moyenne six zeptajoules à température ambiante, soit le double de la limite de Landauer (sans compter, donc, la génération du champ utilisé pour manipuler les aimants). L’équipe estime que la différence par rapport à la limite théorique est principalement due à de légères variations dans l’orientation des nanoaimants : en effet, selon des simulations numériques, des nanoaimants idéaux atteignent exactement cette limite.

Cependant, ces progrès n’auront aucun impact sur les transistors utilisés dans les processeurs grand public à court terme, ni probablement à moyen terme : cette expérience marque un pas dans le passage entre la recherche fondamentale en physique et la recherche appliquée dans les transistors, mais il reste encore de nombreuses années avant une arrivée sur le marché.

Source (y compris l’image) et plus de détails : Zeptojoule Nanomagnetic Switch Measures Fundamental Limit of Computing.

Lithographie par rayonnement ultraviolet extrême : l’arrivée en production se précise

Le rayonnement ultraviolet extrême (en anglais, EUV) correspond à un rayonnement électromagnétique de très haute énergie, avec des longueurs d’onde de 124 à 10 nm (avec une énergie par photon de dix à cent fois supérieure à celle de la lumière visible). Cette technologie est en cours de déploiement chez bon nombre de fabricants de semi-conducteurs comme Intel ou TSMC. En effet, pour créer des circuits électroniques de plus en plus petits (ou emmagasinant autant de transistors sur une même surface) et consommant moins d’énergie, leur stratégie principale est d’augmenter la finesse de gravure de leurs circuits : un transistor plus petit a un courant de fuite plus faible, ce qui diminue sa consommation énergétique et donc le refroidissement nécessaire des composants.

Grâce à ces nouvelles techniques, ils pourront descendre encore dans leur finesse de gravure, actuellement à 14 nm chez Intel (même si ces appellations sont trompeuses, chaque fabricant décidant de la définition physique de cette finesse de gravure). À titre de comparaison, actuellement, la lithographie moderne se base sur des processus d’ultraviolets profonds, avec une longueur d’onde de 193 nm ; la technologie EUV propose une longueur d’onde à 13,5 nm. Initialement, cette dernière était prévue pour le 10 nm en 2016, mais les plans actuels font plutôt état d’une arrivée vers le 7 nm, voire 5 nm (sans compter les pistes d’amélioration en remplaçant le silicium par un autre semi-conducteur, comme l’arséniure de gallium et d’indium).

Fin février a eu lieu la conférence SPIE pour la lithographie avancée, où les différents fabricants ont pu présenter leurs avancées dans le domaine de la lithographie EUV : c’est l’occasion de se plonger dans les principes de fabrication des processeurs.

Techniques de lithographie

Plus précisément, la lithographie est la partie de la fabrication de puces qui impose la forme des transistors sur les galettes de silicium, à l’aide d’un masque : à certains endroits, le masque laisse passer le rayonnement électromagnétique, pas à d’autres ; là où il passe, la couche supérieure de la galette est abîmée, ce qui forme un morceau de transistor. Le processus est très similaire à la photographie argentique, où la lumière expose le film (ce qui correspond à la lithographie), des étapes ultérieures étant nécessaires pour exploiter l’image.

Le problème, c’est que la source d’ondes a une longueur d’onde de 193 nm, alors que les détails de gravure sont de l’ordre de 14 nm. Pour compenser la différence, un appareillage d’optique est utilisé pour augmenter la résolution et limiter la zone d’exposition, tout en réduisant les aberrations optiques (qui produisent des circuits défectueux). Plusieurs passages avec des masques différents peuvent être requis.

Les mêmes techniques sont utilisées depuis des années pour la production de puces, en raffinant l’emploi des différents outils, notamment l’usage de masques de plus en plus nombreux. C’est pourquoi les fabricants ont souvent du mal à produire de grandes quantités de processeurs rapidement lors du passage à la génération suivante : il faut adapter finement toute une série de paramètres qui limitent le nombre de puces viables produites par ce processus. Une telle transition est donc toujours risquée d’un point de vue financier.

Et l’EUV ?

Une nouvelle technologie comme l’EUV réduirait fortement ces risques : grâce à la longueur d’onde bien plus courte (13,5 nm), il deviendrait plus facile de générer des motifs très précis sur les galettes sans devoir utiliser un trop grand nombre d’expositions. Cependant, la source lumineuse doit avoir une puissance suffisante : sinon, une exposition prendra trop de temps pour avoir l’effet escompté sur la galette de silicium. Cette difficulté a beaucoup ralenti l’emploi de l’EUV dans la lithographie actuelle : la production horaire de puces est trop faible pour une échelle industrielle.

Là où les processus actuels utilisent directement un laser dans les ultraviolets (dit « à excimère »), une technologie maîtrisée dès les années 1970, l’EUV nécessite un plasma, c’est-à-dire de la matière chauffée à très haute température ou insérée dans un champ électromagnétique très intense. ASML produit les machines d’exposition aux EUV utilisées par tous les fabricants de puces pour le moment.

Il y a deux ans, la puissance maximale était de 40 W ; l’année dernière, ils arrivaient à produire des sources à 85 W, maintenant à 185 W en laboratoire, puis 250 W d’ici à 2017, le niveau requis pour une utilisation commerciale. Des puissances supérieures sont prévues dans le laps de temps 2018-2019. Les plans initiaux prévoyaient cependant d’atteindre les 250 W en 2013, puis en 2015… la différence est que la cible est maintenant beaucoup plus proche (il leur reste à augmenter la puissance d’un quart, pas de la multiplie par plus de cinq). Ces progrès ont surtout été possible en comprenant plus finement la physique derrière la génération des plasmas.

Globalement, l’arrivée en production se précise. Intel arrive déjà à produire des puces 22 nm avec cette technologie. Les machines d’ASML atteignent des taux de disponibilité de 70 % (ils plafonnaient à 55 % il y a deux ans), un seuil encore loin des 95 % des machines actuellement utilisées en production. Intel et TSMC arrivent à produire jusque 500 galettes par jour pendant quatre semaines d’affilée — chez TSMC, les technologies actuelles permettent de produire 50 000 galettes par jour. TSMC envisage d’utiliser ce processus pour les puces à 5 nm, Intel ne se risque pas à avancer de date — rejoignant implicitement les rangs des plus pessimistes, qui prédisent que l’EUV n’a de chance d’être utilisé que s’il arrive suffisamment tôt en production, avant d’autres améliorations.

Sources et images : EUV Lithography Makes Good Progress, Still Not Ready for Prime Time, An Introduction to Semiconductor Physics, Technology, and Industry, EUV Lithography’s Prospects Are Brightening, TSMC and Intel on the Long Road to EUV.

Merci à Claude Leloup pour ses corrections.

CNTK, la solution de Microsoft pour l’apprentissage profond, devient libre

Il y a peu, Google a mis à disposition des développeurs TensorFlow, sa solution d’apprentissage profond, une technique d’apprentissage automatique qui exploite principalement des réseaux neuronaux de très grande taille : l’idée est de laisser l’ordinateur trouver lui-même, dans sa phase d’apprentissage, des abstractions de haut niveau par rapport aux données disponibles. Par exemple, pour reconnaître des chiffres dans des images, ces techniques détermineront une manière d’analyser l’image, d’en récupérer les éléments intéressants, en plus de la manière de traiter ces caractéristiques et d’en inférer le chiffre qui correspond à l’image.

Microsoft vient tout juste d’annoncer sa solution concurrente, nommée CNTK (computational network toolkit), elle aussi disponible gratuitement sous une licence libre de type MIT sur GitHub. Cette annonce poursuit la série d’ouvertures de code annoncées par Microsoft dernièrement, comme ChakraCore, son moteur JavaScript.

Ces développements ont eu lieu dans le cadre de la recherche sur la reconnaissance vocale : les équipes de Microsoft estimaient que les solutions actuelles avaient tendance à les ralentir dans leurs avancées. Quelques chercheurs se sont lancés dans l’aventure d’écrire eux-mêmes un code de réseaux neuronaux très efficace, accéléré par GPU… et leurs efforts ont porté leurs fruits, puisque, selon leurs tests, CNTK est plus efficace que Theano, TensorFlow, Torch7 ou Caffe, les solutions les plus avancées dans le domaine du logiciel libre.

Microsoft n’est pas la seule société à beaucoup parier sur les GPU : NVIDIA également croit fort aux GPU pour accélérer l’apprentissage profond. Pour la sortie de la dernière version de CUDA, la solution de NVIDIA pour le calcul sur GPU, leur bibliothèque cuDNN proposait un gain d’un facteur deux pour l’apprentissage d’un réseau.

L’avantage des GPU dans le domaine est multiple. Tout d’abord, leur architecture s’adapte bien au type de calculs à effectuer. Ensuite, ils proposent une grande puissance de calcul pour un prix raisonnable : pour obtenir la même rapidité avec des processeurs traditionnels (CPU), il faudrait débourser des milliers d’euros, par rapport à une carte graphique à plusieurs centaines d’euros à ajouter dans une machine existante. Ainsi, les moyens à investir pour commencer à utiliser les techniques d’apprentissage profonds sont relativement limités. Cependant, la mise à l’échelle est plus difficile : l’apprentissage sur plusieurs GPU en parallèle est relativement difficile, toutes les bibliothèques ne le permettent pas. Pour réaliser de véritables progrès algorithmiques, il faut sortir le carnet de chèques, avec des grappes de machines, nettement moins abordables.

Source : Microsoft releases CNTK, its open source deep learning toolkit, on GitHub.

AMD prépare une nouvelle structure d’interconnexion

Pour les serveurs et plus particulièrement encore le calcul de haute performance (notamment sur superordinateur), les bus traditionnel pour connecter les différences parties d’un ordinateur (processeur principal — CPU —, accélérateurs — GPU, APU, FPGA…) deviennent limitants : avec de piètres débit et latence en comparaison des possibilités des éléments connectés, ils brident quelque peu le matériel utilisé — mais la situation ne s’améliorera pas avec les nouvelles générations. AMD, souhaitant se relancer dans ces marchés très juteux, est en train de développer sa propre solution, que l’on ne manquera pas de comparer à la solution concurrente NVLINK de NVIDIA (qui devrait débarquer cette année sur le marché).

Actuellement, des cartes graphiques comme les AMD Radeon R9 Fury ou NVIDIA Tesla K80 fournissent une belle capacité de calcul, mais elle n’est pas suffisante pour les besoins des utilisateurs les plus exigeants. AMD pourrait mieux répondre à ces besoins en alignant une série de ces cartes et en leur permettant de bien communiquer entre elles (sans devoir passer par le processeur central). Idéalement, cet assemblage devrait s’utiliser comme une seule et unique carte, beaucoup plus puissante, mais cela n’est actuellement pas vraiment possible, notamment à cause des limitations des technologies pour lier ces cartes (CrossFire chez AMD, SLI chez NVIDIA). Ces nouvelles structures d’interconnexion ne devraient pas se limiter aux cartes graphiques, mais devraient s’ouvrir à d’autres types d’accélérateurs, comme des FPGA.

La solution d’AMD, toujours en cours de développement, devrait offrir des débits de l’ordre de cent gigabits par seconde entre processeurs (contre une trentaine pour la prochaine version de PCI Express, attendue pour 2017), à comparer au double pour NVLINK. La différence principale est cependant que l’approche de NVIDIA ne fonctionne qu’entre processeurs NVIDIA et IBM POWER (deux superordinateurs utilisant cette technologie ont déjà été commandés), alors que AMD est plus ouvert, en mettant l’accent sur des normes ouvertes.

Source : AMD Talks Next Generation Coherent Interconnect Fabric Connecting Polaris GPUs, Zen CPUs and HPC APUs.