banner
Maison / Nouvelles / Cloudera trace la voie vers une IA responsable à grande échelle
Nouvelles

Cloudera trace la voie vers une IA responsable à grande échelle

Oct 19, 2023Oct 19, 2023

En tant qu'analyste, je regarde Cloudera depuis plusieurs années et j'ai longuement exprimé mon avis. Cloudera résout les problèmes de gestion des données dans les clouds publics et privés, permettant aux clients de gérer et de libérer de la valeur à partir des données. Cloudera est le leader du Big Data depuis plus d'une décennie, avec 25 exaoctets de données sous gestion et utilisés par neuf des dix plus grandes entreprises mondiales d'un secteur donné.

Cloudera a évolué au fil des ans, avec Cloudera 1.0 axé sur la création d'une plate-forme de données d'entreprise open source, Cloudera 2.0 réunissant Hortonworks et Cloudera pour accélérer la voie vers le cloud hybride, et Cloudera 3.0 créant la première véritable plate-forme de données hybride et multi-cloud. . Dans cet article, j'expliquerai pourquoi la plate-forme de données Cloudera (CDP) est bien positionnée pour le nouveau monde de l'IA d'entreprise.

Qu'est-ce qui pourrait mal se passer?

L'IA générative utilise des algorithmes appelés grands modèles de langage (LLM) pour créer de nouveaux contenus sous forme de texte, d'images, d'audio ou de code à l'aide d'instructions en langage naturel.

Des outils d'IA génératifs tels que le train ChatGPT qui fait la une des journaux sur de grandes quantités de données provenant d'Internet avec une qualité, un contenu, une propriété et une confidentialité douteux. Comme beaucoup d'entre vous en ont fait l'expérience, y compris un avocat malheureux récemment, ChatGPT présentera de manière convaincante des résultats véridiques aux côtés d'une désinformation totale, laissant l'utilisateur faire le tri entre les faits et la fiction.

De toute évidence, dans un environnement d'entreprise, cela est inacceptable. Pour les entreprises, le succès de l'IA générative et des LLM associés dépend de la qualité et de la fiabilité des données de formation.

Cloud hybride – toutes les données sont prêtes pour l'IA d'entreprise

Dans CDP, Cloudera a mis en œuvre la vision hybride avec un plan de contrôle unique qui gère un cadre de sécurité et de gouvernance commun sur la plate-forme et tous les services de données. La plate-forme CDP peut déplacer les charges de travail, les données et les métadonnées associées de manière bidirectionnelle entre les clouds publics et privés.

CDP Open Data Lakehouse fournit les « données de base » avec la sécurité, la gouvernance et le contexte d'entreprise à déployer avec des modèles de base sur site ou dans le cloud.

Faire confiance à l'IA commence par faire confiance aux données

Pour que l'IA d'entreprise réussisse, il faut avoir confiance dans les résultats. La confiance consiste à faire confiance aux données sous-jacentes utilisées pour entraîner les modèles. Dans le cadre de l'architecture CDP, Shared Data Experience (SDX) permet de partager la sécurité, la lignée et la gouvernance dans toutes les analyses et les clouds publics et privés.

SDX utilise deux projets open source, Apache Ranger, pour définir, administrer et gérer les politiques de sécurité et Apache Atlas, pour la gestion et la gouvernance des métadonnées, pour construire, classer et gouverner un catalogue d'actifs.

SDX inclut un catalogue de données pour administrer et découvrir tous les actifs de données. Les données sont profilées et enrichies de métadonnées riches, y compris le contexte opérationnel, social et commercial, créant des actifs de données fiables et réutilisables et les rendant détectables.

CDP a la fonctionnalité pour permettre une sécurité, une gouvernance et une conformité holistiques tout au long du cycle de vie des données, y compris des modèles d'apprentissage automatique dans les environnements de production.

La clé ici est la capacité d'expliquer la génération du modèle, les données utilisées pour former le modèle et les origines des données - une source de données précise et complète pour la lignée de l'environnement de production.

Version BYO des modèles GPT et fondation

De nombreux clients utilisent déjà les fonctionnalités de ML dans le cadre de CDP. Le service d'apprentissage automatique de Cloudera est bien établi et couvre l'ensemble du cycle de vie ML, de la science des données expérimentales à la formation et au déploiement de modèles. Cloudera fournit une bibliothèque de prototypes d'apprentissage automatique appliqué (AMP) de bout en bout pour aider les clients à se lancer dans le développement d'applications.

Lors du récent événement d'analystes Six Five Summit, Cloudera a annoncé le chatbot LLM augmenté avec des données d'entreprise en tant que modèle pour l'IA générative de grands modèles de langage en réponse aux clients souhaitant créer une version de GPT et des modèles de base en interne plutôt que de former des données sur plug-ins d'API publics.

Avec Cloudera CDP LLM, AMP, les clients peuvent créer des applications d'IA alimentées par n'importe quel LLM open source avec des données propriétaires, toutes hébergées en interne dans l'entreprise. L'AMP est gratuit dans le cloud public et privé du CDP.

Sous les couvertures, Cloudera utilise des dépendances Python, avec des modèles open source du partenaire Hugging Face, une base de données vectorielle open source pour la recherche sémantique, injectant la base de connaissances d'entreprise dans la base de données vectorielle et créant et exécutant une application Web Python en plus. Cloudera a utilisé des modèles H2O, NovusDB, des documents CML et Gradio pour l'interface utilisateur. Tout est personnalisable et adaptable à un cas d'utilisation spécifique, en utilisant n'importe quel modèle, données, base de données et framework d'application. Avec cet AMP et CML, tout développeur dispose désormais des outils nécessaires pour créer et héberger des applications LLM open source pour l'entreprise.

Emballer

Cloudera est unique en ce qu'il propose une maison de lac hybride de données ouvertes sur des clouds publics et privés à grande échelle. CDP est une plate-forme intégrée qui offre les fonctionnalités d'un entrepôt de données et d'un lac de données.

Cette plate-forme unique fournit la base des solutions d'intelligence d'affaires, d'apprentissage automatique et d'IA tout en tirant parti des innovations open source telles que Iceberg, Airflow et Yunikorn. CDP offre également la flexibilité d'un modèle multi-cloud hybride à déployer sur des clouds publics et privés.

Dans le nouveau monde de l'IA d'entreprise, CDP active l'IA d'entreprise sur toutes les données disponibles en utilisant des modèles fondamentaux et des LLM pour des applications génératives basées sur l'IA de manière sécurisée, fiable et responsable.

En tant que Chief Data Officer (CDO), vous avez besoin d'une capacité complète de cycle de vie des données, ce qui signifie stocker les données de manière efficace et résiliente, canaliser et agréger les données dans des lacs de données et appliquer des algorithmes ML et l'IA pour découvrir des informations exploitables pour les unités commerciales. Vous pourriez assembler une multitude d'outils de pointe et lutter pour les bricoler, mais bonne chance pour parvenir à une sécurité, une lignée et une gouvernance partagées. Cloudera CDP vous offre tout ce dont vous avez besoin et devrait figurer sur votre liste restreinte.

Moor Insights & Strategy fournit ou a fourni des services payants à des entreprises technologiques comme toutes les sociétés d'analyse de l'industrie de la recherche et de la technologie. Ces services comprennent la recherche, l'analyse, le conseil, le conseil, l'analyse comparative, le jumelage d'acquisitions et le parrainage de vidéos et de conférences. La société a eu ou a actuellement des relations commerciales rémunérées avec 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Ampere Computing, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks (maintenant HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Cadence Systems, Campfire, Cisco Systems, Clear Software, Cloudera , Clumio, Cohesity, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries .io, Foxconn, Frame (maintenant VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (maintenant Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, HYCU, IBM, Infinidat, Infoblox, Infosys, Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Juniper Networks, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs , LogicMonitor, LoRa Alliance, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, Multefire Alliance, National Instruments, Neat , NetApp, Nightwatch, NOKIA, Nortek, Novumind, NVIDIA, Nutanix, Nuvia (maintenant Qualcomm), NXP, onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (anciennement Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (maintenant Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (maintenant Cisco), Spirent, Splunk, Sprint (maintenant T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign, TE Connectivity , TensTorrent, Tobii Technology, Teradata,T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zedda, Zendesk , Zoho, Zoom et Zscaler. Patrick Moorhead, fondateur, PDG et analyste en chef de Moor Insights & Strategy, est un investisseur dans dMY Technology Group Inc. VI, Fivestone Partners, Frore Systems, Groq, MemryX, Movandi et Ventana Micro., MemryX, Movandi et Ventana Micro.

Qu'est-ce qui pourrait mal se passer? Cloud hybride - toutes les données sont prêtes pour l'IA d'entreprise Faire confiance à l'IA commence par la confiance des données Version BYO de GPT et modèles de base