4 redenen waarom big data-projecten mislukken - en 4 manieren om te slagen

Big data-projecten zijn, nou ja, groot in omvang en reikwijdte, vaak erg ambitieus, en maar al te vaak mislukken. In 2016 schatte Gartner dat 60 procent van de big data-projecten mislukte. Een jaar later zei Gartner-analist Nick Heudecker dat zijn bedrijf "te conservatief" was met zijn schatting van 60 procent en het percentage mislukkingen dichter bij 85 procent schatte. Vandaag zegt hij dat er niets is veranderd.

Gartner staat niet alleen in die beoordeling. Bob Muglia, oud-Microsoft-manager en (tot voor kort) CEO van Snowflake Computing, zei tegen de analysesite Datanami: “Ik kan geen gelukkige Hadoop-klant vinden. Zo simpel is het. ... Het aantal klanten dat Hadoop daadwerkelijk met succes heeft getemd, is waarschijnlijk minder dan 20 en mogelijk minder dan tien. Dat is gewoon gek, gezien hoe lang dat product, die technologie op de markt is en hoeveel algemene industrie-energie erin is gestoken. " Hadoop is natuurlijk de motor die de big data-manie heeft gelanceerd.

Andere mensen die bekend zijn met big data, zeggen ook dat het probleem reëel, ernstig en niet alleen technologisch blijft. In feite is technologie een kleine oorzaak van mislukking in vergelijking met de echte boosdoeners. Hier zijn de vier belangrijkste redenen waarom big data-projecten mislukken - en vier belangrijke manieren waarop u kunt slagen.

Big data-probleem nr. 1: slechte integratie

Heudecker zei dat er één groot technologisch probleem schuilgaat achter big data-fouten, en dat is het integreren van siled data uit meerdere bronnen om de inzichten te krijgen die bedrijven willen. Verbindingen leggen met in silo's opgebouwde legacy-systemen is gewoon niet eenvoudig. Integratiekosten zijn vijf tot tien keer de kosten van software, zei hij. “Het grootste probleem is de simpele integratie: hoe koppel je meerdere databronnen aan elkaar om een ​​bepaald resultaat te krijgen? Veel gaan de datameerroute en denken dat als ik alles koppel aan iets magisch zal gebeuren. Dat is niet het geval, ”zei hij.

Siled data is een deel van het probleem. Klanten hebben hem verteld dat ze gegevens uit recordsystemen naar een gemeenschappelijke omgeving zoals een datameer haalden en niet konden achterhalen wat de waarden betekenden. "Als u gegevens naar een datameer trekt, hoe weet u dan wat dat getal 3 betekent?" Heudecker vroeg.

Omdat ze in silo's werken of datameren creëren die slechts datamoerassen zijn, krabben ze slechts aan de oppervlakte van wat ze zouden kunnen bereiken, zei Alan Morrison, een senior research fellow bij PwC. “Ze begrijpen niet alle relaties in gegevens die moeten worden ontgonnen of afgeleid en expliciet gemaakt, zodat machines die gegevens adequaat kunnen interpreteren. Ze moeten een kennisgrafieklaag maken, zodat machines alle instantiegegevens die eronder in kaart zijn gebracht, kunnen interpreteren. Anders heb je zojuist een datameer dat een datamoeras is, ”zei hij.

Big data-probleem nr. 2: ongedefinieerde doelen

Je zou denken dat de meeste mensen die een big data-project ondernemen daadwerkelijk een doel voor ogen hebben, maar een verrassend aantal doet dat niet. Ze starten het project gewoon met het doel als een bijzaak.

'Je moet het probleem goed in kaart brengen. Mensen denken dat ze gestructureerde en ongestructureerde data kunnen verbinden en het inzicht krijgen dat je nodig hebt. U moet het probleem van tevoren goed definiëren. Wat is het inzicht dat u wilt krijgen? Het heeft een duidelijke definitie van het probleem en definieert het goed van tevoren, ”zegt Ray Christopher, productmarketingmanager bij Talend, een softwarebedrijf voor data-integratie.

Joshua Greenbaum, een hoofdanalist bij Enterprise Application Consulting, zei dat een deel van wat zowel big data- als datawarehousing-projecten heeft bemoeilijkt, het belangrijkste leidende criterium is, meestal de accumulatie van grote hoeveelheden gegevens en niet het oplossen van afzonderlijke bedrijfsproblemen.

“Als je grote hoeveelheden data bij elkaar haalt, krijg je een datadump. Ik noem het een sanitaire stortplaats. Stortplaatsen zijn geen goede plek om oplossingen te vinden, ”zei Greenbaum. "Ik vertel klanten altijd welke discrete bedrijfsproblemen eerst moeten worden opgelost en ga daarmee akkoord, en kijk vervolgens naar de kwaliteit van de beschikbare gegevens en los het dataprobleem op zodra het bedrijfsprobleem is geïdentificeerd."

“Waarom mislukken de meeste big data-projecten? Om te beginnen hebben de meeste big data-projectleiders geen visie ”, zegt Morrison van PwC. “Ondernemingen zijn in de war over big data. De meesten denken alleen maar aan numerieke gegevens of black box NLP en herkenningsengines en die doen aan eenvoudige text mining en andere soorten patroonherkenning. "

Big data-probleem nr. 3: de vaardigheidskloof

Te vaak denken bedrijven dat de vaardigheden die ze in huis hebben voor datawarehousing zich zullen vertalen naar big data, terwijl dat duidelijk niet het geval is. Om te beginnen behandelen datawarehousing en big data gegevens op een totaal tegenovergestelde manier: datawarehousing doet schema bij schrijven, wat betekent dat de gegevens worden opgeschoond, verwerkt, gestructureerd en georganiseerd voordat ze ooit het datawarehouse binnengaan.

Bij big data worden gegevens verzameld en wordt het schema bij het lezen toegepast, waarbij de gegevens worden verwerkt terwijl ze worden gelezen. Dus als de gegevensverwerking achteruitgaat van de ene methodologie naar de andere, kun je er zeker van zijn dat vaardigheden en tools dat ook zijn. En dat is slechts een voorbeeld.

“Vaardigheden zullen altijd een uitdaging zijn. Als we het over big data over 30 jaar hebben, zal er nog steeds een uitdaging zijn, ”zei Heudecker. “Veel mensen hangen hun hoed aan Hadoop. Mijn klanten staan ​​voor de uitdaging Hadoop-bronnen te vinden. Spark is een beetje beter omdat die stapel kleiner is en gemakkelijker te trainen. Hadoop bestaat uit tientallen softwarecomponenten. "

Big data-probleem nr. 4: de technologische generatiekloof

Big data-projecten halen vaak uit oudere datasilo's en proberen ze samen te voegen met nieuwe databronnen, zoals sensoren of webverkeer of sociale media. Dat is niet helemaal de schuld van de onderneming, die die gegevens verzamelde in een tijd vóór het idee van big data-analyse, maar het is niettemin een probleem.

"Bijna de grootste vaardigheid die ontbreekt, is de vaardigheid om te begrijpen hoe deze twee belanghebbenden kunnen worden gecombineerd om ze samen te laten werken om complexe problemen op te lossen", aldus adviseur Greenbaum. “Datasilo's kunnen een barrière vormen voor big data-projecten omdat er niets standaard is. Dus als ze naar de planning kijken, ontdekken ze dat deze systemen niet zo zijn geïmplementeerd dat deze gegevens zouden worden hergebruikt, ”zei hij.

"Met verschillende architecturen moet je de verwerking anders doen", zei Christopher van Talend. “Technische vaardigheden en architectuurverschillen waren een veel voorkomende reden waarom je de huidige tools niet kunt gebruiken voor een datawarehouse op locatie en deze niet kunt integreren met een big data-project, omdat die technologieën te duur worden om nieuwe data te verwerken. Dus je hebt Hadoop en Spark nodig, en je moet nieuwe talen leren. "

Big data-oplossing nr. 1: vooruit plannen

Het is een oud cliché maar hier van toepassing: als je niet plant, plan dan te mislukken. "Succesvolle bedrijven zijn degenen die een resultaat hebben", zei Heudecker van Gartner. 'Kies iets kleins en haalbaars en nieuws. Neem geen legacy use-case, want u krijgt beperkingen. "

"Ze moeten eerst over de gegevens nadenken en hun organisaties op een machinaal leesbare manier modelleren, zodat de gegevens die organisatie dienen", aldus Morrison van PwC.

Big data-oplossing nr. 2: werk samen

Al te vaak worden belanghebbenden buiten de big data-projecten gelaten - juist de mensen die de resultaten zouden gebruiken. Als alle belanghebbenden samenwerken, kunnen ze veel obstakels overwinnen, zei Heudecker. "Als de bekwame mensen samenwerken en samenwerken met de zakelijke kant om bruikbare resultaten te leveren, kan dat helpen", zei hij.

Heudecker merkte op dat de bedrijven die slagen in big data fors investeren in de benodigde vaardigheden. Hij ziet dit het meest in datagestuurde bedrijven, zoals financiële diensten, Uber, Lyft en Netflix, waar het fortuin van het bedrijf is gebaseerd op goede, bruikbare data.

“Maak er een teamsport van om te helpen bij het verzamelen en verzamelen van gegevens en het opschonen ervan. Als je dat doet, kan de integriteit van de gegevens ook toenemen, ”zei Christopher van Talend.

Big data-oplossing nr. 3: focus

Mensen lijken de mentaliteit te hebben dat een big data-project enorm en ambitieus moet zijn. Zoals alles wat je voor het eerst leert, is de beste manier om te slagen door klein te beginnen en vervolgens geleidelijk uit te breiden in ambitie en reikwijdte.

"Ze moeten heel precies omschrijven wat ze doen," zei Heudecker. "Ze moeten een probleemdomein kiezen en er eigenaar van zijn, zoals fraudedetectie, microsegmentering van klanten of uitzoeken welk nieuw product ze op een millennial-markt willen introduceren."

"Aan het eind van de dag moet je het inzicht vragen dat je wilt of moet het bedrijfsproces worden gedigitaliseerd", zei Christopher. “Je gooit technologie niet zomaar op een zakelijk probleem; je moet het van tevoren definiëren. Het datameer is een noodzaak, maar je wilt geen data verzamelen als het door niemand in het bedrijfsleven wordt gebruikt. "

Dat betekent in veel gevallen ook dat u uw eigen bedrijf niet overdreven opblaast. “In elk bedrijf dat ik ooit heb bestudeerd, zijn er maar een paar honderd sleutelconcepten en relaties waarop het hele bedrijf draait. Als je dat eenmaal begrijpt, realiseer je je dat al deze miljoenen onderscheidingen slechts kleine variaties zijn op die paar honderd belangrijke dingen, ”zei Morrison van PwC. “In feite ontdek je dat veel van de kleine variaties helemaal geen variaties zijn. Het zijn eigenlijk dezelfde dingen met verschillende namen, verschillende structuren of verschillende labels, ”voegde hij eraan toe.

Big data-oplossing nr. 4: leg de erfenis overboord

Hoewel u misschien die terabytes aan gegevens wilt gebruiken die zijn verzameld en opgeslagen in uw datawarehouse, is het een feit dat u er misschien beter aan doet om u alleen te concentreren op nieuw verzamelde gegevens in opslagsystemen die zijn ontworpen voor big data en die zijn ontworpen om niet op de loer te liggen.

"Ik zou zeker adviseren om niet per se gebonden te zijn aan een bestaande technologie-infrastructuur alleen maar omdat je bedrijf er een licentie voor heeft", zei consultant Greenbaum. “Vaak vereisen nieuwe complexe problemen nieuwe complexe oplossingen. Tien jaar terugvallen op oude tools binnen het bedrijf is niet de juiste manier om te gaan. Veel bedrijven gebruiken oude tools, en het project gaat dood. "

Morrison o = merkte op: "Bedrijven moeten ervoor zorgen dat hun voeten niet meer in hun eigen ondergoed verstrikt raken, maar gewoon de oude architectuur die meer silo's creëert, overboord gooien." Hij zei ook dat ze niet langer moeten verwachten dat leveranciers hun complexe systeemproblemen voor hen oplossen. “Decennialang denken velen dat ze zich uit een big data-probleem kunnen kopen. Elk big data-probleem is een systemisch probleem. Als het gaat om complexe systeemveranderingen, moet je een weg naar buiten bouwen ”, zei hij.