September 24, 2024

Shopify's aanpak om gebruik te maken van frequente inbedding en clustering om de uitlegbaarheid van gegevens te verbeteren

Shopify's aanpak om gebruik te maken van frequente inbedding en clustering om de uitlegbaarheid van gegevens te verbeteren

Shopify heeft onlangs een Technologieblog Over enkele van hun interne machine learning-processen over hoe ze meer bruikbare inzichten kunnen krijgen op basis van de signalen van hun klanten. Een van de grootste uitdagingen voor elk online bedrijf is het verkrijgen van bruikbare inzichten uit hun gegevens voor besluitvorming. Shopify deelt zijn methodologie en expertise om dit probleem op te lossen door diverse datasets samen te voegen via een unieke methode die dimensionaliteitsreductie, redundantie en begeleid machine learning omvat. Deze aanpak levert robuuste resultaten op en zorgt voor betere inzichten en interpretatie. Het helpt gebruikersonderzoekers en datawetenschappers hun begrip te vergroten, hun oplossingen te verbeteren en efficiënter naar de uiteindelijke oplossing te itereren. Bovendien omvat deze methode een interpretatieve laag, die de validatie van resultaten voor communicatie met belanghebbenden vergemakkelijkt. Het volgende diagram illustreert deze methode op hoog niveau.

Uitgebreid workflowdiagram

Op basis van de blogpost stelde de auteur een methode voor met 4 eenvoudige stappen:

  1. Maak data beheersbaar.
  2. Verzamel het.
  3. Begrijp het (en verwacht het).
  4. Communiceer erover.

De eerste stap in dit proces is het vinden van een manier om de gegevens te visualiseren om deze beter te kunnen beheren. De grootste uitdaging is dat we in de praktijk te maken hebben met hoogdimensionale data. Een praktische benadering is het gebruik van dimensionaliteitsreductietechnieken, zoals analyse van hoofdcomponenten of … PCA. De belangrijkste uitdaging waarmee PCA wordt geconfronteerd, is dat in veel gevallen niet alle informatie in twee dimensies kan worden gepresenteerd. De auteur stelde voor om de nieuwste technieken te gebruiken om het verenigde verdeelstuk te benaderen en te projecteren UMAP In plaats van PCA Het belangrijkste verschil tussen PCA en UMAP is dat UMAP een projectiemethode is die de lokale en globale gelijkenis van punten in de lagere dimensie behoudt en niet-lineair is vergeleken met PCA. Hiermee worden niet-lineaire relaties tussen gegevens vastgelegd. De auteur liet bijvoorbeeld het verschil in resultaten zien bij gebruik Mnist (Gewijzigde dataset van het National Institute of Standards and Technology). MNIST heeft 784 dimensies om geschreven getallen van 0 tot 9 weer te geven De volgende cijfers Laat de verschillen zien.

Zodra we de gegevens visualiseren en een eerste indruk krijgen, moeten we een aantal betekenisvolle groeperingen creëren. Zoals vermeld in het artikel, zou deze groep de volgende kenmerken moeten hebben om de uitleg te vergemakkelijken:

  1. Een punt behoort tot een blok als het blok bestaat.
  2. Als u parameters voor uw groep nodig heeft, maak ze dan intuïtief.
  3. Groepen moeten stabiel zijn, zelfs als de gegevensvolgorde of de startvoorwaarden veranderen

Veel clusteralgoritmen, b.v K-betekent En HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) bestaat op dit gebied. HDBSCAN maakt gebruik van een hiërarchische benadering die clustermethoden combineert met DBSCAN-methoden om robuustere en betekenisvollere clusters te produceren. Uitgebreide experimenten uitgevoerd in Shopify hebben bewezen dat HDBSCAN consequent duidelijkere en stabielere resultaten oplevert.

Bij het nastreven van een dieper begrip van groepsgedrag wordt recursieve toepassing van clustertechnieken essentieel. Dit iteratieve proces zorgt voor een beter inzicht in de complexe dynamiek binnen groepen. Zodra er voldoende clusters zijn gegenereerd, wordt de toepassing van gecontroleerde technieken, in het bijzonder classificatie, van toepassing. Gevestigde classificatiemethodologieën, b.v XGBoostkan als één-voor-alles-model voor elke groep worden gebruikt.

Bovendien: samenvoegen jonge man Het verbetert de interpreteerbaarheid en verduidelijkt de onderliggende motivaties binnen elke groep. Deze dubbele aanpak, waarbij HDBSCAN wordt gecombineerd voor initiële clustering en daaropvolgende classificatie via XGBoost, versterkt door SHAP voor interpreteerbaarheid, vormt een alomvattende methodologie voor het verkrijgen van diepgaande inzichten in het gedrag van diverse populaties.

In de laatste fase is het nodig om de resultaten te communiceren met de data science-groep en andere belanghebbenden en het proces te herhalen om indien nodig tot de uiteindelijke oplossing te komen.

Een vergelijkbare methodologie is ook met succes gebruikt in andere disciplines, zoals Anomaliedetectie in gezondheidsgegevens.

Veel machine learning-ingenieurs vinden dit werk spannend. Zoals iemand op LinkedIn zei Deel dit werk :

Umap en Shap zijn echte gamechangers en essentiële componenten van geavanceerde analyseworkflows