Search Archieven - Elk Factory

voorbij zoekwoorden met semantic search en image search

Sien Vdm — Tue, 14 May 2024 15:03:56 +0000

voorbij zoekwoorden met semantic search en image search

Het snel vinden van precieze informatie kan het verschil maken tussen voorlopen of achterblijven. Hier komt semantic search in beeld, een verfijnde alternatieve methode voor traditionele zoekmethoden op basis van sleutelwoorden. In tegenstelling tot conventionele zoekopdrachten die vaak irrelevante resultaten opleveren door starre sleutelwoordafhankelijkheden, begrijpt semantic search de intentie en contextuele betekenis achter zoekopdrachten. Deze geavanceerde benadering levert aanzienlijk relevantere resultaten, zelfs wanneer exacte sleutelwoorden niet worden gebruikt. In dit artikel benadrukken we de verbeterde resultaten van door AI aangedreven zoekopdrachten en leggen we uit waarom industrieën deze technologie steeds vaker omarmen.

A. Zoekopdrachten Transformeren met Semantic Search

voorbeeld 1

Bij de zoekopdracht “Banks that went bankrupt,” kunnen traditionele zoekmachines, die gebruikmaken van algoritmen zoals BM25, een lijst met resultaten ophalen die de gerelateerde termen bevatten. Dit beantwoordt echter niet altijd de onderliggende vraag van de gebruiker over welke banken daadwerkelijk failliet zijn gegaan. Hier kan een standaardmodel zoals BM25 irrelevante antwoorden geven, waarbij ‘Banks’ als een achternaam wordt beschouwd, waardoor de zoekresultaten een lijst van mensen met de naam Banks tonen in plaats van echte banken die failliet zijn gegaan.

Semantic search daarentegen, biedt betere resultaten door de bredere context van “bankrupt” in relatie tot “Banks” te begrijpen. Het kijkt niet alleen naar de sleutelwoorden maar interpreteert de betekenis, en brengt artikelen of gegevens naar voren die specifiek over banken gaan die faillissement hebben aangevraagd, zelfs als de bewoording in de documenten niet exact overeenkomt met de zoektermen.

voorbeeld 2

Hoe vindt je de beste resultaten als de zoekopdracht geen van de sleutelwoorden bevat die in je zoektaak worden gebruikt? Een andere zoekopdracht, “hoe snel moet mijn internet zijn,” toont hoe semantic search diverse uitdrukkingen aanpakt die tot dezelfde vraag leiden. Traditionele zoekopdrachten kunnen je naar algemene artikelen over internetsnelheden of technische specificaties leiden, die mogelijk niet direct ingaan op jouw persoonlijke of zakelijke behoeften.

Bij semantic search worden niet alleen de woorden, maar ook de intentie erachter verwerkt. Het koppelt de zoekopdracht effectief aan gerelateerde termen zoals “vereiste verbindingssnelheid voor streaming” of “internetsnelheid aanbevelingen voor gamen,” en biedt gerichte en zeer relevante resultaten. Dit is vooral nuttig voor bedrijven die specifieke operationele vereisten willen begrijpen of individuen die hun thuisnetwerk willen optimaliseren. Bekijk de volgende video voor meer informatie:

Waarom Bedrijven beter Belang Hechten aan Semantic Search

Voor bedrijfsleiders betekent de adoptie van semantische zoektechnologie verbeterde efficiëntie en tevredenheid – zowel voor interne belanghebbenden als klanten. Intern besparen medewerkers tijd en frustratie door snel de exacte informatie te vinden die ze nodig hebben. Extern genieten klanten van een soepelere, intuïtievere interactie met je digitale platforms, wat hun algehele ervaring en de reputatie van je merk verbetert.

Naarmate data in volume en complexiteit blijft groeien, wordt het vermogen om snel de meest relevante informatie te vinden steeds crucialer. Semantic search vindt niet alleen sleutelwoorden; het vindt betekenissen, wat essentieel is voor het sneller nemen van geïnformeerde beslissingen.

B. zoekopdrachten transformeren met image search

Neem bijvoorbeeld de praktische toepassing binnen de mode- en detailhandelsindustrieën. Raccoons ontwikkelde een systeem in samenwerking met Elk Factory waarbij gebruikers kunnen zoeken met zoekopdrachten zoals “blauw T-shirt met klein Nike-logo” in de zoekbalk. In plaats van alleen te scannen naar tekstuele overeenkomsten, interpreteert de zoekmachine de zoekopdracht om de betekenis achter elk element te begrijpen. Het resultaat? De zoekmachine toont afbeeldingen van blauwe T-shirts met een klein Nike-logo, precies overeenkomend met het verzoek van de gebruiker. Dit is mogelijk omdat de zoekmachine geavanceerde algoritmen gebruikt om de kenmerken van kledingstukken in zijn database te analyseren, zoals kleur, merklogo’s en designelementen, en deze kenmerken koppelt aan de intentie van de zoekopdracht.

Deze technologie vereenvoudigt niet alleen de gebruikerservaring door meer natuurlijke taalinput mogelijk te maken, maar verbetert ook de nauwkeurigheid van de zoekresultaten. Klanten en medewerkers kunnen precies vinden wat ze zoeken met minimale inspanning, waardoor zoektijden worden verkort en de tevredenheid toeneemt.

De Technische Kant: Een Dubbele Benadering van het Automatiseren van Beeldtagging

Voor deze demonstratie gebruikten we Gemini om het taggen van 16.000 afbeeldingen te automatiseren. Deze benadering omvatte:

Gestructureerde Beschrijvingen: Gemini haalde nauwkeurige kenmerken zoals kledingtype, kleur en patroon op.
Tekstuele Beschrijvingen: Het genereerde ook natuurlijke taalbeschrijvingen voor elke afbeelding.
Gegevensintegratie: Deze beschrijvingen werden samengevoegd in een JSON-bestand voor elke afbeelding, waardoor een uitgebreide, doorzoekbare dataset in Elastic werd gecreëerd.

In de demo gebruikten Raccoons een dubbele zoekstrategie om de mogelijkheden van Elastic en Gemini te benadrukken:

Tekstuele Inbedding: Met behulp van het ElserV2-model van Elastic transformeerden we tekstbeschrijvingen in doorzoekbare inbeddingen, waardoor de granulariteit van zoekresultaten werd verbeterd.
Gestructureerde Zoekopdrachttransformatie: Gemini verwerkte gebruikerszoekopdrachten in gestructureerde zoekvelden, waardoor afbeeldingen konden worden opgehaald op basis van specifieke attributen die in de zoekopdracht waren gedefinieerd.

Deze demo toonde niet alleen hoe semantic search zoekresultaten kan verfijnen, maar demonstreerde ook de efficiëntie in het omgaan met grote datasets met minimale menselijke inspanning. Door geavanceerde AI-tools zoals Elastic en Gemini te integreren, lieten we zien dat bedrijven waardevolle gegevens uit uitgebreide beeldbibliotheken kunnen ontsluiten, waardoor rijkere klantervaringen en gestroomlijnde operaties mogelijk worden.

de impact van image search op bedrijven

Voor bedrijven zijn de implicaties van dergelijke technologie diepgaand. Detailhandelbedrijven kunnen een verbeterde online winkelervaring bieden, waardoor klanten producten kunnen vinden via zeer specifieke beschrijvingen. Deze mogelijkheid kan de conversieratio’s en klantloyaliteit aanzienlijk verbeteren, aangezien shoppers snel precies vinden wat ze nodig hebben. Intern kunnen bedrijven hun voorraden effectiever beheren. Medewerkers kunnen items lokaliseren of voorraadniveaus controleren met eenvoudige zoekopdrachten, waardoor operaties en voorraadbeheer worden gestroomlijnd.

c. conclusie: de toekomst van zoeken omarmen

De verschuiving van sleutelwoordgericht naar semantisch en image search vertegenwoordigt een belangrijke stap voorwaarts in informatieretrievaltechnologie. Voor bedrijven die hun zoekmogelijkheden willen verbeteren, belooft het niet alleen de informatieontdekking te verfijnen, maar ook te transformeren hoe kennis wordt benaderd en benut in verschillende industrieën.

Naarmate meer bedrijven de voordelen van deze technologie erkennen en implementeren, kunnen we een toename in productiviteit en een scherpere concurrentiepositie verwachten. Door de nuances en toepassingen van semantisch en image search te begrijpen, kunnen bedrijven ervoor zorgen dat ze niet alleen bijblijven, maar de leiding nemen in de informatiegedreven economie.

[contact-form-7]

Het bericht voorbij zoekwoorden met semantic search en image search verscheen eerst op Elk Factory.

Wees de concurrentie voor met AI

Sien Vdm — Fri, 22 Mar 2024 15:10:57 +0000

WEES CONCURRENTIE VOOR MET AI

De behoefte aan efficiënte en intuïtieve zoekfunctionaliteiten was nog nooit zo groot. Traditionele zoekmethoden op basis van trefwoorden, hoewel effectief voor bepaalde taken, schieten vaak tekort als het gaat om het begrijpen van de nuances in taal of visuele informatie. Hier biedt Elastic vector search een nieuwe benadering voor hoe bedrijven omgaan met informatieophaling en aanbevelingssystemen. In dit artikel zullen we verder ingaan op de verschillende gebruiksscenario’s waarin vector search technologie toegevoegde waarde kan bieden.

A. WAAROM vector search BELANGRIJK IS VOOR BEDRIJVEN

In de kern wordt vector search aangedreven door het concept van gelijkenis. In plaats van alleen te vertrouwen op exacte trefwoordmatches, begrijpt het de semantische context van gegevens, wat zorgt voor nauwkeurigere en relevantere resultaten. Deze mogelijkheid opent een wereld aan mogelijkheden voor bedrijven in verschillende industrieën.

1. Semantic search

E-commerce: Stel je een winkelervaring voor waar je niet beperkt bent door specifieke trefwoorden. Met vector search kunnen klanten producten vinden op basis van hun voorkeuren, zelfs als ze die anders uitdrukken. Shopify heeft bijvoorbeeld een semantic search tool gelanceerd voor zijn klanten om de online winkelervaring intuïtiever te maken. Lees hier meer.

(Foto bron: Shopify)

Media & entertainment: Het ontdekken van content wordt kinderspel aangezien vectorzoeken audio- of tekstkenmerken analyseert, waardoor aanbevelingen mogelijk zijn op basis van stemming, genre of stijl. Denk aan Spotify, dat afspeellijsten maakt op basis van je luistergedrag.

(Foto bron: Promoly)

Aanbevelingssystemen:

Nieuws & artikelen: Vector search gaat verder dan oppervlakkige aanbevelingen door de onderliggende thema’s of sentimenten van content te begrijpen, om gepersonaliseerde suggesties te bieden.

E-commerce: Door diverse factoren zoals demografie en browsegedrag in overweging te nemen, kunnen bedrijven productaanbevelingen verbeteren, wat leidt tot hogere betrokkenheid en conversies. Bijvoorbeeld, als je door een kledingwebsite bladert en klikt op een broek, dan zal de website andere vergelijkbare broeken of kledingstukken aanbevelen die je mogelijk interessant vindt:

(Schermafbeelding bron: Zalando)

Klantenservice Chatbots

Het bieden van op maat gemaakte antwoorden op gebruikersvragen wordt naadloos met vector search, wat de klanttevredenheid verhoogt en de reactietijden vermindert. Deze gepersonaliseerde aanpak verhoogt de klanttevredenheid en verkort de reactietijden aanzienlijk, wat zorgt voor een soepele en efficiënte ervaring.

Natural Language Processing (NLP) taken:

Van documentclassificatie tot sentimentanalyse, vector search stroomlijnt NLP-taken door de betekenis en toon van tekst te ontcijferen, wat een efficiëntere gegevensverwerking mogelijk maakt.

Een voorbeeld gericht op documentclassificatie illustreert het volgende: Stel we hebben een verzameling nieuwsartikelen gecategoriseerd als “technologie” en “sport”. Met vectorzoeken vertegenwoordigen we elk artikel als een numerieke vector op basis van de inhoud. Wanneer een nieuw artikel wordt geïntroduceerd, vergelijkt vectorzoeken het met bestaande artikelen en wijst het (automatisch) toe aan de categorie met de meest vergelijkbare artikelen, wat efficiënte documentclassificatie mogelijk maakt.

Om dit voorbeeld te illustreren, zochten we naar een artikel gerelateerd aan ‘Tiktok’ op de website van Forbes, en kregen automatisch gerelateerde Tiktok-nieuwsartikelen te zien:

(Schermafbeelding bron: Forbes)

2. Image search

Vector search kan niet alleen worden gebruikt voor semantic search scenario’s. Bovendien kan image similarity search veel toegevoegde waarde bieden voor verschillende industrieën.

Image Search:
Van het identificeren van objecten en scènes tot het ondersteunen van toegankelijkheid voor visueel beperkte gebruikers, image search aangedreven door vector technologie transformeert visuele informatie in bruikbare inzichten. Laten we het voorbeeld van PcFruit verkennen. In de landbouwindustrie revolutioneert image search bessenteelt door snelle en nauwkeurige identificatie van bessensoorten mogelijk te maken. Door afbeeldingen van bessen te maken en belangrijke kenmerken zoals vorm en kleur te analyseren, kunnen boeren oogstschema’s optimaliseren en het voorraadbeheer verbeteren. Verken de volledige casus hier.

(Foto bron: Brainjar)

B. Integratie van Generative AI

Door de mogelijkheden van generative AI te benutten naast semantic search, kunnen bedrijven processen zoals klantenservice, documentensamenvatting en informatiesynthese optimaliseren, waardoor de productiviteit en besluitvormingsefficiëntie worden verhoogd.

Voorbeelden van synergie: generative AI en semantic search

Verbeterde klantenservice: Op GenAI gebaseerde vraag-antwoordoplossingen stellen zowel servicebalie medewerkers als klanten in staat, de nauwkeurigheid en efficiëntie van reacties te verbeteren.

Documentensynthese: Vector search in combinatie met generative AI kan bevindingen uit uiteenlopende bronnen synthetiseren, waardoor snel toegang tot relevante informatie mogelijk is.

Informatiesamenvatting: Door belangrijke inzichten uit uitgebreid onderzoek samen te vatten, kunnen bedrijven sneller geïnformeerde beslissingen nemen, wat innovatie en groei stimuleert.

Geautomatiseerd juridisch onderzoek: Juridische firma’s kunnen semantic search gebruiken om door enorme hoeveelheden juridische documenten en precedents te zeven. Door integratie met generative AI kunnen ze automatisch samenvattingen, overzichten of analyses genereren op basis van specifieke zaakdetails, wat tijd en middelen bespaart.

Ondersteuning bij medische diagnoses: Zorgverleners kunnen semantic search gebruiken om patiëntendossiers, medische literatuur en diagnostische rapporten te analyseren. Gecombineerd met generatieve AI, kan deze technologie helpen bij het genereren van differentiële diagnoses of behandelingsaanbevelingen, waardoor artsen worden ondersteund in besluitvormingsprocessen.

Financiële analyse en voorspelling: In de financiële sector kan semantic search worden gebruikt om inzichten te extraheren uit financiële rapporten, nieuwsartikelen en marktgegevens. Wanneer geïntegreerd met generative AI, kan het helpen bij het genereren van financiële modellen, het voorspellen van trends en het automatiseren van rapportgeneratie voor investeringsanalyse of risicobeoordeling.

CONCLUSIE: DE TOEKOMST VAN INFORMATIEOPHALING OMARMEN

Vector search integreren in bedrijfsprocessen gaat niet alleen over voorop blijven lopen, het gaat over het herdefiniëren van hoe we omgaan met gegevens. Door de kracht van semantic search en beeldherkenning te omarmen, kunnen bedrijven gepersonaliseerde ervaringen leveren, operaties optimaliseren en ontstaan er nieuwe groeimogelijkheden. Naarmate technologie blijft evolueren, zijn de mogelijkheden van vector search en de synergiën met generatieve AI grenzeloos, wat belooft dat informatieophaling niet alleen efficiënt maar werkelijk transformatief zal zijn.

Neem vandaag nog contact op met Elk Factory om te ontdekken hoe wij uw bedrijf kunnen transformeren met vector search.

[contact-form-7]

Het bericht Wees de concurrentie voor met AI verscheen eerst op Elk Factory.

Zoekefficiëntie verbeteren met semantic search en Elastic technologie

Sien Vdm — Fri, 22 Mar 2024 14:19:41 +0000

Zoekefficiëntie verbeteren met semantic search en Elastic technologie

Efficiënte zoekmogelijkheden zijn belangrijk voor bedrijven om zinvolle inzichten te verkrijgen en voor te blijven op de concurrentie. Traditionele op trefwoorden gebaseerde zoekmethoden schieten vaak tekort in het leveren van nauwkeurige en relevante resultaten, wat leidt tot frustratie en inefficiëntie onder gebruikers. Ontdek meer over semantic search, een technologie die de kracht van natuurlijke taalverwerking (NLP) benut om uw zoekervaring te revolutioneren. In dit artikel onderzoeken we hoe semantic search samenwerkt met Elastic Technologie om superieure zoekmogelijkheden te bieden en zakelijk succes te stimuleren.

Semantic search gaat verder dan eenvoudige trefwoordmatching door het begrip van de context, intentie en betekenis achter zoekopdrachten te begrijpen. Door de semantiek van taal te analyseren, waaronder synoniemen, concepten en relaties tussen woorden, kunnen semantische zoekmachines nauwkeurigere en contextueel relevantere resultaten leveren. Deze functionaliteit is vooral waardevol in sectoren zoals overheid, e-commerce, gezondheidszorg en financiën, waar precisie en nauwkeurigheid zeer belangrijk zijn.

Hierbij een voorbeeld om het belangrijkste verschil tussen trefwoordzoekopdrachten en semantic search te visualiseren:

Een nadere blik op de verschillen tussen traditionele “trefwoordzoekopdrachten” en “AI-aangedreven zoekresultaten en antwoorden” onthullen het transformerende potentieel van de op AI-gebaseerde Elasticsearch. We benadrukken de verbeterde resultaten die worden geleverd door op AI-gebaseerde zoekopdrachten, waardoor duidelijk wordt waarom sectoren deze technologie steeds meer omarmen. Let op dat de verbeterde resultaten afkomstig zijn van de out-of-the-box Elasticsearch-functionaliteiten:

Om meer te weten te komen over dit voorbeeld, klik hier.

SEMANTIC SEARCH IN ELASTIC TECHNOLOGIE

Elastic biedt een krachtig platform voor het implementeren van semantic search-mogelijkheden, dankzij zijn krachtige indexering, zoek- en analysemogelijkheden. Zo werkt semantic search samen met Elastic Technologie:

Natuurlijke taalverwerking (NLP)

Elastic maakt gebruik van geavanceerde NLP-algoritmen om ongestructureerde tekstgegevens te ontleden en analyseren, waarbij belangrijke concepten, entiteiten en relaties worden geëxtraheerd. Dit stelt de zoekmachine in staat om de betekenis en context van gebruikersquery’s te begrijpen, wat leidt tot nauwkeurigere zoekresultaten.

Semantische indexering

Elastic indexeert de geanalyseerde tekstgegevens met behulp van semantische metagegevens, zoals entiteitstypen, attributen en relaties. Deze semantische indexering maakt het voor de zoekmachine mogelijk om relevante documenten op te halen op basis van de semantische gelijkenis tussen de query en geïndexeerde inhoud, in plaats van alleen te vertrouwen op trefwoordovereenkomsten.

Op concepten gebaseerde opvraging

Wanneer een gebruiker een zoekopdracht invoert, haalt Elastic documenten op die semantisch gerelateerde concepten bevatten, zelfs als deze niet expliciet overeenkomen met de query-trefwoorden. Deze op concepten gebaseerde opvraging zorgt ervoor dat gebruikers uitgebreide en relevante resultaten ontvangen, waardoor hun zoekervaring wordt verbeterd.

Query-uitbreiding en -verduidelijking

Elastic breidt en verduidelijkt automatisch gebruikersquery’s uit door synoniemen, varianten en gerelateerde concepten te identificeren. Dit helpt gebruikers hun zoekopdrachten te verfijnen en relevante informatie te ontdekken die aanvankelijk misschien niet duidelijk was.

Relevantierangschikking

Elastic maakt gebruik van geavanceerde relevantierangschikkingsalgoritmen om zoekresultaten te prioriteren op basis van hun semantische relevantie voor de gebruikersquery. Door factoren zoals context, entiteitssalientie en documentkwaliteit te overwegen, zorgt Elastic ervoor dat de meest relevante en gezaghebbende inhoud bovenaan de zoekresultaten verschijnt.

Door semantic search-mogelijkheden te integreren in hun applicaties en websites met behulp van Elastic Technologie, kunnen bedrijven een overvloed aan voordelen benutten:

Verbeterde zoeknauwkeurigheid

Semantic search verbetert de nauwkeurigheid en precisie van zoekresultaten, waardoor gebruikers de benodigde informatie snel en moeiteloos kunnen vinden.

Verbeterde gebruikerservaring

Door de intentie en context van de gebruiker te begrijpen, leveren semantic search engines een meer intuïtieve en gepersonaliseerde zoekervaring, wat leidt tot hogere gebruikerstevredenheid en betrokkenheid.

Verhoogde productiviteit

Met semantic search kunnen werknemers en websitebezoekers efficiënter toegang krijgen tot relevante documenten, inzichten en kennisbronnen, waardoor de productiviteit en effectiviteit van besluitvorming worden verhoogd.

Historisch gezien vereisten Elasticsearch en App Search handmatig beheer van synoniemen, boosts en gewichten om relevantie in zoekresultaten te verfijnen. Met de introductie van Elastic semantic search zijn deze handmatige taken niet langer nodig. Elastic semantic search maakt gebruik van geavanceerde algoritmen en technieken voor natuurlijke taalverwerking om de relevantieafstemming automatisch af te handelen, waardoor zoekresultaten zeer nauwkeurig en contextueel relevant zijn zonder de noodzaak van handmatig ingrijpen. Dit bespaart niet alleen tijd en middelen voor bedrijven, maar verbetert ook de algehele zoekervaring voor gebruikers door meer nauwkeurige resultaten te leveren die zijn aangepast aan hun behoeften en voorkeuren.

Competitief voordeel

Bedrijven die gebruik maken van semantic search krijgen een concurrentievoordeel door superieure zoekmogelijkheden te bieden die die van hun concurrenten overtreffen, wat leidt tot een grotere klantenloyaliteit en marktaandeel.

Tot slot vertegenwoordigt semantic search aangedreven door Elastic Technologie de volgende stap in informatieherstel en kennisontdekking. Door de semantische mogelijkheden van Elastic te benutten, kunnen bedrijven hun zoekervaringen naar nieuwe hoogten tillen, innovatie, efficiëntie en succes stimuleren in het digitale tijdperk.

Implementeer semantic search met Elk Factory en ontdek het potentieel van uw data.

[contact-form-7]

Het bericht Zoekefficiëntie verbeteren met semantic search en Elastic technologie verscheen eerst op Elk Factory.

Image similarity search met Elastic

Sien Vdm — Mon, 11 Mar 2024 11:59:36 +0000

Image similarity search met Elastic

AI is al geruime tijd aanwezig. Gebruiksscenario’s waren soms niet haalbaar vanwege de complexiteit van de implementatie of beperkingen binnen AI of rekenkracht. Elastic-technologie maakt het gemakkelijker om te profiteren van de voordelen van AI. Elastic maakt het minder ingewikkeld voor ontwikkelaars om semantisch zoeken, beeldzoeken en meer te implementeren. Het bewijs van de pudding zit in het eten. Dat is de reden waarom we een experiment hebben uitgevoerd en beeldgelijkenis hebben ontwikkeld in Elastic. In deze blog zullen we praten over het hoe en vooral de indrukwekkende resultaten die zijn behaald uit het experiment.

DE context

Dit artikel onderzoekt de toepassing van Elastic in zoekopdrachten naar afbeeldingssimilariteit, met de focus op iconen zoals het recycle-symbool en de Europese letter ‘E’. Er worden specifieke experimenten uitgevoerd met deze symbolen, naast discussies over technische uitdagingen en oplossingen. Dit artikel benadrukt met name de veelbelovende resultaten die zijn behaald met het recycle-icoon en de Europese letter ‘E’. Het potentieel van beeldsimiliteitstechnologie voor toekomstige projecten is veelbelovend, waarbij de eenvoud en effectiviteit ervan in het insluiten van afbeeldingen en tekst voor zoekdoeleinden worden benadrukt.

Fun fact: De implementatie van dit experiment met de Elastic-stack kostte minder dan een dag, inclusief de reparaties en aanpassingen die nodig waren tijdens het ontwikkelingsproces.

Eerst zullen we de resultaten in dit artikel uitleggen, daarna zullen we de technische details geven over hoe we de zoekopdracht naar beeldgelijkenis hebben gerealiseerd. Tot slot zullen we enkele inzichten geven met betrekking tot dimensionering.

1) Image similarity – zoekresultaten

We beschikken over een dataset van precies 47 afbeeldingen:

Bij het zoeken naar een afbeelding door “European E” in te typen, ontvangen we Europese E’s als de eerste resultaten, wat goed is.

In plaats van teksttermen te gebruiken om afbeeldingen te zoeken, hebben we ook een van deze “European E” symbolen gebruikt om te zoeken door op “Vergelijkbare afbeeldingen zoeken” te klikken. Dit leverde ook de verwachte vergelijkbare afbeeldingen als zoekresultaten op.

Groen recycle-symbool

In onze dataset hebben we verschillende recycle-symbolen waarvan er een paar groen zijn. We hebben een test uitgevoerd door te zoeken naar “groene recycle”. Dit leverde inderdaad alleen onze groene recycle-iconen in de dataset op, wat een uitstekend resultaat is:

2) de technische route op: hoe we resultaten hebben behaald

Het begin

We zijn onze verkenning gestart op basis van deze informatieve blogpost van Elastic.

We hebben nauwgezet de instructies gevolgd die zijn uiteengezet in de blogpost van Elastic en het GitHub-repository. Na grondige bestudering van het README.md-bestand zijn we overgegaan tot het klonen van het repository en hebben we het vereiste model van Hugging Face geïntegreerd in onze cloud-instantie met behulp van Elastic’s eland van GitHub. Houd er rekening mee dat dit model niet per se gebruikt hoeft te worden. Andere modellen kunnen ook worden gebruikt, maar dan moet de backend worden aangepast.

Het aanpassen van de code

Tijdens het proces stuitten we op verouderde pakketten. We hebben snel het requirements.txt-bestand aangepast om compatibiliteit en een soepele installatie te garanderen. Daarnaast hebben we beperkingen in pixels voor afbeeldingen aangepakt en instellingen fijngesteld voor optimale prestaties. Hieronder staat het verbeterde requirements.txt-bestand:

Na deze aanpassingen verliep het pip installatieproces probleemloos. Bovendien werd het ‘.env-bestand’ bijgewerkt met de benodigde referenties voor onze cloud-instantie. Echter, bij het proberen om afbeeldingsembeddings te genereren en deze in te voeren, werd een daaropvolgend probleem ondervonden. Deze uitdaging, waar binnenkort nader op zal worden ingegaan, ontstond door een oversaturatie van pixels binnen onze afbeeldingen. Om dit aan te pakken, volstond een eenvoudige regel toevoeging onder de imports sectie van het bestand create-image-embeddings.py. Let op: de code zorgt ervoor dat er geen maximumlimiet is voor het aantal pixels in een afbeelding, dus let op hoe je dit gebruikt (decompression bomb):

Image.MAX_IMAGE_PIXELS = None

De afbeeldingen invoeren

Om te beginnen waren afbeeldingen nodig. Voor deze test werden afbeeldingen gebruikt die gemakkelijk te vinden zijn via Google: een recycle-pictogram en de letter ‘E’ van Europa. Alle afbeeldingsbestandstypen werden geconverteerd naar JPG, omdat dit het beste bestandstype leek te zijn om te gebruiken voor dit geval. Om de afbeeldingen zelf in te voeren, moest het bijgeleverde Python-script worden gebruikt, dat zich bevindt onder `image_embeddings/create-image-embeddings.py`

Tot slot werden alle embeddings ingevoerd, wat er ongeveer zo uitzag:

De embedding heeft 512 dimensies. Houd er rekening mee dat deze afbeelding door het clip-ViT-B-32-model is gegaan. Dit is een gratis openbaar model en is voldoende voor ons gebruiksscenario. De interface heeft een zoekvak, dat wanneer ingediend tekst naar Elastic stuurt die door het model gaat (clip-ViT-B-32-multilingual-v1) dat is geïmporteerd met Elastic eland. Dit gebeurt op de achtergrond (Flask Backend) en daarom is er geen noodzaak om dat in deze demotoepassing te bekijken, noch zullen we naar de Flask-backend kijken in deze blogpost. De interface heeft een veld voor het uploaden van afbeeldingen. Dit kan worden gebruikt om afbeeldingen te uploaden en te zoeken naar andere afbeeldingen die vergelijkbaar zijn met de geüploade afbeelding.

3) Formaten

Grootte van afbeeldingen

Zoals hierboven vermeld, bestaat onze dataset uit 47 afbeeldingen. Deze afbeeldingen hebben samen een grootte van ongeveer 3,6 MB. Wanneer we kijken naar de index met de ingebedde waarden, is de grootte 469,9 kB.

Grootte van tekst

We vergeleken de grootte van embeddings voor afbeeldingen met embeddings voor tekst. We gebruikten een dataset met ongeveer 8000 documenten en een totale grootte van 17,7 MB. Elk document bevat slechts een paar regels tekst. Bij het invoeren van deze gegevens voor ‘tekst zoeken’ in een index, neemt de index 36,3 MB in beslag. Bij het invoeren voor semantisch zoeken, met behulp van het E5-model, neemt de index 119,8 MB in beslag. In het geval dat beide indexes worden gebruikt, bijvoorbeeld om RRF (Reciprocal Rank Fusion) te gebruiken, is de totale indexopslag 156,1 MB.

Waarom nam de grootte af voor de afbeeldingen maar nam deze toe voor tekst?

Dit komt door de dimensies en het aantal documenten. De afbeeldingenindex hoefde slechts 47 documenten bij te houden, terwijl de tekstdataset-index ongeveer 8000 documenten moest bijhouden. De afbeeldingendataset had een grootte van 9,99 kB per document, terwijl de tekstindex ongeveer 14,97 kB per document had. Dit is relatief dicht bij de afbeeldingenindex. Als we naar de totale vectorafmetingen kijken, heeft de afbeeldingenindex 512 dimensies. De tekstindex heeft echter ongeveer 768 dimensies; zowel de ingesloten velden voor titel als overzicht hebben elk 384 dimensies. Dus uiteindelijk hangt het af van hoeveel dimensies er worden gebruikt. Als we slechts één veld zouden gebruiken om in te sluiten, zou de grootte aanzienlijk afnemen, hetzelfde kan gezegd worden voor de afbeeldingenindex. Als we een ander model zouden gebruiken dat meer dimensies genereert, zou de grootte aanzienlijk toenemen.

Als we nog dieper ingaan op de details, heeft de afbeeldingenindex ongeveer 19,51 bytes per dimensie, terwijl de tekstindex 19,49 bytes per dimensie heeft. Zoals hier te zien is, zijn ze ongeveer hetzelfde. Dus volgens deze logica zouden we 19,5 bytes kunnen nemen als gemiddelde voor elke vector dimensie. Houd er rekening mee dat dit dichte vectoren zijn, geen ijle vectoren.

4) conclusie

We waren zeer onder de indruk van de functionaliteit van ‘Image Similarity Search’, waarbij we met name de eenvoudige werkwijze om een model van Huggingface te verkrijgen, zowel afbeeldingen als tekst in te sluiten, en zoekopdrachten te initiëren, zeer waardeerden.

Elk Factory – Elastic ELITE Partner

Elk Factory is de Elastic partner om uw Elastic-stack te implementeren. We streven altijd naar een win-winsituatie! Samen zullen we verkennen hoe dit platform uw bedrijf efficiënter kan maken, zodat u kunt profiteren terwijl wij een tevreden klant worden!

Leer ons kennen, of neem vrijblijvend contact met ons op.

[contact-form-7]

Het bericht Image similarity search met Elastic verscheen eerst op Elk Factory.