de Mariya Yao

Chihuahua sau briose? Căutarea mea pentru cel mai bun API de viziune computerizată

Chihuahua sau briose Cautarea mea pentru cel mai bun API

Această populară meme pe internet demonstrează asemănarea alarmantă împărtășită între chihuahua și brioșe. Aceste imagini sunt de obicei împărtășite în prezentări din industria Inteligenței Artificiale (AI) (inclusiv eu).

Dar o întrebare la care nu am văzut pe nimeni răspunzând este cât de bun este AI modern în eliminarea incertitudinii unei imagini care seamănă cu un chihuahua sau cu o brioșă? Pentru divertisment și educație, voi investiga această întrebare astăzi.

1611781145 722 Chihuahua sau briose Cautarea mea pentru cel mai bun API

Clasificarea binară a fost posibilă încă din algoritm perceptron a fost inventat în 1957. Dacă credeți că AI este hyped acum, New York Times a raportat în 1958 că invenția a fost începutul unui computer care ar fi „capabil să meargă, să vorbească, să vadă, să scrie, să se reproducă și să fie conștient de existența sa”. În timp ce aparatele perceptron, cum ar fi Marca 1, au fost concepute pentru recunoașterea imaginii, în realitate nu pot discerne decât modele care sunt separabile liniar. Acest lucru îi împiedică să învețe tiparele complexe găsite în majoritatea mass-media vizuale.

Nu e de mirare că lumea a fost dezamăgită și o Iarna AI a urmat. De atunci, percepții multi-strat (popular în anii 1980) și rețele neuronale convoluționale (pionierat de Yann LeCun în 1998) au depășit mult percepții cu un singur strat în sarcinile de recunoaștere a imaginilor.

Cu seturi mari de date etichetate precum ImageNet și puternic GPU computere, arhitecturi de rețele neuronale mai avansate cum ar fi AlexNet, VGG, Inceput, și ResNet au realizat performanțe de ultimă generație în viziunea computerizată.

API-uri de vizualizare și recunoaștere a imaginilor pe computer

Dacă sunteți inginer de învățare automată, este ușor să experimentați și să reglați aceste modele folosind modele pre-antrenate și greutăți Keras / Tensorflow sau PyTorch. Dacă nu vă simțiți confortabil să reglați singuri rețelele neuronale, aveți noroc. Practic, toți giganții tehnologici și startup-urile promițătoare pretind că „democratizează AI” oferind API-uri de viziune computerizate ușor de utilizat.

Care este mai bun? Pentru a răspunde la această întrebare, ar trebui să vă definiți în mod clar obiectivele comerciale, cazurile de utilizare a produselor, seturile de date de testare și valorile succesului înainte de a putea compara soluțiile unele cu altele.

În locul unei anchete serioase, putem obține cel puțin o înțelegere la nivel înalt a diferitelor comportamente ale fiecărei platforme testându-le cu problema noastră de jucărie de a diferenția un chihuahua de o brioșă.

Efectuarea testului

Pentru a face acest lucru, am împărțit meme-ul canonic în 16 imagini de test. Apoi folosesc cod sursă deschisă scris de inginer Gaurav Oberoi pentru a consolida rezultatele din diferitele API-uri. Fiecare imagine este împinsă prin cele șase API enumerate mai sus, care returnează etichete de mare încredere ca predicții. Excepțiile sunt Microsoft, care returnează ambele etichete și o legendă și Cloudsight, care utilizează tehnologia hibridă uman-AI pentru a returna doar o singură legenda. Acesta este motivul pentru care Cloudsight poate returna subtitrări extrem de precise pentru imagini complexe, dar procesează de 10-20 de ori mai mult.

Mai jos este un exemplu de ieșire. Pentru a vedea rezultatele tuturor celor 16 imagini chihuahua versus brioșe, Click aici.

1611781146 908 Chihuahua sau briose Cautarea mea pentru cel mai bun API

Cât de bine s-au descurcat API-urile? În afară de Microsoft, care a confundat această brioșă pentru un animal umplut, orice alt API a recunoscut că imaginea era mâncare. Dar nu a existat un acord cu privire la faptul dacă mâncarea era pâine, prăjitură, prăjituri sau briose. Google a fost singurul API care a identificat cu succes briosele drept eticheta care este cea mai probabilă.

Să ne uităm la un exemplu de chihuahua.

1611781146 610 Chihuahua sau briose Cautarea mea pentru cel mai bun API

Din nou, API-urile s-au descurcat destul de bine. Toți și-au dat seama că imaginea este un câine, deși câțiva dintre ei au ratat rasa exactă.

Totuși, au existat eșecuri certe. Microsoft a returnat o legendă greșit de trei ori separate, descriind brioșa fie ca un animal de pluș, fie ca un ursuleț de pluș.

1611781146 808 Chihuahua sau briose Cautarea mea pentru cel mai bun API

Google a fost ultimul identificator al brioșelor, returnând „brioșă” drept cea mai înaltă etichetă de încredere pentru 6 din cele 7 imagini cu brioșe din setul de testare. Celelalte API-uri nu au returnat „brioșă” ca primă etichetă pentru nicio imagine cu brioșă, ci au returnat etichete mai puțin relevante, cum ar fi „pâine”, „fursec” sau „cupcake”.

Cu toate acestea, în ciuda șirului de succese, Google a eșuat în această imagine specifică a brioșelor, returnând „botul” și „grupul de rase de câini” ca predicții.

1611781147 462 Chihuahua sau briose Cautarea mea pentru cel mai bun API

Chiar și cele mai avansate platforme de învățare automată din lume sunt împiedicate de provocarea noastră chipeșcă față de chihuahua și brioșe. Un copil mic bate învățarea profundă atunci când vine vorba de a afla ce este mâncarea și ce este Fido.

Deci, care API de viziune computerizată este cel mai bun?

Pentru a afla răspunsul la acest mister evaziv, va trebui să vă îndreptați către TOPBOTS citiți articolul original integral!