Mis vahe on uurimistööl ja tootmise kvaliteediga masinõppel?


Vastus 1:

Täname A2A eest.

Lühidalt, uurimistöös tähendab masinõpe väga suure täpsuse, täpsuse, täpsuse, tagasikutsumise ja mudeli tootmist. Tootmine seisneb palju selle mudeli valimises, tootesse sobitamises ja usaldusväärsel viisil töötamises.

Näite abil on lihtne vastata. Ütleme, et ehitate vestlusboti jaoks masinõppe mudeleid, kus mudelid proovivad mõista, mida kasutaja ütleb või tipib, st „kavatsust”, ja tõmmata vastavalt sellele teavet. Näit. Kas kasutaja soovib teada saada filmide piletite saadavust, kas nad tahavad leida kriketimängu skoori, kas nad küsivad aktsiahindade kohta jne?

Uurimisfaasis (või arendusetapis) töötab ML-i insener või andmeteadlane tavaliselt „ühenduseta”. Mida see tähendab?

  1. Andmeid pannakse kokku igal viisil. Algandmete kättesaadavust „tootmise” ajal ei peeta piiranguna (kuigi see võiks ja peakski olema). Kood võtab aega, et teisendada töötlemata andmed funktsioonide jaoks, mis on vajalikud mudeleid ei arvestata kitsendustena.ML-i inseneri või meeskonna poolt mudeli väljatöötamiseks kuluv aeg ei pruugi olla kitsad.Mudelikoodi prognoosimise või vastuse saamiseks kuluv aeg ei ole piirang .Mudel peab reageerima ühelt kasutajalt (ML-insener või andmeteadlane) ainult ühele sisendile (testiandmed). Ühelgi hetkel kasutatavale tarkvarale (andmete kogumiseks, andmete ettevalmistamiseks ja mudeli ehitamiseks) pole mingeid piiranguid. Riistvara ML-i inseneri poolt kasutatavatel piirangutel ei pruugi olla kitsaid piiranguid.Mudelilt eeldatakse, et see ei suhtle mitte millegagi. Keskendutakse suuresti sellistele mõõdikutele nagu täpsus, täpsus, tagasikutsumine, auc jne, st „kui hea on ennustus?”

Tootmises kõik ülaltoodud muudatused.

  1. Ennustamismudelis nõutavad andmed saab kokku panna ainult tarkvara abil, mis on saadaval tootmiskeskkonnas. Näit. Võistkonnad võivad oma toodetes kasutada ainult Java-d ja kui andmete kogumise / ettevalmistamise kood on Pythonis, kirjutatakse see Java-s ümber. Dockeri konteinerid on seda palju muutnud. Saate kasutada ainult neid andmeid, mis on tootmisel saadaval. Tavaline viga, mille abil algajad insenerid / meeskonnad teevad, on arenduse ajal andmete kasutamine, mis pole tootmises saadaval.Kui teie vestlusbot peab kiiresti reageerima, muutub piirang, mida teie kood võtab töötlemata andmete muutmiseks funktsioonideks, piiranguks.Kui vestlusboti arendamine kui sellel on teatud toote väljalasketsüklite ajakavad, peab mudeli edukate versioonide loomiseks kuluv aeg sobima nendesse väljalasketsüklitesse.Ja nüüd, kui teie vestlusbot peab reageerima kiiresti, siis võtab teie mudel vastuse saamiseks ühest sisestusest saab piirang. Vestlusbot, näiteks panganduse veebisaidil, peab vastama tuhandetele kasutajatele küsimustele. Selleks on vaja hoolikat ettevõtmist ja stressitesti / koormustesti, et näha, kas mudel suudab reageerida tuhandete kasutajate sisenditele, ilma et tekiks tõrkeid. Samamoodi nagu eespool punktis 1, kuidas asjad tootmises muutuvad, tuleb kirjutada kogu ML-i torujuhtme tüüp tootmiskeskkonnas saadaval olevas tarkvaras (keeled, nende keelte versioonid, raamatukogud, nende raamatukogude versioonid jne). Te ei saa oma mudelit Scalas üles ehitada, kui teie tootmiskeskkond käitab ainult Pythoni ja Java. Ja nii edasi.Vestlusboti tootel oleks eelarve, mis määrab kindlaks, mis tüüpi riistvara on tootmise ajal tarkvara kõikidele osadele, sealhulgas ML-mudelile saadaval. See piirab seda, millised ressursid (CPU, RAM) on ML-mudeli jaoks saadaval. Mudeli peab suhelda vestlusbotitarkvara mitmete muude kui ML-i osadega. See tähendab, et mudel peab teadma, kuidas ja millises vormingus ta sisendit saab, kuidas ja millises vormingus ta väljundit jagab, mida sealt vastu võtta, mida jagada kus jne. Lisaks keskendumisele „kui hea on ennustus? ”, keskendutakse muudele aspektidele nagu“ kas see on kiire? ”,“ kas see on usaldusväärne? ”,“ kui palju kasutajaid sellega hakkama saab? ”,“ kas muudatuste või värskenduste tegemine on lihtne ja kiire? ”, “Kas seda on lihtne integreerida?” Jne

Loodan, et see aitab.


Vastus 2:

Uurimistöö kvaliteet on see, kui see lahendab kontrollitud tingimustes ühe probleemi (andmed kindlas vormingus, kogutud kindlaksmääratud allikast / seadmest). Tootmise kvaliteedis peab algoritm töötama väga paljude andmete jaoks, väga erinevates tingimustes (temperatuur / niiskus / patsiendid jne, sõltuvalt rakenduse valdkonnast).