Машинско учење 101: под надзором, без надзора, појачање и даље
Машинско учење је суштински део а Дата Сциентист . Најједноставније речено, машинско учење користиалгоритми за откривање образаца и предвиђања.То је једна од популарнијих метода која се користи за обраду великих количина необрађених података и само ће расти у популарности како све више компанија покушава да доноси одлуке засноване на подацима.
Машинско учење обухвата огроман скуп идеја, алата и техника које користе научници података и други професионалци. објаснили смо ови концепти шире , али овај пут, хајде да погледамона неким од специфичних компоненти, икако се могу користити за решавање проблема.
Машинско учење под надзором
Најједноставнији задаци спадају под окриље учење под надзором .
У контролисаном учењу, имамо приступ примерима исправних улазно-излазних парова које можемо да покажемо машини током фазе обуке. Уобичајеном примеру препознавања рукописа се обично приступа као задатку учења под надзором. Показујемо рачунару одређени број слика руком писаних цифара заједно са исправним ознакама за те цифре, а рачунар учи обрасце који повезују слике са њиховим ознакама.
Научити како да извршавате задатке на овај начин, на експлицитном примеру, релативно је лако разумети и једноставно применити, али постоји кључни задатак: можемо то да урадимо само ако имамо приступ скупу података исправних парова улаз-излаз. У примеру рукописа, то значи да у неком тренутку морамо да пошаљемо човека да класификује слике у сету за обуку. Ово је напоран посао и често неизводљив, али тамо где подаци постоје, алгоритми учења под надзором могу бити изузетно ефикасни у широком спектру задатака.
Регресија и класификација
Надзирани задаци машинског учења могу се широко класификовати у две подгрупе: регресија и класификација . Регресија је проблем процене или предвиђања континуиране количине. Колика ће бити вредност С&П 500 месец дана од данас? Колико ће дете бити високо као одрасла особа? Колико ће наших купаца ове године отићи код конкурента? Ово су примери питања која би потпала под кишобран регресије. Да бисмо решили ове проблеме у оквиру надгледаног машинског учења, прикупили бисмо претходне примере парова уноса/излаза тачних одговора који се баве истим проблемом. За инпуте бисмо идентификовали Карактеристике за које верујемо да би могли да предвиде исходе које желимо да предвидимо.
За први проблем, могли бисмо покушати да прикупимо као карактеристике историјске цене акција испод С&П 500 на дате датуме заједно са вредношћу С&П 500 месец дана касније. Ово би формирало наш сет за обуку, из којег би машина покушала да утврди неки функционални однос између карактеристика и евентуалних С&П 500 вредности.
Класификација бави се додељивањем запажања у дискретне категорије, а не проценом континуираних величина. У најједноставнијем случају, постоје две могуће категорије; овај случај је познат као бинарна класификација . Многа важна питања могу се поставити у смислу бинарне класификације. Хоће ли нас одређени купац оставити ради конкурента? Да ли одређени пацијент има рак? Да ли дата слика садржи хот дог? Алгоритми за извођење бинарне класификације су посебно важни јер су многи алгоритми за извођење општије врсте класификације где постоје произвољне ознаке једноставно гомила бинарних класификатора који раде заједно. На пример, једноставно решење за проблем препознавања рукописа је једноставно обучити гомилу бинарних класификатора: 0-детектор, 1-детектор, 2-детектор, и тако даље, који дају њихову сигурност да је слика њихова одговарајућа цифра. Класификатор само исписује цифру чији класификатор има највећу сигурност.
С друге стране, постоји сасвим друга класа задатака која се назива учење без надзора . Задаци учења под надзором проналазе обрасце у којима имамо скуп података правих одговора из којих можемо учити. Задаци учења без надзора проналазе обрасце тамо где ми то не чинимо. То може бити зато што су прави одговори неуочљиви или неизводљиви за добијање, или можда за дати проблем не постоји чак ни прави одговор сам по себи.
Груписање и генеративно моделирање
Велика подкласа задатака без надзора је проблем груписање . Груписање се односи на груписање опсервација на такав начин да су чланови заједничке групе слични једни другима, а различити од чланова других група. Овде је уобичајена примена у маркетингу, где желимо да идентификујемо сегменте купаца или потенцијалних клијената са сличним преференцијама или навикама куповине. Главни изазов у груписању је то што је често тешко или немогуће знати колико кластера треба да постоји или како би кластери требало да изгледају.

Веома занимљива класа задатака без надзора је генеративно моделовање . Генеративни модели су модели који имитирају процес који генерише податке о обуци. Добар генеративни модел би могао да генерише нове податке који у неком смислу личе на податке о обуци. Ова врста учења је без надзора јер се процес који генерише податке није директно видљив – само су подаци сами по себи видљиви.
Недавни развоји у овој области довели су до запањујућег и повремено застрашујућег напретка у стварању слика. Слика овде се ствара обучавањем неке врсте модела учења без надзора који се зове модел дубоке конволуционе генерализоване адверсаријске мреже да генерише слике лица и тражи од њега слике насмејаног човека.
Учење са појачањем, хибриди и још много тога
Новији тип проблема учења који је недавно стекао велику пажњу назива се учење поткрепљења . У учењу са појачањем, ми не дајемо машини примере исправних улазно-излазних парова, али обезбеђујемо метод за машину да квантификује своје перформансе у облику сигнал за награду . Методе учења са појачањем личе на начин на који људи и животиње уче: машина покушава гомилу различитих ствари и бива награђена када нешто уради добро.
Учење са појачањем је корисно у случајевима када је простор решења огроман или бесконачан, и обично се примењује у случајевима када се машина може сматрати агентом који је у интеракцији са својим окружењем. Једна од првих великих прича о успеху овог типа модела била је од стране малог тима којиобучио модел учења са појачањем да игра Атари видео игре користећи само излаз пиксела из игре као улаз. Модел је на крају успео да надмаши људе у три игре и компанију која је креирала моделје купио Гоогле за више од 500 милиона доларанедуго потом.
Да бисмо применили надгледано учење на проблем играња Атари видео игара, потребан нам је скуп података који садржи милионе или милијарде примера игара које играју стварни људи да би машина могла да учи. Насупрот томе, учење са појачањем функционише тако што даје машини награду према томе колико добро обавља свој задатак. Једноставне видео игре су погодне за ову врсту задатка јер резултат добро функционише као награда. Машина наставља да учи симулацијом који обрасци максимизирају њену награду.
Често хибридни приступи доводе до добрих резултата. На пример, важан задатак у неким областима је задатак откривање аномалија . Алгоритам за откривање аномалија прати неки сигнал и показује када нешто чудан дешава. Добар пример је откривање превара. Желимо алгоритам који прати ток трансакција кредитним картицама и означава оне чудне. Али шта значи чудно? Овај проблем је погодан за неку врсту хибридног приступа надзираног/ненадгледаног. Сигурно постоје неки познати обрасци за које бисмо желели да алгоритам може да открије, а можемо да обучимо модел учења под надзором показујући му примере познатих образаца преваре. Али такође желимо да будемо у могућности да откријемо раније непознате примере потенцијалне преваре или на неки други начин абнормалне активности, које би се могле постићи методама ненадгледаног учења.
Основе машинског учења могу имати велики утицај
Многи од најнапреднијих алата захтевају много софистицираног знања из напредне математике, статистике и софтверског инжењеринга. За почетника који жели да почне, то може изгледати неодољиво, посебно ако желите да радите са неким од узбудљивих нових модела.
Добра вест је да можете много да урадите са основама, које су широко доступне. Различити модели учења под надзором и без надзора су имплементирани у Р и Питхон-у, који су бесплатно доступни и једноставни за постављање на сопственом рачунару, а чак и једноставни модели попут линеарне или логистичке регресије могу се користити за обављање занимљивих и важних задатака машинског учења.
Погледајте наше Курс сертификата машинског учења да научите основе и почнете. ако желите више, пријавите се сада на БраинСтатион Дипломски програм науке о подацима.