Мадэль вялікай мовы (LLM) дазваляе пісаць пераканаўчыя артыкулы, заснаваныя на падказках, здаваць экзамены на прафесійную кваліфікацыю і пісаць інфармацыю, зразумелую для пацыентаў і выклікаючую спачуванне. Аднак, акрамя вядомых рызык выдумкі, далікатнасці і недакладных фактаў у LLM, у цэнтры ўвагі паступова апынаюцца іншыя нявырашаныя праблемы, такія як мадэлі штучнага інтэлекту, якія ўтрымліваюць патэнцыйна дыскрымінацыйныя «чалавечыя каштоўнасці» пры іх стварэнні і выкарыстанні, і нават калі LLM больш не стварае кантэнт і выключае відавочна шкодныя вынікі, «каштоўнасці LLM» усё яшчэ могуць адрознівацца ад чалавечых каштоўнасцей.
Незлічоныя прыклады ілюструюць, як дадзеныя, якія выкарыстоўваюцца для навучання мадэляў штучнага інтэлекту, кадуюць індывідуальныя і сацыяльныя каштоўнасці, якія могуць замацоўвацца ў мадэлі. Гэтыя прыклады ўключаюць шэраг ужыванняў, у тым ліку аўтаматычную інтэрпрэтацыю рэнтгенаграфіі грудной клеткі, класіфікацыю скурных захворванняў і алгарытмічнае прыняцце рашэнняў адносна размеркавання медыцынскіх рэсурсаў. Як гаворыцца ў нядаўнім артыкуле ў нашым часопісе, прадузятыя навучальныя дадзеныя могуць узмацняць і выяўляць каштоўнасці і прадузятасці, якія існуюць у грамадстве. Наадварот, даследаванні таксама паказалі, што штучны інтэлект можна выкарыстоўваць для зніжэння прадузятасці. Напрыклад, даследчыкі ўжылі мадэлі глыбокага навучання да рэнтгенаўскіх здымкаў калена і выявілі фактары, якія не ўлічваліся стандартнымі паказчыкамі цяжкасці (класіфікаванымі радыёлагамі) у каленным суставе, тым самым памяншаючы невытлумачальныя адрозненні ў болі паміж чорнымі і белымі пацыентамі.
Нягледзячы на тое, што ўсё больш людзей усведамляюць прадузятасць мадэляў штучнага інтэлекту, асабліва ў дачыненні да навучальных дадзеных, многім іншым уваходным кропкам чалавечых каштоўнасцей не надаецца дастатковай увагі ў працэсе распрацоўкі і разгортвання мадэляў штучнага інтэлекту. Медыцынскі штучны інтэлект нядаўна дасягнуў уражлівых вынікаў, але ў значнай ступені ён не ўлічваў чалавечыя каштоўнасці і іх узаемадзеянне з ацэнкай рызыкі і імавернаснымі разважаннямі, а таксама не быў мадэляваны.
Каб канкрэтызаваць гэтыя абстрактныя паняцці, уявіце, што вы эндакрынолаг, якому трэба прызначыць рэкамбінантны гармон росту чалавека 8-гадоваму хлопчыку, які не дасягае 3-га перцэнтыля свайго ўзросту. Узровень стымуляванага гармону росту чалавека ў хлопчыка ніжэйшы за 2 нг/мл (рэферэнснае значэнне >10 нг/мл, рэферэнснае значэнне для многіх краін за межамі ЗША >7 нг/мл), а ў яго гене, які кадуе гармон росту чалавека, выяўлены рэдкія інактывацыйныя мутацыі. Мы лічым, што прымяненне тэрапіі гармонам росту чалавека відавочнае і бясспрэчнае ў гэтых клінічных умовах.
Ужыванне тэрапіі гармонам росту чалавека ў наступных сцэнарыях можа выклікаць спрэчкі: рост 14-гадовага хлопчыка заўсёды быў у 10-м перцэнтылі яго аднагодкаў, а пік гармона росту чалавека пасля стымуляцыі складае 8 нг/мл. Няма вядомых функцыянальных мутацый, якія могуць паўплываць на рост, а таксама іншых вядомых прычын нізкага росту, а яго касцяны ўзрост складае 15 гадоў (г.зн. няма затрымкі развіцця). Толькі частка спрэчак звязана з адрозненнямі ў парогавых значэннях, вызначаных экспертамі на аснове дзясяткаў даследаванняў адносна ўзроўню гармона росту чалавека, які выкарыстоўваецца для дыягностыкі ізаляванага дэфіцыту гармона росту. Прынамсі, столькі ж спрэчак вынікае з балансу рызыкі і карысці выкарыстання тэрапіі гармонам росту чалавека з пункту гледжання пацыентаў, бацькоў пацыентаў, медыцынскіх работнікаў, фармацэўтычных кампаній і плацельшчыкаў. Дзіцячыя эндакрынолагі могуць узважваць рэдкія пабочныя эфекты штодзённых ін'екцый гармона росту на працягу 2 гадоў з верагоднасцю адсутнасці або толькі мінімальнага росту памераў цела дарослага чалавека ў параўнанні з цяперашнім часам. Хлопчыкі могуць лічыць, што нават калі іх рост можа павялічыцца толькі на 2 см, варта рабіць ін'екцыі гармона росту, але плацельшчык і фармацэўтычная кампанія могуць прытрымлівацца розных поглядаў.
У якасці прыкладу мы возьмем EGFR на аснове креатыніну, які з'яўляецца шырока выкарыстоўваным паказчыкам функцыі нырак для дыягностыкі і стадыі хранічнай хваробы нырак, вызначэння ўмоў для трансплантацыі або донарства нырак, а таксама вызначэння крытэрыяў зніжэння і супрацьпаказанняў для многіх рэцэптурных лекаў. EGFR - гэта простае рэгрэсійнае ўраўненне, якое выкарыстоўваецца для ацэнкі вымеранай хуткасці клубочковой фільтрацыі (mGFR), якая з'яўляецца эталонным стандартам, але метад ацэнкі адносна грувасткі. Гэта рэгрэсійнае ўраўненне нельга лічыць мадэллю штучнага інтэлекту, але яно ілюструе многія прынцыпы чалавечых каштоўнасцей і імавернаснага разважання.
Першым пунктам уваходу для значэнняў чалавека ў СКФ з'яўляецца выбар дадзеных для апраксімацыі ўраўненняў. Першапачатковая чарга, якая выкарыстоўвалася для распрацоўкі формулы СКФ, у асноўным складаецца з чорных і белых удзельнікаў, і яе прыдатнасць да многіх іншых этнічных груп незразумелая. Наступныя пункты уваходу для значэнняў чалавека ў гэту формулу ўключаюць: выбар дакладнасці мСКФ у якасці асноўнай мэты для ацэнкі функцыі нырак, які ўзровень дакладнасці з'яўляецца прымальным, як вымяраць дакладнасць і выкарыстанне СКФ у якасці парога для прыняцця клінічных рашэнняў (напрыклад, вызначэнне ўмоў для трансплантацыі нырак або прызначэнне лекаў). Нарэшце, пры выбары зместу ўваходнай мадэлі значэнні чалавека таксама будуць уваходзіць у гэту формулу.
Напрыклад, да 2021 года рэкамендацыі прапаноўвалі карэкціроўку ўзроўню крэатыніну ў формуле eGFR у залежнасці ад узросту, полу і расы пацыента (класіфікуецца толькі як чарнаскуры або нечарнаскуры асобы). Карэкціроўка ў залежнасці ад расы накіравана на павышэнне дакладнасці формулы mGFR, але ў 2020 годзе буйныя бальніцы пачалі сумнявацца ў выкарыстанні eGFR на аснове расы, спасылаючыся на такія прычыны, як затрымка права пацыента на трансплантацыю і канкрэтызацыя расы як біялагічнай канцэпцыі. Даследаванні паказалі, што распрацоўка мадэляў eGFR з улікам расы можа мець значны і разнастайны ўплыў на дакладнасць і клінічныя вынікі; таму выбарачнае засяроджванне ўвагі на дакладнасці або засяроджванне ўвагі на частцы вынікаў адлюстроўвае каштоўнасныя меркаванні і можа маскіраваць празрыстае прыняцце рашэнняў. Нарэшце, нацыянальная рабочая група прапанавала новую формулу, якая была перапрацавана без уліку расы, каб збалансаваць пытанні прадукцыйнасці і справядлівасці. Гэты прыклад паказвае, што нават простая клінічная формула мае шмат пунктаў уваходу ў чалавечыя каштоўнасці.
У параўнанні з клінічнымі формуламі з невялікай колькасцю прагнастычных паказчыкаў, LLM можа складацца з мільярдаў і соцень мільярдаў параметраў (вагавых каэфіцыентаў мадэлі) і больш, што ўскладняе яго разуменне. Прычына, па якой мы кажам «цяжка зразумець», заключаецца ў тым, што ў большасці LLM дакладны спосаб атрымання адказаў праз пытанні немагчыма адлюстраваць. Колькасць параметраў для GPT-4 пакуль не абвешчана; яго папярэднік GPT-3 меў 175 мільярдаў параметраў. Больш параметраў не абавязкова азначае больш магутныя магчымасці, бо меншыя мадэлі, якія ўключаюць больш вылічальных цыклаў (напрыклад, серыя мадэляў LLaMA [Large Language Model Meta AI]), або мадэлі, якія тонка настроены на аснове зваротнай сувязі ад чалавека, будуць працаваць лепш, чым больш буйныя мадэлі. Напрыклад, паводле ацэнак людзей, мадэль InstrumentGPT (мадэль з 1,3 мільярдамі параметраў) пераўзыходзіць GPT-3 у аптымізацыі вынікаў мадэлі.
Канкрэтныя дэталі навучання GPT-4 пакуль не раскрываюцца, але падрабязнасці мадэляў папярэдняга пакалення, у тым ліку GPT-3, InstrumentGPT і многіх іншых LLM з адкрытым зыходным кодам, былі раскрытыя. У наш час многія мадэлі штучнага інтэлекту пастаўляюцца з картамі мадэляў; дадзеныя ацэнкі і бяспекі GPT-4 былі апублікаваныя ў падобнай сістэмнай карце, прадастаўленай кампаніяй па стварэнні мадэляў OpenAI. Стварэнне LLM можна ўмоўна падзяліць на два этапы: пачатковы этап папярэдняга навучання і этап тонкай налады, накіраваны на аптымізацыю вынікаў мадэлі. На этапе папярэдняга навучання мадэлі прадастаўляецца вялікі корпус, які ўключае арыгінальны тэкст з Інтэрнэту, каб навучыць яе прадказваць наступнае слова. Гэты, здавалася б, просты працэс «аўтаматычнага завяршэння» стварае магутную базавую мадэль, але ён таксама можа прывесці да шкодных паводзін. Чалавечыя каштоўнасці ўвойдуць у этап папярэдняга навучання, у тым ліку выбар дадзеных папярэдняга навучання для GPT-4 і рашэнне аб выдаленні непажаданага кантэнту, напрыклад, парнаграфічнага кантэнту, з дадзеных папярэдняга навучання. Нягледзячы на гэтыя намаганні, базавая мадэль усё яшчэ можа быць ні карыснай, ні здольнай утрымліваць шкодныя вынікі. На наступным этапе тонкай налады з'явіцца шмат карысных і бяскрыўдных паводзін.
На этапе тонкай налады паводзіны моўных мадэляў часта істотна змяняюцца праз кантраляваную тонкую наладу і навучанне з падмацаваннем на аснове зваротнай сувязі з чалавекам. На этапе кантраляванай тонкай налады наняты падрадчык напіша прыклады адказаў для слоў-падказак і непасрэдна навучыць мадэль. На этапе навучання з падмацаваннем на аснове зваротнай сувязі з чалавекам ацэншчыкі-людзі сартуюць выходныя вынікі мадэлі ў якасці прыкладаў уваходнага кантэнту. Затым ужываюць вышэйзгаданыя вынікі параўнання, каб вывучыць «мадэль узнагароджання» і далей палепшыць мадэль праз навучанне з падмацаваннем. Дзіўнае нізкаўзроўневае ўдзел чалавека можа тонка наладзіць гэтыя вялікія мадэлі. Напрыклад, у мадэлі InstrumentGPT выкарыстоўвалася каманда з прыблізна 40 падрадчыкаў, набраных з краўдсорсінгавых вэб-сайтаў, і яны прайшлі скрынінгавы тэст, накіраваны на адбор групы анататараў, якія адчувальныя да пераваг розных груп насельніцтва.
Як паказваюць гэтыя два крайнія прыклады, а менавіта простая клінічная формула [eGFR] і магутны LLM [GPT-4], прыняцце рашэнняў чалавекам і чалавечыя каштоўнасці адыгрываюць неад'емную ролю ў фарміраванні вынікаў мадэлі. Ці могуць гэтыя мадэлі штучнага інтэлекту ўлічваць разнастайныя каштоўнасці пацыентаў і лекараў? Як публічна кіраваць прымяненнем штучнага інтэлекту ў медыцыне? Як згадваецца ніжэй, перагляд аналізу медыцынскіх рашэнняў можа забяспечыць прынцыповае рашэнне гэтых праблем.
Аналіз медыцынскіх рашэнняў не знаёмы многім клініцыстам, але ён можа адрозніваць імавернасныя разважанні (для нявызначаных вынікаў, звязаных з прыняццем рашэнняў, такіх як увядзенне гармона росту чалавека ў спрэчным клінічным сцэнарыі, паказаным на малюнку 1) і фактары разгляду (для суб'ектыўных значэнняў, звязаных з гэтымі вынікамі, значэнне якіх колькасна вызначаецца як «карыснасць», напрыклад, значэнне павелічэння росту мужчыны на 2 см), што забяспечвае сістэматычныя рашэнні для складаных медыцынскіх рашэнняў. Пры аналізе рашэнняў клініцысты павінны спачатку вызначыць усе магчымыя рашэнні і верагоднасці, звязаныя з кожным вынікам, а затым улічыць карыснасць пацыента (ці іншага боку), звязаную з кожным вынікам, каб выбраць найбольш прыдатны варыянт. Такім чынам, валіднасць аналізу рашэнняў залежыць ад таго, наколькі ўсебаковая ўстаноўка вынікаў, а таксама ад таго, наколькі дакладныя вымярэнне карыснасці і ацэнка верагоднасці. У ідэале гэты падыход дапамагае гарантаваць, што рашэнні заснаваныя на доказах і адпавядаюць перавагам пацыента, тым самым скарачаючы разрыў паміж аб'ектыўнымі дадзенымі і асабістымі каштоўнасцямі. Гэты метад быў уведзены ў медыцынскую сферу некалькі дзесяцігоддзяў таму і ўжываўся для прыняцця рашэнняў асобнымі пацыентамі і ацэнкі здароўя насельніцтва, напрыклад, для прадастаўлення рэкамендацый па скрынінгу каларэктальнага раку сярод насельніцтва ў цэлым.
У аналізе медыцынскіх рашэнняў былі распрацаваны розныя метады для атрымання карыснасці. Большасць традыцыйных метадаў непасрэдна атрымліваюць каштоўнасць ад асобных пацыентаў. Найпрасцейшы метад - выкарыстоўваць шкалу ацэнкі, дзе пацыенты ацэньваюць свой узровень перавагі пэўнага выніку па лічбавай шкале (напрыклад, лінейнай шкале ад 1 да 10), прычым найбольш экстрэмальныя вынікі для здароўя (напрыклад, поўнае здароўе і смерць) размешчаны на абодвух канцах. Метад абмену часам - яшчэ адзін распаўсюджаны метад. У гэтым метадзе пацыентам неабходна прыняць рашэнне аб тым, колькі здаровага часу яны гатовыя выдаткаваць у абмен на перыяд дрэннага здароўя. Стандартны метад азартных гульняў - яшчэ адзін распаўсюджаны метад для вызначэння карыснасці. У гэтым метадзе пацыентаў пытаюцца, які з двух варыянтаў яны аддаюць перавагу: альбо пражыць пэўную колькасць гадоў у нармальным здароўі з пэўнай верагоднасцю (p) (t) і несці рызыку смерці з верагоднасцю 1-p; альбо пераканацца, што яны пражывуць t гадоў пры розных умовах здароўя. Пацыентаў пытаюцца некалькі разоў пры розных значэннях p, пакуль яны не пакажуць перавагі ніводнаму з варыянтаў, каб карыснасць можна было разлічыць на аснове адказаў пацыентаў.
Акрамя метадаў, якія выкарыстоўваюцца для выяўлення індывідуальных пераваг пацыентаў, былі таксама распрацаваны метады для атрымання карыснасці для агульнай папуляцыі пацыентаў. У прыватнасці, фокус-групавыя дыскусіі (абмеркаванне пацыентаў канкрэтнага вопыту) могуць дапамагчы зразумець іх пункты гледжання. Для эфектыўнага аб'яднання карыснасці групы былі прапанаваны розныя метады структураваных групавых дыскусій.
На практыцы непасрэднае ўвядзенне карыснасці ў працэс клінічнай дыягностыкі і лячэння займае вельмі шмат часу. У якасці рашэння звычайна анкеты для апытання распаўсюджваюцца сярод выпадкова абраных папуляцый, каб атрымаць паказчыкі карыснасці на ўзроўні папуляцыі. Некаторыя прыклады ўключаюць 5-мерны апытальнік EuroQol, кароткую форму 6-мернага вагавага апытальніка карыснасці, індэкс карыснасці для здароўя і інструмент Core 30 Еўрапейскай арганізацыі па даследаванні і лячэнні раку, спецыфічнай для раку.
Час публікацыі: 01 чэрвеня 2024 г.




