Zjednodušené vyhodnocení postupné volby z výběru

Problém

Baterie otázek jsou častou součástí dotazníků výzkumu trhu. Nejjednodušším řešením je dichotomická matice (MD - Multiple Dichotomies), kdy respondent označí položky s kladnou odpovědí na otázku. Jemnější rozlišení poskytuje užití vícestupňové škály pro míru (ne)souhlasu. Vyhodnocení je jednoduché, u MD stačí spočítat četnosti a odpovídající procenta, u škálových proměnných jejich průměry. Nevýhodou jsou nízká diskriminační schopnost a zkreslení, které mohou významně ovlivnit interpretaci.

Násobné dichotomické odpovědi mají tendenci buď potlačit nebo zvýraznit rozdíly mezi vlivem položek. Není-li omezen počet možných odpovědí, respondent má tendenci označit mnoho důležitých aspektů nebo naopak málo těch, se kterými je spokojen. To se snaží řešit užití škálové proměnné. Z praxe je známo, že odpovědi jsou často seskupeny k jedné straně škály, zvláště když dovoluje mnoho možností, a rozdíly mezi průměrnými hodnotami jsou relativně malé. Ty jsou beztak jen relativní a interpretace skutečného vlivu je víc než pochybná. Otázka typu "co znamená průměrná hodnota 3.63 na pětistupňové škále" má sotva kdy nějakou rozumnou odpověď.

Odstranění zmíněných problémů poskytuje metoda Maximum Difference Scaling, zkráceně MaxDiff. MaxDiff dovoluje teoreticky neomezený počet položek, v praxi až 40, s limitem asi do 60. Nejběžnější interpretací je rozdělení 100 % vlivu všech položek na jednotlivé položky. Diskriminační schopnost metody je výrazně lepší než obou předchozích postupů. Protože se nepoužívá žádná předem daná škála, je prakticky úplně potlačeno zkreslení vlivem omezenosti škály (cenzorování). Příklad rozdílů mezi výsledky z MaxDiff a škálové baterie uvádí např. Greg Timpany.

Ačkoliv je MaxDiff současným zlatým standardem pro dotazování preferencí uvnitř nějaké množiny položek, používá se málo a to jen tam, kde to jinak už opravdu nejde. Důvody souvisejí s náklady na výzkum ve srovnání s prostým určením četností odpovědí nebo průměrem škál. Snadný návrh dotazníku MaxDiff umožňuje specializovaný software, ale ten není zadarmo. Lze sice využít i jiný software, který vytváří tzv. účinné znáhodněné dotazovací plány, ale vyžaduje to odborníka, který umí takový software využít. Nejvhodnější způsob zpracování dat z dotazování je bayesiánský odhad parametrů multinomického rozdělení, a to opět vyžaduje čas a výdaje.

V současné době je hlavním kriteriem pro volbu výzkumné agentury cena výzkumu. Aby vyhověla daným podmínkám, agentura je nucena využívat nízko-nákladové, a proto i jednoduché postupy, zavedené a prověřené už ve zlatých 60-ých letech minulého století. Čím více vymazlených obrázků v nabídce, otázek v dotazníku a slíbených výsledků, tím lépe. Kvalita dotazování, zpracování a obsahu výsledků nehraje valnou roli, protože se nedá ani prokázat, ani vyvrátit.

Řešení

Alternativou odhadu preferencí položek je jejich seřazení podle vlivu daného otázkou. Charakteristiky různých postupů určení preferencí (hodnocení vlivu - rating, setřídění podle vlivu - ranking, podíl vlivu - constant sum a rozdělení vlivu - MaxDiff) velmi stručně a výstižně uvádí Michaela Mora. Lze s ní plně souhlasit, až na dvě poslední charakteristiky třídění (ranking):

Cit.: "Poskytuje pořadové údaje, které omezují typy analýz, které můžeme provádět na datech."
Metoda postupné volby SCE (SCE – Sequential Choice Exercise, dotazování a vyhodnocení) vede ke kvantitativním hodnotám příspěvků vlivu položek (part-worths), podobně jako MaxDiff, takže uvedené omezení neplatí.
Cit.: "Nedovoluje shodné hodnocení (ties) položek."
Žádný z postupů založených na volbě nevede apriori ke shodnému hodnocení položek, tedy ani MaxDiff. Shodné hodnocení většinou ani není žádoucí.

Významný rozdíl mezi MaxDiff a SCE je v možném celkovém počtu testovaných položek. Zatímco MaxDiff nemá (teoreticky) žádné omezení, první volba v SCE vyžaduje zobrazení všech položek. Únosný počet položek pro setřídění může být jen asi 12 až 15, aby respondent byl schopen všechny přehlédnout, porovnat a rozhodnout. Po provedené volbě se zvolená položka z obrazovky odstraní, ale jejich pořadí na obrazovce se nemění. To ulehčí respondentovi další volbu, protože si polohu pro něj zajímavých položek může pamatovat. Snížení počtu položek vstupujících do SCE je možno dosáhnout jejich předvýběrem.

Zatímco konstrukce dotazníku je jednoduchá, SCE ze samostatných baterií otázek nenašlo v praxi uplatnění, protože rigorózní postup vyhodnocení je zhruba stejně náročný jako pro MaxDiff. To vedlo k myšlence zjednodušit výpočetní postup tak, aby jeho pracnost byla srovnatelná s výpočtem frekvencí dichotomických odpovědí (MD) nebo průměrů škálových proměnných. Protože jde o aproximativní postup, je uveden zde a nikoliv na stránkách DCM - Discrete Choice Modeling. Nicméně se jeví jako alternativa pro standardní baterie, protože do značné míry odstraňuje implicitní zkreslení MD a poskytuje podstatně lepší diskriminaci hlavně mezi nejvlivnějšími položkami. To může být rozhodující pro manažerské rozhodnutí v případě, kdy "vítěz bere vše".

Porovnání výsledků MaxDiff, SCE a MD

Jen praxe ukáže, zda je nějaký postup životaschopný. Proto je na místě porovnání výsledků z MaxDiff, SCE a obvyklého frekvenčního zpracování MD dat. Statisticky průkazné porovnání by vyžadovalo buď akademický grant nebo investiční projekt agentury. Z výsledků MaxDiff lze však snadno simulovat hypotetické volby pořadí preferencí položek pro každého respondenta. Jako datový základ byla zvolena důležitost 36 charakteristik bankovních služeb. Každý z 870 respondentů provedl v MaxDiff experimentu 14 voleb nejdůležitější položky z výběrů o 5 položkách. Všechny dále uvedené výsledky jsou v podobě procentuálních hodnot vlivu položek, tj. součet vlivů všech položek je 100%. Položky jsou označeny B01 až B36 podle klesajícího průměrného vlivu z MaxDiff v dotazovaném vzorku populace.

MaxDiff se 14 a SCE s 18 volbami z 36 položek

Pro první skupinu porovnání byly simulovány SCE volby 18 nejvlivnějších položek proto, že známé pořadí vlivu právě poloviny položek obsahuje maximální množství informace vztažené na jednu volbu.

MaxDiff
MaxDiff 14 voleb z 5 nabídek

Rigorózní SCE
alt

Zjednodušené SCE
alt

Obvyklé MD
alt

Porovnání výsledků MaxDiff (14 voleb z 5 položek) a SCE s 18 simulovanými volbami

Profil vlivů z rigorózního zpracování simulovaných dat SCE je velmi podobný profilu z MaxDiff. První reverze pořadí je až u položky B15. O něco větší diskriminace vlivu mezi položkami v SCE (vyšší faktor škály - scaling factor) je důsledkem vyloučení chybového rozptylu, který z pořadí není odhadnutelný, ale je respektovaný v MaxDiff.

Výsledek zjednodušeného zpracování identických dat pořadí má podobný profil, nicméně reverze pořadí je pozorována už u položky B10. Lze však konstatovat, že pořadí vlivu nejvýznamnější třetiny všech položek nebylo nijak dotčeno. Z praktického hlediska jsou nalezené odchylky nevýznamné.

V reálném MD dotazování by respondent rozhodně nemusel označit 18 nejdůležitějších aspektů z 36. Profil z takového hypotetického dotazování je uveden jen jako ilustrace toho, že omezení počtu označených "důležitých" aspektů je vždy nutné.

SCE s 9 a 6 volbami z 36 položek

Druhá skupina simulovaných porovnání se týká prakticky proveditelných postupů, tj. zjednodušeného vyhodnocení SCE a standardního MD.

SCE - 9 voleb
SCE - 9 voleb pořadí, zjednodušené zpracování údajů

MD - 9 voleb

SCE - 6 voleb
alt

MD - 6 voleb

Porovnání výsledků zjednodušeného vyhodnocení SCE a MD s 9 a 6 volbami z 36 položek

Oba výsledky pro zjednodušené SCE mají podobný profil jako v původním postupu MaxDiff, i když u méně vlivných položek se častěji objevují reverze pořadí. V interpretaci to obvykle nebývá významné. Na výsledku SCE pro 6 voleb je patrna snížená diskriminace mezi 6. a 9. nejvlivnější položkou. Naproti tomu klasický postup MD, tj. procento označených vlivných položek bez pořadí jejich vlivu, se neblíží optimálnímu výsledku ani při omezení počtu označených položek na 6, tj. na 1/6 (17%) z celkového počtu. Stačí si uvědomit, že při rozumném počtu 12 položek by to odpovídalo omezení na označení 2 položek, takže další omezení by nemělo smysl. Pozornost zasluhuje reverze pořadí 2. a 3. nejvlivnější položky v MD s 9 volbami. Ta při 6 volbách právě vymizí, a je dokladem oprávněnosti využívání top-boxů při interpretaci údajů z výzkumu trhu.

Příklad z praxe

Zjednodušená SCE byla využita v hodnocení důležitosti aspektů veřejné služby. Z četných studií je známo, že rozhodujícími pro jednotlivé uživatele služeb jsou 3 až 5 aspektů, velmi zřídka více. V daném případě mohl respondent volit nejvýše 3 nedůležitější položky, tj. 20% z celkového počtu.

SCE - 3 volby

MD - 3 volby

Porovnání výsledků zjednodušeného vyhodnocení
SCE a MD se 3 volbami z 15 položek

Odlišná pořadí preferencí vlivných položek v různých postupech nejsou náhodným artefaktem. Ačkoliv jsou celkové profily preferencí z SCE a MD při omezení počtu voleb na 3 (top-box 20%) dost podobné, mezi oběma postupy je rozdíl u dvou nejvlivnějších položek. V daném případě to velkým překvapením nebylo, položkou V01 byla cena služby.

Souhrn

Potenciál

SCE se zjednodušeným vyhodnocením může v řadě případů nahradit obvyklé baterie.
SCE může najít uplatnění ve dvourozměrných analýzách typu IPA – Importance–Performance Analysis (často důležitost vs. spokojenost), ve kterých je podstatná diskriminační schopnost a spolehlivost hodnot na obou osách.

Výhody

SCE se zjednodušeným vyhodnocením poskytuje výsledky velmi blízké výsledkům z MaxDiff.
Zatímco škálové baterie vyžadují odpověď na všechny otázky, SCE jen na několik nejvlivnějších, nejvýše na 1/2 z celkového počtu položek (větší počet se neuplatní). Dotazování je proto kratší a pro respondenta méně náročné.

Nevýhody

Naprogramování postupné volby v dotazníku je o něco pracnější než standardní MD nebo škálové baterie.
SCE, ve srovnání s MD, vyžaduje od respondenta po každé volbě kliknutí navíc pro vytvoření redukované nabídky (automatické odstranění zvolené položky je možné, ale nelze ho doporučit).
Postup není "zavedený".

K diskusi

SCE je úspěšně používán v úlohách typu conjoint rozpadlých na bloky, kde má dvě hlavní úlohy. Jsou to (a) adaptivní přidělení redukovaného bloku conjoint respondentovi podle jeho zájmu a (b) vytvoření omezujících podmínek pro odhad parametrů DCM modelu, speciálně prahových hodnot pro nekompenzační modelování v simulaci.

Zjednodušený postup SCE, vyvinutý speciálně pro baterie otázek, je relativně nový. Poprvé a naposledy byl použit v prosinci 2013. Bylo by proto zajímavé dovědět se z různých stran výzkumu trhu, jaký je výhled tohoto postupu, zda je považován za účelný nebo neúčelný, akceptovatelný nebo neakceptovatelný, srozumitelný nebo nesrozumitelný, prodejný nebo neprodejný, nebo cokoliv jiného. V souhrnu, jestli má smysl zabývat se podobnými problémy a utápět v nich úsilí a čas.