Test in doppio cieco sui cavi. Ci proviamo?

Stato
Discussione chiusa ad ulteriori risposte.
@ Picander : svuota la casella dei PM, ti ho scritto ma mi è tornato un'avviso indietro che dice che se non svuoti la casella dei PM non puoi ricevere il mio.

Grazie e scusate per la digressione
 
Secondo voi è il caso di misurare una differenza anche se si sente solo con confronti molto ravvicinati e contrastanti, o dobbiamo evidenziare se la differenza è tale da essere riconoscibile senza "facilitarne" l'individuazione? (evitando troppe ripetizioni, intervallando ascolti non ciechi per ritrovare il riferimento, etc...)..........[CUT]

Mi permetto di dare la mia opinione...
Secondo me non serve facilitare l'individuazione se si verificano queste condizioni:
- i tester solo 3, di cui uno il proprietario
- si utilizzano i cavi già inseriti nell'impianto (Transparent, se ho capito bene).

Altrimenti, se si usano cavi diversi, e si amplia la platea dei tester, secondo me inserire degli accorgimenti per rendere meno difficile il test potrebbe essere utile.

Il motivo per cui ritengo (da spettatore) che possa essere utile, è che la scelta di inserire i cavi si fa sempre per il proprio impianto, che appunto si conosce a menadito. Non si verifica di solito che si debba decidere per altri, su impianti che non si possiedono e che non si conoscono. Per replicare più da vicino questa situazione, secondo il mio punto di vista, non si possono introdurre troppe variabili rispetto all'ipotesi iniziale: KTM15 nel proprio impianto riconosce i suoi cavi da un comune cavo di alimentazione.

Se il test è svolto da più di tre tester, e tra questi vi è anche chi non è molto esperto, il testa o croce secondo me garantisce a sufficienza anche la necessaria ripetizione periodica, e intervallare (forse meglio dopo 10 che dopo 6 test) invece potrebbe aiutare la concentrazione necessaria agli ospiti.

Essenziale, anche secondo me, che la vera identità di A e B rimanga nascosta fino alla fine e ripetere gli ascolti identificativi di A e B prima di riprendere dopo gli eventuali intervalli.
 
Sono d'accordo con te picander, tendo un filino a innervosirmi se mi si vuole prendere per i cosiddetti!
La mia posizione riguardo al test la conosci, quoto anche Brando, se le differenze sono così nette non ci sará difficoltà nel rilevarle!
 
- si utilizzano i cavi già inseriti nell'impianto (Transparent, se ho capito bene)..........[CUT]
no e' stato detto che si e' disposti a procurare altri cavi,privi di scatolotti,onde evitare qualsiasi tipo polemica post-prova

Solo che forse non vi e' ancora chiaro un punto (ed e' normale visto che in parecchi non hanno mai fatto confronti di questo tipo):
Il problema ,sopratutto per i tester che si offrono a fare la prova fuori casa ,non e' nell indovinare la differenza tra il cavo nobile e il plebeo, che e' e sara' ben evidente.
Il problema e' la memoria.

Ci riprovo con un esempio:
Se accendo l'impianto di casa mia e c'è qualcosa che non va ,anche solo un calo di tensione nella rete,me ne accorgo subito.
Se vengo a casa vostra a sentire l'impianto ,non mi accorgerei di nulla.
Questo cosa significa tradotto nella prova?
Significa che se faccio una prova in cieco in un impianto che non e' il mio non ho riferimenti se non che le differenze tra i cavi.
Solamente confrontando i cavi posso avere un riferimento.

Se fossi a casa mia ,dove sono abituato ad ascoltare in un certo modo,se mi fai ascoltare 150 volte il cavo plebeo,mi rendo perfettamente conto che c'è qualcosa che non va,per cui non ci sarebbe alcun problema a fare un test dove il supervisore mi faccia sentire per 28 su 30 il cavo plebeo.
Me ne accorgo semplicemente perché so che il mio impianto solitamente suona meglio.

Fuori casa,non ho questo riferimento ,ma devo fare affidamento solo alle differenze soniche introdotte al cambio cavi per rispondere al test.
Cosa significa questo?
Significa che sento un cavo ,faccio l'ascolto e mi faccio un idea.
Se all'ascolto successivo sento l'impianto andare meglio( o peggio), ho immediatamente capito quale cavo c'era prima e quale c'e adesso.
Il riferimento c'è l'ho sui cavi, non sull impianto
Più queste prove vengono dilatate e più viene inficiato il test.

Per il padrone di casa invece e' diverso,lui ha anche il riferimento del suo impianto e non ha bisogno di arrivare a confrontare i 2 cavi per capire che qualcosa e' cambiato.


Questo e' il motivo per cui e' stato chiesto di cambiare i cavi almeno ogni 3 test.

All atto pratico ,al fine di constatare se ci sono o meno differenze tra i cavi,questa proposta non va ,ne a inficiare ne a facilitare in niente,serve solo per non introdurre nei tester "ospiti" ,difficoltà di memoria,ma nulla cambia ai fini dello scopo della prova,perché i tester saran sempre bendati e non sapranno comunque che cavi verrano attaccati,ne al primo test,ne al terzo.

Mi sono spiegato ?
 
Ultima modifica:
Allora, come promesso vi riporto una sintesi su ciò che ho assimilato leggendo diverse fonti sul test "doppio cieco".

Cenni sul test Doppio Cieco
Prima di tutto esaminiamo lo scopo del test doppio cieco. Questo genere di test si prefigge di misurare l'effetto di un fenomeno sulla persona al netto di ogni influenza emotiva o cognitiva. Viene usato in campo audio comparando il suono di due oggetti simili, in campo medico comparando un medicinale con un placebo, o in qualsiasi caso in cui bisogna verificare la differenza tra due oggetti, o l'efficacia di un oggetto
Nel nostro caso lo scopo è "si sente la differenza tra un cavo economico e uno hi-end?"
Doppio cieco non significa affatto essere bendati (introdurrebbe nell'ascoltatore un fattore di stress dannoso per il risultato), significa che l'esaminatore non ha contatti con l'ascoltatore, e viceversa al fine di evitare l'influenza dell'esaminatore sull'ascoltatore.

Interpretazione dei dati rilevati con il test, statistica e fattore p
Premetto che ho consultato diverse fonti, ma ce ne è una particolare che riassume eccellentemente tutto l'argomento, in più si riferisce pure al campo audio che male non fa.
http://home.provide.net/~djcarlst/abx_p9.htm

Molti test in doppio cieco vengono eseguiti correttamente ma interpretando i risultati richiedendo un eccessivo numero di positivi (come proponevo inizialmente io) ossia stabilendo che il riconoscimento di una differenza sia certificata quando il numero delle risposte esatte superi il 75% dei test.
In realtà applicando la statistica al risultato del test si può ottenere un risultato positivo anche raggiungendo una percentuale più bassa di risposte giuste. Perchè?
Il tutto si riconduce alla probabilità che un gruppo di risposte esatte sia dovuta alla fortuna, ossia quello che viene definito il fattore p. Il fattore p è un valore calcolato in base a due valori: quante risposte esatte vengono date e quanto è il numero di tentativi. In sintesi quando un risultato positivo ha una bassa probabilità di essere dovuto alla fortuna, è ritenuto giustificato da una reale differenza percepita.

Facciamo un esempio vicino al nostro per rimanere sul pratico: si può dire che facendo un test con 30 ascolti, già dare 21 risposte è indice di un buon risultato perchè la probabilità di indovinarne 21 a caso, il fattore p, è di 0.02 ossia una su 50. Il fattore p viene di solito calcolato con una funzione chiamata "distribuzione binomiale" che potete trovare nei vostri excel e oocalc.

Casistica pratica, numero di test e soglia per un risultato positivo
Ora che abbiamo assimilato i concetti passiamo a fornire due dati importanti che ci serviranno da guida per il nostro test:
1-Ovviamente più sono altri i numeri di tentativi più ci si allontana dalla probabilità di errori (falsi positivi), ma a quanto pare più fonti ritengono che un numero tra 16 e 20 tentativi sia efficace allo scopo di un test doppio cieco. Questo ci semplifica la vita perchè ci darebbe la possibilità di fare due test quasi nello stesso tempo che stavamo programmando di impiegare per uno :)

2-Un test viene ritenuto valido quando il fattore p è uguale o inferiore a 0.05, molto valido quando inferiore a 0.01. Dobbiamo fare attenzione però: se il test è fatto da 5 persone dobbiamo dividere quel valore per 5, perchè aumenteremmo la probabilità che uno indovini a fortuna. Quindi dobbiamo considerare un fattore p < 0.01 ossia un punteggio di 16/20 o 17/20 per un risultato molto valido.
Potremmo anche cumulare il risultato dei 5 tester in quel caso un risultato positivo si può ottenere con 59 risultati positivi su 100 e quindi p < 0.05 oppure 63/100 per un risultato molto valido e p<0.01. Il primo caso dimostra che almeno una persona riesce a percepire una differenza, il secondo che un gruppo di 5 persone riesca a percepire una differenza. Notare come in proporzione i valori siano diversi!


Conclusioni
Per il nostro test possiamo quindi affidarci a 20 tentativi e fare due analisi:
1-la differenza può essere percepita da una sola persona con particolare udito se dà 16/20 risposte corrette, ed è particolamente valida se ne percepisce 17/20
2-un gruppo di 5 persone reputa la differenza udibile se la somma dei risultati raggiunge i 59 ed è particolarmente valida se supera i 63

Spero di essere stato abbastanza semplice, chiaro e che vi troviate d'accordo con i risultati ottenuti.


p.s.
Ho dato abbastanza per stasera, risponderò dopo ad eventuali domande e altre questioni sollevate durante la stesura di questo papiro
 
Ultima modifica:
Spero la discussione prosegua sulla scia degli ultimi interventi.
Per cortesia d'ora in poi evitate di riprendere altri utenti per il fatto di innescare flames, al contempo accendendone di nuovi; oppure di postare in modo pesantemente polemico, per poi tornare sui propri passi... e magari ricominciare da capo.
 
Ultima modifica:
Grande Picander!:) un vero...papiro! Comunque su 20 tentativi, 14 e 15 corrispondono rispettivamente al <5% e al <1% di questo fattore p (che non c'è nei libri di statistica ma rende molto bene l'idea):) Quel 17 già ad occhio mi sembra un po' troppo.

A questo punto meglio lasciar decidere a nordata e ad Alberto il numero di tentativi in base a ragioni pratiche, tecniche e di opportunità, tenendo conto ovviamente che più si alza il numero di tentativi, minore è la proporzione di azzeccate richieste, a parità di fattore p.
 
Ancora con questi test ciechi? Ma non li avevamo già fatti? Il risultato e' sempre uguale, sia quello statistico (nessuna capacita' di nessuno di distinguere nulla), sia quello personale (ognuno rimane della propria opinione).
 
Ottimo Picander.
Quindi si tornerebbe ai 20 tentativi ipotizzati all'inizio. Sono d'accordissimo: bastano e avanzano per fare un test serio, e toglierebbero pure la necessità di fare una pausa a metà strada per schiarirsi le idee (cosa che appesantirebbe il tutto).
 
fattore p (che non c'è nei libri di statistica ma rende molto bene l'idea)

Questo è molto strano! Ne ho sentito parlare su tre siti diversi. Magari la fonte era unica ^^
In ogni caso qualcosa di simile con un altro nome deve esserci visto che in sperimentazione il test doppio cieco è lo strumento più usato
 
Conclusioni
Per il nostro test possiamo quindi affidarci a 20 tentativi e fare due analisi:
1-la differenza può essere percepita da una sola persona con particolare udito se dà 16/20 risposte corrette, ed è particolamente valida se ne percepisce 17/20
2-un gruppo di 5 persone reputa la differenza udibile se la somma dei risultati raggiunge i 59 ed è particolarmente valida se supera i 63

letto, approvato :)

per approfondimenti qui e qui sul p-value
 
sia quello personale (ognuno rimane della propria opinione).

Non sapevo fossero stati fatti altri test. Di certo con una buona preparazione del test non si potrà ignorarne il risultato. Abbiamo anche abbassato considerevolmente la soglia rispetto a quanto previsto all'inizio, quindi i pro-cavi non potranno obiettare alcunché ad un risultato negativo così come i cavo-scettici non potranno ignorare un risultato positivo.

Ci tengo a precisare che abbiamo individuato una soglia precisa, sotto il quale il test sarà fallito e nessuno potrà fare commenti del tipo "per me una differnza c'è perchè ci sono andato vicino, ho ragione io" o "ci siamo stati dentro di poco, ho ragione io". Il test doppio cieco, anche se non può dare certezza assoluta, evidenzia la probabilità che la differenza venga percepita o no. L'unica considerazione che si può fare è che in caso positivo la differenza sarà dimostrata con una probabilita di errore inferiore al 1:20.

E' ovvio che il test viene preparato per stabilire un punto fermo da cui può certo partire una discussione, ma il rigore con cui verrà eseguito non potrà essere messo in discussione vista l'attenzione con cui lo stiamo preparando.
 
Lungi da me l'idea di far polemica:), anche perché ti sei preso la briga di riassumere tutto e in modo così ordinato...

Secondo me quella cosa del dividere per 5 è scritta in modo poco chiaro e non l'ho capita neanche io. Però francamente non ne capisco la ragione... potrebbe essere che loro a rigore non considerano indipendenti i 5 responsi dello stesso ascolto, però secondo me in questo specifico test che facciamo, non c'è alcun problema nel sommare tutte le risposte e considerarle indipendenti. E poi la tavola della binomiale non si trova né con Excel, né col mio libro di statistica.

Ad ogni modo, meglio sorvolare e mettersi d'accordo col buon senso, gli altri potrebbero annoiarsi e leggere questi dettagli di statistica...:)

ah dimenticavo, forse ero stanco quando ho letto il tuo link ieri, ma il fattore p è il p-value. Scusa ma anche nei libri italiani non si traduce mai, ci potevo arrivare con un briciolo di fantasia:p, ma evidentemente ero abbastanza rincretinito ieri...
 
Ultima modifica:
picander, se non vi incasina la vita, rinnovo la richiesta di portare un cavo schermato autocostruito da confrontare "fuori concorso" con quello da pc (naturalmente senza mettersi a fare un altro test doppio cieco), in modo da avere altri elementi minimi di valutazione al di là del cavo da mille euro di ktm
 
Secondo me quella cosa del dividere per 5 è scritta in modo poco chiaro e non l'ho capita neanche io. Però francamente non ne capisco la ragione[CUT]

Beh nessun problema. Allora supponiamo che al test venga posta una soglia di 1/20 di probabilità di sbagliare. Che succede se questo test viene esguito da 20 persone? Che la probabilità di un falso positivo sia molto alta. Per questo non cumulando i risultati bisogna puntare ad un fattore p più basso. (a essere precisi bisognerebbe dividere il nostro fattore p per 4,5 e non 5. Ma non è il caso di fare i sottili visto che con l'arrotondamento siamo lì ;) )

E poi la tavola della binomiale non si trova né con Excel,

Codice:
=DISTRIB.BINOM(20-15;20;0,5;1)
E' incredibile come fare una simulazione su 1000 test da 30 abbia dato una distribuzione approssimata al centesimo con quello indicato dalla distribuzione binomiale!!! :)
 
Ultima modifica:
no e' stato detto che si e' disposti a procurare altri cavi,privi di scatolotti,onde evitare qualsiasi tipo polemica post-prova
Solo che forse non vi e' ancora chiaro un punto (ed e' normale visto che in parecchi non hanno mai fatto confronti di questo tipo):
Il problema ,sopratutto per i tester che si offrono a fare la prova fuori casa ,non e' nell indovinare la differenza tra il cavo nobile e il plebeo, che e' e sara' ben evidente.
Il problema e' la memoria.......[CUT]

Per quanto mi riguarda è proprio per questi motivi che, specie perché verranno usati cavi diversi da quelli che KTM15 ben conosce, la procedura nelle intenzioni di Picander mi pare la migliore possibile.
La sicurezza che mostrate indica che sapete già dove concentrare la vostra attenzione, ma a mio avviso non è il modo giusto di affrontare la questione. Ripetere continuamente che la differenza sarà evidente e che sarà un gioco da ragazzi, stride un po' con la difficoltà reale che mi aspetto da una prova del genere. Anche per cose evidenti il cervello gioca brutti scherzi, quindi a mio parere dovreste cercare di non ostentare la vostra consapevolezza. Dallo spirito del test mi è sembrato che non dovete dimostrare cosa voi siete in grado di fare, ma cosa i cavi sono in grado di apportare, e non in termini di qualità ma di cambiamento...

I miei complimenti a tutti per la disponibilità che state dimostrando, specie a Picander per il notevole impegno infuso nel tentativo di portare il test ad un livello più inattaccabile possibile.
Per quanto mi riguarda le strada intrapresa è sufficientemente buona da farmi prendere una posizione anche senza esperienza diretta, in seguito al risultato del test.
 
Purtroppo non potrò essere della partita ma mi complimento per l' accuratezza e l' approccio con cui state stilando il protocollo.

Sarebbe buona cosa scendere anche nei dettagli del modulo con le risposte, prima di cominciare sarebbe buona cosa effettuare qualche domanda preventiva, questa è adatta a raccogliere e selezionare i dati dopo.

Se sull' argomento ci fossero stati meno attriti in passato ci sarebbe stata la possibilità di inserire un po di goliardia ... della serie il peggiore (ovvero colui che è peggio della monetina :D) riceverà in omaggio la cera per lucidare "le orecchie di legno" peccato.
 
Sottoscrivo ogni parola di Nenny, intanto riporto questo passo che è molto interessante

the ABX Company has adopted the following definitions:
EXPERIMENTOR The person designing the experiment and doing the testing.
LISTENER(S) The person(s) doing the listening.
SUBJECT The audio equipment or audio parameter being investigated; that is the device under test (DUT) or parameter under test (PUT)
It is important not to confuse SUBJECT and LISTENER. Listeners thinking their ears are on trial may be intimidated and thereby not do their best. This caution is worth explaining at the beginning of each test.
 
Stato
Discussione chiusa ad ulteriori risposte.
Top