Test in doppio cieco sui cavi. Ci proviamo?

Stato
Discussione chiusa ad ulteriori risposte.
L'affidabilità dell'esperimento è funzione del numero di "lanci" o prove indipendenti (o popolazione). Con 1 persona che fa 30 prove la distribuzione tra A e B di 17 e 13 può essere dovuta al caso per oltre il 50% delle volte, 18 e 12 nel 20%, 20 e 10 nel 4%, 21 e 9 nel 1% dei casi (ovviamente la distribuzione di 15 e 15 è insignificante).
Con 5 persone che non influiscono tra di loro e fanno 30 prove (le 150 totali del mio post precedente) si ottiene che le distribuzione tra A e B di 79 e 71 possono avere un'incidenza dovuta al caso nel 58% delle volte, 83 e 67 il 22%, 86 e 64 il 7%, 89 e 61 il 3%, 90 e 60 il 1.5%, 94 e 56 il 0.5% (ovviamente la distribuzione di 75 e 75 è insignificante).
Ciao, Enzo
P.S: i risultati sopra sono stati ottenuti con 200 lanci da 30 ciascuno e 200 lanci da 150 ciascuno con il generatore di numeri casuali di microsoft excel.
 
Ultima modifica:
@Superslide
Allora cerco intanto di spiegare perché 15/30 per me significa zero.
Lo scopo del test è sentire quanto si riesce a discernere ad orecchio A da B. Nel momento in cui si dà un risultato pari allo sparare a caso il discernimento è nullo, quindi il risultato è 0.

Perchè questo? Perchè il test è solo tra due scelte e al risultato finale dobbiamo impostare come 0 il risultato che si ottiene a fortuna quando non si riesce a discernere 0. Ti faccio per esempio notare che ottieni 15/30 mettendo A su tutte le caselle. Questo ovviamente non è "fare giusto"

@enzo66
Mi sfugge perchè nella tua tabella ci sia una tale differenza tra la scala fino a voto 9 e sopra il voto 9.
Mi sembra quasi che stiamo alzando i voti per venire incontro alla difficoltà del test. Se dovessi discernere una chitarra e una batteria per me sarebbe importante anche se se ne sbaglia 1 su 1000. Perchè fare differenza su questo tipo di test?

Direi che 24/30 possa quindi essere accettata come spartiacque tra il discernibile e il non. (6 / 10 * 15 + 15)
Ho fatto una prova con oocalc, 150 prove danno un margine di errore piuttosto basso
 
Ultima modifica:
@Picander
Perché, già con una scheda (di 30 prove), una distribuzione di 24 indovinate e 6 no (o viceversa) è già molto poco probabile che sia dovuta al caso. Non parliamo di 25 indovinate e 5 no (o viceversa). Quest'ultimo caso non si è mai verificato nemmeno su 400 prove da 30.
Nel caso invece di 150 prove già 94 indovinate su 150 (o viceversa) è poco probabile che siano dovute al caso..... Poi, se si pensa che non è impossibile nemmeno l'autocompressione di un gas ma è solo estremamente improbabile..... allora non assegno voti maggiori di 9.8/10.
La differenza tra 9 e 9.8 è dovuta al fatto che nella definizione di entropia c'è di mezzo un logaritmo.
Ciao, Enzo
 
Per questo per me 24/30 è già un discernimento sufficiente.
l'errore c'è ma può sempre essere in due direzioni. Questo non dovrebbe influire sul voto finale.
Se scomodi una scala logaritmica allora ti chiedo di controllare i calcoli, perchè arrivi lineare fino al voto 9 ;)
 
@enzo66
Mi sfugge perchè nella tua tabella ci sia una tale differenza tra la scala fino a voto 9 e sopra il voto 9.


Perché il tuo approccio alla valutazione NON è in termini statistici e di probabilità. Non puoi partire da una proporzione e dire così vale 6, così 9. Perché? Perché il numero di tentativi conta tantissimo. Il tuo voto 2 per un risultato di 18/30 è poco ma potrei passartelo, però i conti non tornano più se usi lo stesso criterio della proporzione per valutare un risultato di 180/300.
 
@Picander
Tieni conto degli arrotondamenti che influiscono molto, inoltre, non sono poi così lineari. Per ultimo il logaritmo diventa quasi piatto (mi sembra che si dica che cresce di ordine minore di qualunque numero reale) a valori elevati.
Ciao, Enzo
P.S. La mia scala è solo una proposta, non è da prendere come oro colato anche se basata su risultati numerici.
 
Scusate ragazzi ma leggendo questa discussione mi viene da sorridere sempre di più. Io il cavo A dal cavo B lo sento subito anche se non mi dite qual'è prima. Voi non vi rendete conto della differenza sonora che c'è nel cambiare tre di questi cavi dai cordoni originali... Vi accorgerete pure voi che dopo due cambi è ridicolo rifare la prova altre ventotto volte, per me questa è la dimostrazione che di questi cavi non ne avete mai provato uno sul vostro impianto. A parte il tema statistico e scientifico del test, mi sto facendo una cultura in merito, mi sembra che ci stiamo facendo troppe pippe in merito. A casa mia i posti "utili" sono due, forse tre e quindi non ha senso mettere un "inquisito" di lato, anche se la differenza la sentirei pure li.. :)
La maggior parte di voi è convinto che la differenza fra i due trittici sia riconoscibile solo da un pippistrello ma vi assicuro che per uno che ci sente normalmente la differenza è paragonabile a distinguere il blu dal rosso per uno che ci vede, sono convinto che chi verrà a questo test dopo i primi tre o quattro passaggi non riuscirà a stare zitto, faremo tutti una bella risata e andremo a mangiare gnocco e tigelle... :)
La differenza di ampiezza sonora, di profondità dell'immagine, della qualità del dettaglio e della precisione della gamma bassa, della naturalezza delle voci è ENORME fra i due trittici di cavi. Fissiamo la data dai, di parole ne abbiamo spese pure troppe.
 
Se la differenza è notevole è giusto che alla fine venga misurata (senza interrompersi).
Sul metro di misura è meglio accordarsi prima di fare la prova in modo da accettarla tutti e non cadere nell'errore di dare un'interpretazione a posteriori e far finta che tutti avevano ragione e vinto come fanno i politici.

@gius76
Capisco quello che intendi, ma ad occhio ritengo che la probabilità statistica che state calcolando serva a calcolare il margine di errore, non la valutazione del discernimento che secondo me (sempre pronto a cambiare idea) dovrebbe essere lineare.
 
Picander non vedo l'ora di vedere la tua espressione al termine dei quattro passaggi di prova... :) Ricordati delle differenze che ti ho scritto nel post precedente.. ;)
Penso che sia ora di dare la disponibilità per una data da parte dei partecipanti. Preferite in settimana o un fine settimana?
 
Sicuramente avrò un'espressione interessata ;) Ripeto, non vediamola come sfida, ma come un punto fermo da cui far partire una discussione che fino ad ora è stata basata sul non misurabile.

Per me dobbiamo tutti tenere in conto le soprese, per esempio è possibile che un ascoltatore canni tutti e che uno sia un formidabile riconoscitore. Per questo i risultati andranno sia raggruppati, sia considerati singolarmente.
 
Ragazzi mi avete fatto venir voglia di fare una prova anch'io. Siccome non posso venire, me la farò per conto mio.
Le differenze fra cavi (anche quelli di alimentazione) le ho sempre sentite ma non ho mai fatto una prova "al buio" per cui non posso escludere in maniera assoluta che non si sia sempre trattato di suggestione.

Fra un po' dovrebbe arrivarmi un super cavo di alimentazione per il dac: con l'aiuto di mio figlio mi auto-sottoporrò a un test simile a quello che state organizzando. 30 prove con mio figlio che mi cambierà (o fingerà di cambiare) il cavo di alimentazione ad ogni ascolto (io bendato).
Sarò da solo, senza testimoni, quindi nessun indice di credibilità verso terzi ma solo verso me stesso (per capire se finora è stata solo suggestione ;)).
Se poi vi interessasse sapere com'è andata ve lo dirò, altrimenti lo tengo per me ;)
 
Wow spero di aver innescato un buon punto di partenza per il forum. Ben presto un'affermazione sul forum non avrà abbastanza valore se non supportata da test doppio cieco ;)
 
A casa mia i posti "utili" sono due, forse tre e quindi non ha senso mettere un "inquisito" di lato, anche se la differenza la sentirei pure li..
Sarebbe un problema per te stare di lato? Riuscire a misurare almeno in 5 è importante. Del resto hai sicuramente l'orecchio più allenato per questo genere di differenze. Io per esperienza professionale posso riconoscere una voce che sbaglia in un coro di 30 persone (e correggerlo con un'occhiataccia ;) ), ma non sono sicuro di poter sentire questo genere di differenze alla prima sessione.

La maggior parte di voi è convinto che la differenza fra i due trittici sia riconoscibile solo da un pippistrello ma vi assicuro che per uno che ci sente normalmente la differenza è paragonabile a distinguere il blu dal rosso per uno che ci vede

E' per questo che secondo me non dobbiamo usare un metodo di misura che ignori le sfumature su differenze evidenti. Riconoscere due chitarre elettriche diverse non è facile come riconoscere una chitarra elettrica e una acustica. Anche questa sfumatura va misurata.
 
Giusto per arrivare ad una fine:
Sto notando che c'è una certa divergenza di opinioni sui risultati a livello statistico.
Io dico semplicemente che bisogna fissare ,in maniera molto precisa ,le eventuali percentuali di errore .
La distrazione esiste e non vorrei ci si ritrovasse a svalorizzare l'esito della prova perché non si e' definita questa cosa.
Se e' vero che 15/30 non puo essere considerato il 50%, per cui voto zero,
Mi sembra altamente limitante dire che 24/30 sia appena sufficiente.
Non trovate ?

Proviamo a ragionare.
Se i tester saranno 2 ,le prove diventano 60.
Facciamo l'ipotesi che ktm sia sbronzo e io abbia la febbre e alla fine del test sia io che lui ne azzecchiamo 24/30.

Secondo picander Il voto e' 6,ovvero appena sufficiente per stabilire se i cavi si sentono.
Ma se facciamo 2 calcoli,sommando( come e' ovvio che sia) i risultati dei 2 tester viene fuori che sono state azzeccate 48/60.

48 risposte azzeccate su 60 e' appena sufficiente secondo voi?

Secondo me siamo gia di fronte ad un esito molto preoccupante per gli scettici,altro che appena sufficiente.

Bisogna stabilire ragionevolmente una tolleranza massima entro la quale il test possa risultare scientificamente indiscutibile e che non si possa ,ragionevolmente parlando,dire che i test sono stati indovinati a caso.
Riusciamo?
 
Ultima modifica:
secondo me sì perchè sottovaluti quanto "facile" sia fare 30/60. Distinguerne qualcuno non significa necessariamente che la differenza sia netta. Se la differenza c'è (e io tutto sommato penso di sì, perchè anche se non ho ancora ascoltato non posso comunque ignorare la sicurezza di Ktm) non è detto che sia forte e/o importante no? E' importante quando si riesce a distinguere molto facilmente.

Tu continui a guardare i 30, ma prova a immaginare di togliere i 15. Farne 24/30 è equivalente ad un punteggio di 9/15. Così come ti suona? ;)
 
Ultima modifica:
Bene,a questo punto allora propongo:

1)-di eliminare al supervisore l'obbligo di andare ad inserire nelle 30 prove,le 15 prove con i nobili e le 15 con i plebei.
Ovvero,il supervisore fa quello che vuole.
Così facendo non esiste più la possibilità che il tester ,sparando a caso possa azzeccarne 15.
In pratica la facciamo più complicata per il tester,
ma almeno il 15/30 diventa il 50% di risposte azzeccate e non lo 0%,
tra l'altro mi sembra anche più logico.
Le restanti percentuali diventano:

15/30 50% azzeccate -voto 5
18/30 60% azzeccate -voto 6
21/30 70% azzeccate -voto 7
24/30 80% azzeccate -voto 8
27/30 90% azzeccate -voto 9
30/30 100% azzeccate -voto 10

Mi pare che così sia tutto più limpido e chiaro,giusto?

2)-Ovviamente ,a tutela del tester,bisogna almeno imporre al supervisore un cambio (casuale)obbligatorio dei cavi ,ad esempio,ogni 3 prove,
per capirci:
Prova1- cavi A
Prova2- cavi A
Prova3- cavi B(obbligatorio il cambio cavi)
Ecc ecc
Questo per evitare che il supervisore possa decidere di fare sentire per 28 su 30 sempre lo stesso trittico.
Che non sarebbe un problema per il proprietario dell'impianto ,ma per il tester ospite si.
In pratica c'è il rischio che l'ospite ( ad esempio io) che non conosce a menadito l'impianto come il suo proprietario,possa perdere ogni riferimento se il supervisore per 10/20 o 30 volte consecutive mantiene lo stesso trittico di cavi,mentre per poter distinguere le differenze bisogna che al tester venga constantemente offerta la possibilita' di un confronto,per non perdere il riferimento.
Ripeto,non tanto per il padrone di casa ma per i tester ospiti,che si offrono volontari in una prova fatta non nel proprio impianto.


3)-I tester saranno 3,ovvero io,ktm e stratosfera .(un totale di 90 test)
Mi dissoccio dalla prova se si vuol far inserire un altro tester in più a questi sopracitati,per un semplice motivo:
Sono certo della loro competenza e capacita uditiva,di altri eventuali no.
Ergo,non mi metto in gioco per un test se non conosco le capacita dei miei giocatori.

Alla fine della prova la percentuale di errore o meno,verra calcolata sommando le risposte dei tester.

Esempio:
Ktm indovina 28/30
Stratosfera indovina 27/30
Superslide indovina 26/30

Significa che:
Su 90 test sono state indovinate 81 risposte,
Ovvero il 90%.

Rimane da stabilire quale sia la percentuale minima di risposte indovinate per poter stabilire che la prova sia scientificamente valida e inoppugnabile da chiunque ,anche da Einstein.
 
Ultima modifica:
@SUPERSLIDE65
Ho incrementato il numero dei lanci a 400 gruppi da 30. Risulta che 23/30 ha l'1 - 2% di probabilità di essere dovuto al caso. In nessuna delle 400 prove simulate è risultata la combinazione 24/30 che pertanto, se si verifica, non è casuale con ottime probabilità. Secondo il criterio usato da me assegnerei voto 9 - 9.5 a 24/30. La valutazione è del tutto personale nel senso che, di fronte ad un 24/30, me la sentirei di ordinare immediatamente il cavo in questione.
Ciao, Enzo
 
Allora, mi sto documentando in rete sulla statistica attorno questo tipo di test. In questo modo cercheremo di utilizzare un approccio più standard possibile. Nella teoria anche se i test non sono ditribuiti a 15/15 c'è comunque una probabilità vicina al 50% che il test possa essere indovinato a caso 15/30. Per ora non aggiungo altro, perchè ho individuato delle fonti buona ma attualmente non ho tempo di studiarmele. Vedrò stasera cosa ne riesco a tirare fuori.

In parole semplici comunque l'approccio è che più ci si allontana dal 15/30 più la probabilità di indovinare a caso diminuisce. Per esempio per indovinarne 21/30 hai una probabilità su 50 sparando a caso. 23/30 una su 500. 24/30 hai poco meno di una probabilità su 1000.
Vi informo in dettaglio più tardi quando ho tempo....
 
Scusate ma se (paradossalmente) 2 tester su 3 cannassero alla grande (15 su 30) e il terzo le azzeccasse tutte (30 su 30)... cosa si dovrebbe pensare?
Io penserei che le differenze ci sono e sono in assoluto evidenti, e casomai avrei dubbi sull'udito dei 2 che hanno sbagliato ;)
 
di fronte ad un 24/30, me la sentirei di ordinare immediatamente il cavo in questione

Anche su questo non c'è certezza, comprare il cavo dipende anche dalla qualità del cambiamento e dalla differenza percepita.

Sarebbe bello anche fare una misura con microfono delle due configurazioni a fine test, giusto per vedere se qualche differenza viene vista strumentalmente!

Risulta che 23/30 ha l'1 - 2% di probabilità di essere dovuto al caso.
Secondo la distribuzione binomiale dovrebbe essere 0,26%, penso che per calcolare un 1% di ordine di grandezza 400 test siano troppo pochi

edit:
Ho fatto la prova su 1000 prove, la probabilità è identica a quella calcolata con la distribuzione binomiale. Dai che ci siamo, abbiamo trovato l'approccio giusto. A stasera i risultati ;)
 
Ultima modifica:
Stato
Discussione chiusa ad ulteriori risposte.
Top