假设,某个科研单位或者科研论文,说,他们根据1000个病人得数据库,研发的癌症诊断系统具有 75%的精度。
在没有额外病人数据库的前提下,请问如何验证这一论断?
注意:验证者,没有能力获得任何额外的病人数据库,只能利用的是这个科研单位的已经用过的1000个病人的数据库。
同样的问题,
当世界著名的alphafold,宣称他们的蛋白质结构预测为95%,
那么作为一个独立验证者(你没有能力做任何蛋白质结构的实验去产生新数据),你如何验证他们的95%,是真实的?
microsat 发表于 2023-05-28 19:49
医疗检测 都有两个指标:
一个是检出率,也就是有问题,能查出来的概率。
一个是错误率,也就是检出有问题的,实际是错的。
所以按你说的,那家基本是外行。
这不是建模的基本知识吗? 数据划分成training data, validation data
qqyxgz 发表于 2023-05-28 20:21
是的。谢谢!
假设用5fold cross-validation来验证这个。
fold1,建立了model1,产生精度1=0.95
fold2,建立了model2,产生精度2=0.85
fold3,建立了model3,产生精度3=0.75
fold4,建立了model4,产生精度4=0.65
fold5,建立了model5,产生精度5=0.55
这5个模型的平均精度就是0.75.
是不是这样就认为原癌症检测系统被验证了是75%准确性?
那么,请问,最终实施这套系统的(model deployment),是如何进行的呢?是用model1吗?
是用模型3吗? 还是怎么生成一个final model?
最终被推向产品的这个模型(final model)是怎么建成的呢?
这个最终产品(癌症检测系统)的精度是75%吗?这个如何验证?
我用这1000个病人建立了个final model,怎么精度总是100%的准确呢?这个比75%高许多。
这个就是我的困惑。我验证的结果,比原作者的精度(75%)还要高许多。
這種結果有相當可能是不能完全信賴的
為什麼? 因為一般的做法是先分training and testing sample
也就是說test sample是完全不能用來training的
但如果他發展了一個系統 他用test sample做驗證,發現不夠好,那他修正了系統
然後再用training sample訓練模型 最後得到一個模型或系統
但他report的時候,並不會把他整個過程告訴你
實際上這個系統已經某種程度adapt了他的1000個sample了
這是論文裡經常遇到的問題
但如果是一個真正完全可信賴的系統的話,它的結果應該要有一個完全獨立的測試集來測試
而且測試集的數量不能太少,而且最好要有整個population的代表性。
像總共只有1000個sample,還要分training and testing sample
其實測試集的variation是很大的,但數量不大是病人資料庫很常見的。