关于sklearn.model_selection中predefinedsplit中test_fold的参数问题

from sklearn.model_selection import PredefinedSplit
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([0, 0, 1, 1])
test_fold = [0, 1, -1, 1]
ps = PredefinedSplit(test_fold)
ps.get_n_splits()

for train_index, test_index in ps.split():
    print("TRAIN:", train_index, "TEST:", test_index)
为什么get_n_splits返回的是2 以及分类情况为什么是 TRAIN: [1 2 3] TEST: [0] TRAIN: [0 2] TEST: [1 3]
同学您好,非常感谢您的提问~~ 这里   test_fold 是一个索引list,用于划分多重验证集。假如数据集中有4个样本,那么   test_fold = [0, 1, -1, 1]   #将训练集对应的index设为-1,表示永远不划分到验证集中   就表示在第一个验证集包含索引值为0的样本,第二个验证集包含引值为1的样本,以此类推,从而建立自定义的多重验证集。http://blog.csdn.net/isMarvellous/article/details/78195010?locationNum=6&fps=1​  该链接中有对数据集划分更多的介绍,希望对您有帮助~~

要回复问题请先登录注册