1.4.1 测试数据
1.4.1 测试数据
我们以scikit-learn环境介绍常见的性能衡量指标。为了便于演示,我们创建测试数据,测试数据一共有1000条记录,每条记录了100个特征,内容随机生成:
x, y = datasets.make_classification(n_samples=1000, n_features=100,
n_redundant=0, random_state = 1)
把数据集随机划分成训练集和测试集,其中测试集占40%:
train_x, test_x, train_y, test_y = train_test_split(x,
y,
test_size=0.2,
random_state=66)
使用knn算法进行训练和预测:
knn = kneighborsclassifier(n_neighbors=5)
knn.fit(train_x, train_y)
pred_y = knn.predict(test_x)
我们以scikit-learn环境介绍常见的性能衡量指标。为了便于演示,我们创建测试数据,测试数据一共有1000条记录,每条记录了100个特征,内容随机生成:
x, y = datasets.make_classification(n_samples=1000, n_features=100,
n_redundant=0, random_state = 1)
把数据集随机划分成训练集和测试集,其中测试集占40%:
train_x, test_x, train_y, test_y = train_test_split(x,
y,
test_size=0.2,
random_state=66)
使用knn算法进行训练和预测:
knn = kneighborsclassifier(n_neighbors=5)
knn.fit(train_x, train_y)
pred_y = knn.predict(test_x)