Skip to content

1. 从文件中加载训练数据

1.1 纯文本文件

数据可能包含其他无关项,可能需要清洗或整理。使用过滤函数或者正则表达式。

regexp
[^,]*,(\d+,\d+,\d+,\d+) => \1

注意文件编码,是 utf-8 还是 utf-8 with BOM,编码不同会出现读取问题。

1.2 .csv 文件

使用 pandas.read_csv() 打开 .csv 文件:

python
pd.read_csv('data.csv', dtype=np.float32, header=None, usecols=(1, 2, 3, 4))

读取的时候可以传入 converters 选项,进行自定义转换。

我们现在新建一个 .csv 文件,内容如下:

python
90,80,70,0
98,95,87,1
99,99,99,1
80,85,90,0

1.3 总结

读取训练数据不仅包括 .txt.csv 文件,可能还包括图像文件或其他二进制文件。数据可能会需要清洗或预处理成为符合神经网络定义的数据。