基于TensorFlow的数据导入机制

聊一聊tensorflow的数据导入机制
今天我们要讲的是tensorflow中的数据导入机制,传统的做法是习惯于先构建好tf图模型,然后开启一个会话(session),在运行图模型之前将数据feed到图中,这种做法的缺点是数据io带来的时间消耗很大,那么在训练非常庞大的数据集的时候,不提倡采用这种做法,tensorflow中取而代之的是tf.data.dataset模块,今天我们重点介绍这个。
tf.data是一个十分强大的可以用于构建复杂的数据导入机制的api,例如,如果你要处理的是图像,那么tf.data可以帮助你把分布在不同位置的文件整合到一起,并且对每幅图片添加微小的随机噪声,以及随机选取一部分图片作为一个batch进行训练;又或者是你要处理文本,那么tf.data可以帮助从文本中解析符号并且转换成embedding矩阵,然后将不同长度的序列变成一个个batch。
我们可以用tf.data.dataset来构建一个数据集,数据集的来源可以有多种方式,例如如果你的数据集是预先以tfrecord格式写在硬盘上的,那么你可以用tf.data.tfrecorddataset来构建;如果你的数据集是内存中的tensor变量,那么可以用tf.data.dataset.from_tensors() 或 tf.data.dataset.from_tensor_slices()来构建。下面我将通过代码来演示它们。
首先,我们来看从内存中的tensor变量来构建数据集,如下代码所示,首先构建了一个0~10的数据集,然后构建迭代器,迭代器可以每次从数据集中提取一个元素:
import tensorflow as tf dataset=tf.data.dataset.range(10) iterator=dataset.make_one_shot_iterator() next_element = iterator.get_next()with tf.session() as sess: for _ in range(10): print(sess.run(next_element))
如上代码所示,range()是tf.data.dataset类的一个静态函数,用于产生一段序列。需要注意的是,构建的数据集需要是同一种数据类型以及内部结构。除此之外,由于range(10)代表0~9一共十个数,因此,这里的iterator只能运行10次,超过以后将会抛出tf.errors.outofrangeerror异常。如果希望不抛出异常,则可以调用dataset.repeat(count)即可实现count次自动重复的迭代器。
range的范围我们也可以在运行时才确定,即定义max_range为placeholder变量,这个时候需要调用dataset的make_initializable_iterator方法来构建迭代器,并且这个迭代器的operation需要在迭代之前被运行,代码如下所示:
max_range=tf.placeholder(tf.int64, shape=[]) dataset = tf.data.dataset.range(max_range) iterator = dataset.make_initializable_iterator() next_element = iterator.get_next()with tf.session() as sess: sess.run(iterator.initializer, feed_dict={max_range: 10}) for _ in range(10): print(sess.run(next_element))
也可以为不同的数据集创建同一个迭代器,为了使得这个迭代器可以被重复使用,需要保证不同数据集的类型和维度是一致的。例如,下面的代码演示了如何使用同一个迭代器来构建训练集和验证集,可以看到,当我们开始训练训练集的时候,就需要先执行training_init_op,目的是使得迭代器开始加载训练数据;而当进行验证的时候,则需要先执行validation_init_op,道理一样。
training_data = tf.data.dataset.range(100).map(lambda x: x+tf.random_uniform([], -10, 10, tf.int64)) validation_data = tf.data.dataset.range(50) iterator = tf.iterator.from_structure(training_data.output_types, training_data.output_shapes) iterator = tf.data.iterator.from_structure(training_data.output_types, training_data.output_shapes) next_element = iterator.get_next() training_init_op=iterator.make_initializer(training_data) validation_init_op=iterator.make_initializer(validation_data)with tf.session() as sess: for epoch in range(10): sess.run(training_init_op) for _ in range(100): sess.run(next_element) sess.run(validation_init_op) for _ in range(50): sess.run(next_element)
也可以通过tensor变量构建tf.data.dataset,如下代码所示,需要注意的是,这里的tensor的维度是4×10,因此,传入到迭代器中就是可以运行4次,每次运行生成一个长度为10的向量。
import tensorflow as tf dataset = tf.data.dataset.from_tensor_slices(tf.random_uniform([4, 10])) iterator = dataset.make_initializable_iterator() next_element = iterator.get_next()with tf.session() as sess: sess.run(iterator.initializer) for i in range(4): value = sess.run(next_element) print(value)
最后,还有一种比较常见的读取数据的方式,就是从tfrecord文件中去读取,这里再介绍一下之前在语音识别项目里采取的tfrecord的读写代码。
首先是将音频特征写入到tfrecord文件之中,在语音识别中,我们最常用的两个特征就是mfcc和logfbank,要写入文件中的不仅仅是这两个变量,还要有文本标签label以及特征序列的长度sequence_legnth,这四个变量中,只有sequence_length是整数标量,其他三个都是列表格式,所以这里对于列表使用字节来保存,而对于标量,使用整型来保存。
def _bytes_feature(value): return tf.train.feature(bytes_list=tf.train.byteslist(value=[value]))def _int64_feature(value): return tf.train.feature(int64_list=tf.train.int64list(value=[value]))class recordwriter(object): def __init__(self): pass def write(self, content, tfrecords_filename): writer = tf.python_io.tfrecordwriter(tfrecords_filename) if isinstance(content, list): feature_dict = {} for i in range(len(content)): feature = content[i] if i==0: feature_raw = np.array(feature).tostring() feature_dict['mfccfeat']=_bytes_feature(feature_raw) elif i==1: feature_raw = np.array(feature).tostring() feature_dict['logfbankfeat']=_bytes_feature(feature_raw) elif i==2: feature_raw = np.array(feature).tostring() feature_dict['label']=_bytes_feature(feature_raw) else: feature_dict['sequence_length']=_int64_feature(feature) features_to_write = tf.train.example(features=tf.train.features(feature=feature_dict)) writer.write(features_to_write.serializetostring()) writer.close() print('record has been writen:'+tfrecords_filename)
写好tfrecord以后,在读取的时候首先需要对tfrecord格式文件进行解析,解析函数如下:
def parse(self, serialized): feature_dict={} feature_dict['mfccfeat']=tf.fixedlenfeature([], tf.string) feature_dict['logfbankfeat']=tf.fixedlenfeature([], tf.string) feature_dict['label']=tf.fixedlenfeature([], tf.string) feature_dict['sequence_length']=tf.fixedlenfeature([1], tf.int64) features = tf.parse_single_example( serialized, features=feature_dict) mfcc = tf.reshape(tf.decode_raw(features['mfccfeat'], tf.float32), [-1, self.feature_num]) logfbank = tf.reshape(tf.decode_raw(features['logfbankfeat'], tf.float32), [-1, self.feature_num]) label = tf.decode_raw(features['label'], tf.int64) return mfcc, logfbank, label, features['sequence_length']
然后我们可以直接通过调用tf.data.tfrecorddataset来导入tfrecord文件列表,以及对每个文件调用parse函数进行解析,并且由于每个文件的特征矩阵长度不一,所以需要对齐进行padding操作,最终可以获得迭代器,代码如下:
self.filenamelist = tf.placeholder(tf.string, [none, ]) padded_shapes= ([-1,feature_num],[-1,feature_num],[-1],[1]) padded_values = (0.0,0.0,np.int64(-1),np.int64(0)) dataset = tf.data.tfrecorddataset(self.filenamelist, buffer_size=self.buffer_size).map(self.parse, num_parallel_call).padded_batch(batch_size, padded_shapes, padded_values) self.iterator = tf.data.iterator.from_structure((tf.float32, tf.float32, tf.int64, tf.int64), (tf.tensorshape([none, none, 60]), tf.tensorshape([none, none, 60]), tf.tensorshape([none, none]), tf.tensorshape([none, none]))) self.initializer = self.iterator.make_initializer(dataset)
于是,关于tfrecord文件的读写就介绍完了,并且,基于tensorflow的数据导入机制也介绍完了。

智能手机2019年将迎来升级:三大新标准,网速更快,功耗更低
电子产品设计中功率转换拓朴架构重要吗?
韩国电信已发布新一代灾难与安全管理平台SKYSHIP
PCB的简单分类
带远传磁翻板液位计的常见故障及处理
基于TensorFlow的数据导入机制
RK3399 Ubuntu通过Python实现录音和播放功能
区块链在医疗行业中的应用有哪些
学习机器学习的方法及如何运用Python
电气工程原理图合辑
TCL通讯首次向全世界展出了全系列可折叠产品和概念手机
SPI总线学习笔记
指纹解锁安全吗? 用橡皮泥就能开Iphone
PCB丝印的重要性_PCB丝印网板制作工艺详解
LED灯具失效分析
简述基于金刚石量子技术的医疗成像应用
区块链对于实体经济有什么影响
安全缆绳挂锁在日常运用中一般会遇见什么问题
湖南大学:二维碳材料成键形式对热导率的影响规律!
开放领域问答的基本背景和系统介绍