TensorFlow Tutorial : 文本补齐功能 pad_sequences

Function pad_sequences

From keras.preprocessing.sequence.pad_sequences

Parmas pad_sequences(sequences, maxlen=None, dtype=’int32’, padding=’pre’, truncating=’pre’, value=0.)

函数说明
将长为nb_samples的sequences转化为形如(nb_samples,nb_timesteps) 2D numpy array.
如果提供了参数maxlen, 则nb_timesteps最大值设为maxlen, 否则其值为最长序列的长度.
其他短于该长度的序列都会用0进行填充以达到maxlen.
长于nb_timesteps的序列将会被截断, 以使其匹配目标长度.
padding和截断发生的位置分别取决于参数padding和truncating.

参数说明
sequences : 浮点数或整数构成的两层嵌套列表.
maxlen : None或整数, 为序列的最大长度.
dtype : 返回的 numpy array的数据类型
padding : ‘pre’或‘post’,确定当需要补0时,在序列的起始还是结尾补
truncating : ‘pre’或‘post’,确定当需要截断序列时,从起始还是结尾截断
value : 浮点数,此值将在填充时代替默认的填充值0进行填充.

返回值
返回形如(nb_samples,nb_timesteps)的2D张量


import tensorflow as tf