RandolphVI
diff --git a/‎ANN/train_ann.py‎
Lines changed: 2 additions & 2 deletions b/‎ANN/train_ann.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎CNN/train_cnn.py‎
Lines changed: 2 additions & 2 deletions b/‎CNN/train_cnn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎CRNN/train_crnn.py‎
Lines changed: 2 additions & 2 deletions b/‎CRNN/train_crnn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎FastText/train_fast.py‎
Lines changed: 2 additions & 2 deletions b/‎FastText/train_fast.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎HAN/train_han.py‎
Lines changed: 2 additions & 2 deletions b/‎HAN/train_han.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎RCNN/train_rcnn.py‎
Lines changed: 2 additions & 2 deletions b/‎RCNN/train_rcnn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎RNN/train_rnn.py‎
Lines changed: 2 additions & 2 deletions b/‎RNN/train_rnn.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎SANN/train_sann.py‎
Lines changed: 2 additions & 2 deletions b/‎SANN/train_sann.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎utils/data_helpers.py‎
Lines changed: 5 additions & 5 deletions b/‎utils/data_helpers.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎utils/param_parser.py‎
Lines changed: 8 additions & 8 deletions b/‎utils/param_parser.py‎
Lines changed: 8 additions & 8 deletions
@@ -39,7 +39,7 @@ def train_ann():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and ann object
     with tf.Graph().as_default():
@@ -53,7 +53,7 @@ def train_ann():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 fc_hidden_size=args.fc_dim,
                 num_classes=args.num_classes,
                 l2_reg_lambda=args.l2_lambda,
 
@@ -40,7 +40,7 @@ def train_cnn():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and cnn object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_cnn():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 filter_sizes=args.filter_sizes,
                 num_filters=args.num_filters,
                 fc_hidden_size=args.fc_dim,
 
@@ -40,7 +40,7 @@ def train_crnn():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and crnn object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_crnn():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 filter_sizes=args.filter_sizes,
                 num_filters=args.num_filters,
                 lstm_hidden_size=args.lstm_dim,
 
@@ -40,7 +40,7 @@ def train_fasttext():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and fasttext object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_fasttext():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 num_classes=args.num_classes,
                 l2_reg_lambda=args.l2_lambda,
                 pretrained_embedding=pretrained_word2vec_matrix)
 
@@ -40,7 +40,7 @@ def train_han():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and han object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_han():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 lstm_hidden_size=args.lstm_dim,
                 fc_hidden_size=args.fc_dim,
                 num_classes=args.num_classes,
 
@@ -40,7 +40,7 @@ def train_rcnn():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and rcnn object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_rcnn():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 lstm_hidden_size=args.lstm_dim,
                 filter_sizes=args.filter_sizes,
                 num_filters=args.num_filters,
 
@@ -40,7 +40,7 @@ def train_rnn():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and rnn object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_rnn():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 lstm_hidden_size=args.lstm_dim,
                 fc_hidden_size=args.fc_dim,
                 num_classes=args.num_classes,
 
@@ -40,7 +40,7 @@ def train_sann():
     x_val, y_val = dh.pad_data(val_data, args.pad_seq_len)
 
     # Build vocabulary
-    VOCAB_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.embedding_dim, args.word2vec_file)
+    VOCAB_SIZE, EMBEDDING_SIZE, pretrained_word2vec_matrix = dh.load_word2vec_matrix(args.word2vec_file)
 
     # Build a graph and sann object
     with tf.Graph().as_default():
@@ -54,7 +54,7 @@ def train_sann():
                 sequence_length=args.pad_seq_len,
                 vocab_size=VOCAB_SIZE,
                 embedding_type=args.embedding_type,
-                embedding_size=args.embedding_dim,
+                embedding_size=EMBEDDING_SIZE,
                 lstm_hidden_size=args.lstm_dim,
                 attention_unit_size=args.attention_dim,
                 attention_hops_size=args.attention_hops_dim,
 
@@ -281,12 +281,11 @@ def create_metadata_file(word2vec_file, output_file):
                 fout.write(word[0] + '\n')
 
 
-def load_word2vec_matrix(embedding_size, word2vec_file):
+def load_word2vec_matrix(word2vec_file):
     """
     Return the word2vec model matrix.
 
     Args:
-        embedding_size: The embedding size
         word2vec_file: The word2vec file
     Returns:
         The word2vec model matrix
@@ -297,13 +296,14 @@ def load_word2vec_matrix(embedding_size, word2vec_file):
         raise IOError("[Error] The word2vec file doesn't exist. ")
 
     model = gensim.models.Word2Vec.load(word2vec_file)
-    vocab_size = len(model.wv.vocab.items())
+    vocab_size = model.wv.vectors.shape[0]
+    embedding_size = model.vector_size
     vocab = dict([(k, v.index) for k, v in model.wv.vocab.items()])
     embedding_matrix = np.zeros([vocab_size, embedding_size])
     for key, value in vocab.items():
         if key is not None:
             embedding_matrix[value] = model[key]
-    return vocab_size, embedding_matrix
+    return vocab_size, embedding_size, embedding_matrix
 
 
 def data_word2vec(input_file, num_labels, word2vec_model):
@@ -475,7 +475,7 @@ def load_data_and_labels(data_file, num_labels, word2vec_file, data_aug_flag):
     Args:
         data_file: The research data
         num_labels: The number of classes
-        word2vec_file: The embedding size
+        word2vec_file: The word2vec model file
         data_aug_flag: The flag of data augmented
     Returns:
         The class Data
 
@@ -38,7 +38,7 @@ def parameter_parser():
     parser.add_argument("--pad-seq-len",
                         type=int,
                         default=150,
-                        help="Padding Sequence length of data. (depends on the data)")
+                        help="Padding sequence length of data. (depends on the data)")
 
     parser.add_argument("--embedding-type",
                         type=int,
@@ -48,7 +48,7 @@ def parameter_parser():
     parser.add_argument("--embedding-dim",
                         type=int,
                         default=100,
-                        help="Dimensionality of character embedding. (default: 300)")
+                        help="Dimensionality of character embedding. (default: 100)")
 
     parser.add_argument("--filter-sizes",
                         type=list,
@@ -68,17 +68,17 @@ def parameter_parser():
     parser.add_argument("--lstm-dim",
                         type=int,
                         default=256,
-                        help="Dimensionality for LSTM Neurons. (default: 256)")
+                        help="Dimensionality of LSTM neurons. (default: 256)")
 
     parser.add_argument("--lstm-layers",
                         type=int,
                         default=1,
-                        help="Number of LSTM Layers. (default: 1)")
+                        help="Number of LSTM layers. (default: 1)")
 
     parser.add_argument("--attention-dim",
                         type=int,
-                        default=350,
-                        help="Dimensionality of Attention Neurons. (default: 200)")
+                        default=200,
+                        help="Dimensionality of Attention neurons. (default: 200)")
 
     parser.add_argument("--attention-hops-dim",
                         type=int,
@@ -88,7 +88,7 @@ def parameter_parser():
     parser.add_argument("--fc-dim",
                         type=int,
                         default=512,
-                        help="Dimensionality for FC Neurons. (default: 512)")
+                        help="Dimensionality for FC neurons. (default: 512)")
 
     parser.add_argument("--dropout-rate",
                         type=float,
@@ -119,7 +119,7 @@ def parameter_parser():
     parser.add_argument("--batch-size",
                         type=int,
                         default=256,
-                        help="Batch Size. (default: 256)")
+                        help="Batch size. (default: 256)")
 
     parser.add_argument("--learning-rate",
                         type=float,