import numpy as np
import scipy as sp
import scipy.sparse as sp_sparse
import scipy.spatial.distance as sp_dist

import matplotlib.pyplot as plt

import sklearn as sk
import sklearn.datasets as sk_data
import sklearn.metrics as metrics
from sklearn import preprocessing
import sklearn.cluster as sk_cluster
import sklearn.feature_extraction.text as sk_text


import scipy.cluster.hierarchy as hr

import time
import seaborn as sns

%matplotlib inline

from sklearn.preprocessing import OrdinalEncoder

X = [['married','Yes','Athens'],
     ['single','No', 'Ioannina'],
     ['married','No', 'Thessaloniki'],
     ['divorced', 'Yes', 'Athens']]
enc = OrdinalEncoder(handle_unknown = 'use_encoded_value', unknown_value = np.nan)
enc.fit(X)
print(enc.categories_)
print(enc.transform(X))

Y = [['married','No','Athens'],
     ['single','Yes', 'Ioannina'],
     ['single','Yes', 'Patras']
    ]
enc.transform(Y)

X = [['married','Yes',30000],
     ['single','No', 24000],
     ['divorced', 'Yes', 50000]]
enc = OrdinalEncoder(handle_unknown = 'use_encoded_value',unknown_value = -1)
enc.fit(X)
print(enc.categories_)
print("\n")
print(enc.transform(X))
Y = [['married','No',10000],
     ['single','Yes', 24000]]
print("\n")
print(enc.transform(Y))

from sklearn.feature_extraction import DictVectorizer

measurements = [
{'city': 'Dubai', 'temperature': 45},
{'city': 'London', 'temperature': 12},
{'city': 'San Fransisco', 'temperature': 23},
]
vec = DictVectorizer()
print(type(vec.fit_transform(measurements)))
print("\n")
print(vec.fit_transform(measurements).toarray())
print("\n")
vec.get_feature_names_out()

measurements = [
{'city': 'Dubai', 'temperature': 45, 'dummy': 3},
{'city': 'London', 'temperature': 12},
{'city': 'San Fransisco', 'temperature': 23},
]
vec = DictVectorizer()
vec.fit(measurements)
print(vec.get_feature_names_out())
print(vec.transform(measurements).toarray())

x = {'city': 'Athens', 'temperature': 32, 'dummy':4, 'dummy2': 2}
print(vec.transform(x).toarray())

measurements = [
    {'refund' : 'No','marital_status': 'married', 'income' : 100},
    {'refund' : 'Yes','marital_status': 'single', 'income' : 120},
    {'refund' : 'No','marital_status':'divorced', 'income' : 80},
]
vec = DictVectorizer()
print(vec.fit_transform(measurements))
print("\n")
print(vec.transform(measurements).toarray())
print("\n")
vec.get_feature_names_out()

X = [[0,1,2],
     [1,2,3],
     [0,1,4]]
enc = preprocessing.OneHotEncoder(handle_unknown='ignore')
enc.fit(X)
enc.transform([[0,2,4],[1,1,2]]).toarray()

enc.categories_

enc.transform([[2,2,4],[1,1,2]]).toarray()

X = [['married','Yes',30000],
     ['single','No', 24000],
     ['divorced', 'Yes', 50000]]
enc = preprocessing.OneHotEncoder(handle_unknown='ignore')
enc.fit_transform(X).toarray()

enc.categories_

X = [[0,1,2],
     [1,2,3],
     [0,1,4]]
enc = preprocessing.OneHotEncoder(drop = 'if_binary')  # First two features are binary. They take values {0,1} and {1,2}
enc.fit(X)                                             # Keep them in ONE column
print(enc.categories_)
print(enc.transform([[1,2,4],[0,1,2]]).toarray())

import sklearn.feature_extraction.text as sk_text

corpus = ['This is the first document.',
           'this is the second, second document.',
           'And the third one.',
           'Is this the first document?',
          ]

vectorizer = sk_text.CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print("\n")
print(X.toarray())

import sklearn.feature_extraction.text as sk_text

corpus = ['This is the first document.',
           'this is the second second document.',
           'And the third one.',
           'Is this the first document?',
          ]

vectorizer = sk_text.CountVectorizer(min_df=2)
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

vectorizer.transform(['The first and    last,document.']).toarray()

corpus = ['This is the first document.',
           'this is the second second document.',
           'And the third one.',
           'Is this the first document?',
          ]

vectorizer = sk_text.CountVectorizer(stop_words = 'english')

X2 = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X2.toarray())

corpus = ['This is the first document.',
           'this is the second second document.',
           'And the third one.',
           'Is this the first document?',
          ]

vectorizer = sk_text.TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(corpus)
print (vectorizer.get_feature_names_out())
print(X.toarray())

print(vectorizer.idf_)

vectorizer.transform(['The first and    last,document.']).toarray()

vectorizer = sk_text.TfidfVectorizer(stop_words = 'english',min_df=1)
X = vectorizer.fit_transform(corpus)
print (vectorizer.get_feature_names_out())
print(X.toarray())

from sklearn.datasets import fetch_20newsgroups

categories = ['comp.os.ms-windows.misc', 'sci.space','rec.sport.baseball']
#categories = ['alt.atheism', 'sci.space','rec.sport.baseball']
news_data = sk_data.fetch_20newsgroups(subset='train',
                               remove=('headers', 'footers', 'quotes'),
                               categories=categories)
print (news_data.target)        # 0: Windows , 1: Space , 2: Baseball
print (len(news_data.target))

print (type(news_data))     # Dictionary-like Object
print("\n")
print (news_data.filenames)
print("\n")
print (news_data.target[:10])
print("\n")
print (news_data.data[1])
print("\n")
print (len(news_data.data))

vectorizer = sk_text.TfidfVectorizer(stop_words='english',
                             #max_features = 100,
                             min_df=4, max_df=0.8)
data = vectorizer.fit_transform(news_data.data)
print(type(data))
print(vectorizer.get_feature_names_out())
#print(data[0][:10])
print("\n")
print(vectorizer.get_feature_names_out()[:50])   # First 50 words
print("\n")
print(vectorizer.get_feature_names_out()[-50:])  # Last 50 words

print(vectorizer.idf_)

from sklearn import preprocessing

X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  1.],
              [ 0.,  1., -1.]])
print("column means: ",X.mean(axis = 0))   # axis = 0 columns , axis = 1 rows
print("column std: ",X.std(axis = 0))
X_scaled = preprocessing.scale(X)
print("\n")
print("after feature normalization")
print(X_scaled)
print("\n")
print("normalized column means: ",X_scaled.mean(axis=0))
print("normalized column std: ",X_scaled.std(axis = 0))

print("row means: ",X.mean(axis = 1))
print("row std: ",X.std(axis = 1))
X_scaled = preprocessing.scale(X, axis = 1)
print("\n")
print("after row normalization")
print(X_scaled)
print("\n")
print("normalized row means: ",X_scaled.mean(axis=1))
print("normalized row std: ",X_scaled.std(axis = 1))

import scipy.sparse
cX = scipy.sparse.csc_matrix(X)
cX_scaled = preprocessing.scale(cX)
print(cX_scaled)

from sklearn import preprocessing
std_scaler = preprocessing.StandardScaler()
std_scaler.fit(X)
print(X)
print("\n")
print("Column Means:")
print(std_scaler.mean_)
print("\nColumn Std:")
print(std_scaler.scale_)
X_std = std_scaler.transform(X)
print("\n")
print("scaled data:")
print(X_std)

y = np.array([[2.,3.,1.],
              [1.,2.,1.]])
print(std_scaler.transform(y))

min_max_scaler = preprocessing.MinMaxScaler()
X_minmax = min_max_scaler.fit_transform(X)
print("Original Matrix:")
print(X)
print("\n")
print("MinMax Scaled Matrix:")
print(X_minmax)
print("\n")
print(min_max_scaler.transform(y))

z = np.array([3,-2,0]).reshape(1,3)  # Reshape to make it into 1 feature
min_max_scaler.transform(z)

print("Original Matrix:")
print(X)
max_abs_scaler = preprocessing.MaxAbsScaler()
X_maxabs = max_abs_scaler.fit_transform(X)
print("\n")
print("MaxAbs Scaled Matrix:")
print(X_maxabs)

# works with sparse data
cX_scaled = max_abs_scaler.transform(cX)
print(cX_scaled)

#works with sparse data

X_normalized = preprocessing.normalize(X, norm='l2')

print("Original Matrix:")
print(X)
print("\n")
print("L2 Normalized Matrix:")
print(X_normalized)

crX = scipy.sparse.csr_matrix(X)
crX_scaled = preprocessing.normalize(crX,norm='l1')
print(crX_scaled)

Processing Complex Data¶

Ordinal Encoder¶

DictVectorizer¶

OneHotEncoder¶

Text processing¶

CountVectorizer¶

TfIdfVectorizer¶

Feature normalization¶