import numpy as np
import pandas as pd
import sys
import os
import matplotlib.pyplot as plt
import gstlearn as gl
import gstlearn.plot as gp
import gstlearn.document as gdoc

gdoc.setNoScroll()

filepath = gdoc.loadData("Pollution", "Pollution.dat")
mydb = gl.Db.createFromCSV(filepath,gl.CSVformat())
mydb.setLocators(["X","Y"],gl.ELoc.X)
mydb.setLocator("Pb",gl.ELoc.Z)

dbfmt = gl.DbStringFormat.createFromFlags(flag_vars=True, flag_extend=True, flag_stats=True,
                                         names=["*Pb"]) 
mydb.display(dbfmt)

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 5
Total number of samples      = 102

Data Base Extension
-------------------
Coor #1 - Min =    109.850 - Max =    143.010 - Ext = 33.16
Coor #2 - Min =    483.660 - Max =    513.040 - Ext = 29.38

Data Base Statistics
--------------------
5 - Name Pb - Locator z1
 Nb of data          =        102
 Nb of active values =        101
 Minimum value       =      3.000
 Maximum value       =     31.600
 Mean value          =      6.104
 Standard Deviation  =      3.594
 Variance            =     12.916

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = X - Locator = x1
Column = 2 - Name = Y - Locator = x2
Column = 3 - Name = Zn - Locator = NA
Column = 4 - Name = Pb - Locator = z1

ax = gp.histogram(mydb, name="Pb", bins=30)
ax.decoration(title="Pb (initial)")

tab = mydb.getColumn("Pb")
iuid = mydb.addSelection(tab<24)

ax = gp.histogram(mydb, name="Pb", bins=30)
ax.decoration(title="Pb after filtering the two outliers")

mydb.display(dbfmt)

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 6
Total number of samples      = 102
Number of active samples     = 99

Data Base Extension
-------------------
Coor #1 - Min =    109.850 - Max =    143.010 - Ext = 33.16
Coor #2 - Min =    483.660 - Max =    513.040 - Ext = 29.38

Data Base Statistics
--------------------
5 - Name Pb - Locator z1
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =      3.000
 Maximum value       =     12.700
 Mean value          =      5.658
 Standard Deviation  =      1.697
 Variance            =      2.881

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = X - Locator = x1
Column = 2 - Name = Y - Locator = x2
Column = 3 - Name = Zn - Locator = NA
Column = 4 - Name = Pb - Locator = z1
Column = 5 - Name = NewSel - Locator = sel

ax = mydb.plot(nameColor="Pb",size=50)
ax.decoration(title="Data Set (Outliers have been masked off)")
plt.show()

myVarioParamOmni = gl.VarioParam()
mydir = gl.DirParam.create(npas=10, dpas=1.)
myVarioParamOmni.addDir(mydir)

myvario = gl.Vario(myVarioParamOmni)
err = myvario.compute(mydb,gl.ECalcVario.VARIOGRAM)

ax = myvario.plot()
ax.decoration(title="Omni-directional Variogram for Pb")

mymodel = gl.Model.createFromDb(mydb)
err = mymodel.fit(myvario,[gl.ECov.EXPONENTIAL,gl.ECov.SPHERICAL])

ax = gp.varmod(myvario,mymodel)
ax.decoration(title="Model for Pb")

mymodel.setDriftIRF()
mymodel.display()

Model characteristics
=====================
Space dimension              = 2
Number of variable(s)        = 1
Number of basic structure(s) = 2
Number of drift function(s)  = 1
Number of drift equation(s)  = 1

Covariance Part
---------------
Exponential
- Sill         =      0.966
- Range        =      0.637
- Theo. Range  =      0.212
Spherical
- Sill         =      1.670
- Range        =      5.757
Total Sill     =      2.637

Drift Part
----------
Universality_Condition

myanamE = gl.AnamEmpirical()
err = myanamE.fitFromLocator(mydb)

ax = gp.XY(myanamE.getYDisc(), myanamE.getZDisc())
ax.decoration(title="Empirical Anamorphosis", xlabel="Gaussian values", ylabel="Raw values")

err = myanamE.rawToGaussian(mydb, "Pb")
ax = gp.histogram(mydb, name="Y.Pb", bins=30)
mydb.deleteColumn("Y.Pb")
mydb.setLocator("Pb", gl.ELoc.Z)

myanamEG = gl.AnamEmpirical(100, 0.1, True, True)
err = myanamEG.fitFromLocator(mydb)

ax = gp.XY(myanamEG.getYDisc(), myanamEG.getZDisc())
ax.decoration(title="Empirical Anamorphosis (Gaussian Dilution)", xlabel="Gaussian values", ylabel="Raw values")

myanamEL = gl.AnamEmpirical(100, gl.TEST, True, False)
err = myanamEL.fitFromLocator(mydb)

ax = gp.XY(myanamEL.getYDisc(), myanamEL.getZDisc())
ax.decoration(title="Empirical Anamorphosis (Lognormal Dilution)", xlabel="Gaussian values", ylabel="Raw values")

myanam = gl.AnamHermite(30)
myanam.fitFromLocator(mydb)
myanam.display()

Hermitian Anamorphosis
----------------------
Minimum absolute value for Y  = -2.7
Maximum absolute value for Y  = 2.6
Minimum absolute value for Z  = 3.0029
Maximum absolute value for Z  = 12.9777
Minimum practical value for Y = -2.7
Maximum practical value for Y = 2.6
Minimum practical value for Z = 3.0029
Maximum practical value for Z = 12.9777
Mean                          = 5.65758
Variance                      = 2.86296
Number of Hermite polynomials = 30
Normalized coefficients for Hermite polynomials (punctual variable)
               [,  0]    [,  1]    [,  2]    [,  3]    [,  4]    [,  5]    [,  6]
     [  0,]     5.658    -1.625     0.440    -0.069    -0.017     0.082    -0.061
     [  7,]     0.001     0.036    -0.044     0.004     0.047    -0.030    -0.029
     [ 14,]     0.037     0.007    -0.031     0.010     0.018    -0.019    -0.003
     [ 21,]     0.019    -0.010    -0.014     0.019     0.006    -0.023     0.004
     [ 28,]     0.022    -0.013

ax = gp.anam(myanam)
ax.decoration(title="Anamorphosis")

err = myanam.rawToGaussianByLocator(mydb)
mydb.display(dbfmt)

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 7
Total number of samples      = 102
Number of active samples     = 99

Data Base Extension
-------------------
Coor #1 - Min =    109.850 - Max =    143.010 - Ext = 33.16
Coor #2 - Min =    483.660 - Max =    513.040 - Ext = 29.38

Data Base Statistics
--------------------
5 - Name Pb - Locator NA
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =      3.000
 Maximum value       =     12.700
 Mean value          =      5.658
 Standard Deviation  =      1.697
 Variance            =      2.881
7 - Name Y.Pb - Locator z1
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =     -2.700
 Maximum value       =      2.513
 Mean value          =     -0.005
 Standard Deviation  =      1.007
 Variance            =      1.014

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = X - Locator = x1
Column = 2 - Name = Y - Locator = x2
Column = 3 - Name = Zn - Locator = NA
Column = 4 - Name = Pb - Locator = NA
Column = 5 - Name = NewSel - Locator = sel
Column = 6 - Name = Y.Pb - Locator = z1

ax = gp.histogram(mydb, name="Y.Pb", bins=30)

myvarioG = gl.Vario(myVarioParamOmni)
err = myvarioG.compute(mydb,gl.ECalcVario.VARIOGRAM)

mymodelG = gl.Model.createFromDb(mydb)
constr = gl.Constraints(1)
err = mymodelG.fit(myvarioG,[gl.ECov.EXPONENTIAL], constr)
ax = gp.varmod(myvarioG,mymodelG)
ax.decoration(title="Model for Gaussian Pb")

myanam.gaussianToRaw(mydb,"Y.Pb")
mydb.display(dbfmt)

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 8
Total number of samples      = 102
Number of active samples     = 99

Data Base Extension
-------------------
Coor #1 - Min =    109.850 - Max =    143.010 - Ext = 33.16
Coor #2 - Min =    483.660 - Max =    513.040 - Ext = 29.38

Data Base Statistics
--------------------
5 - Name Pb - Locator NA
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =      3.000
 Maximum value       =     12.700
 Mean value          =      5.658
 Standard Deviation  =      1.697
 Variance            =      2.881
7 - Name Y.Pb - Locator NA
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =     -2.700
 Maximum value       =      2.513
 Mean value          =     -0.005
 Standard Deviation  =      1.007
 Variance            =      1.014
8 - Name Z.Y.Pb - Locator z1
 Nb of data          =        102
 Nb of active values =         99
 Minimum value       =      3.003
 Maximum value       =     12.700
 Mean value          =      5.658
 Standard Deviation  =      1.697
 Variance            =      2.881

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = X - Locator = x1
Column = 2 - Name = Y - Locator = x2
Column = 3 - Name = Zn - Locator = NA
Column = 4 - Name = Pb - Locator = NA
Column = 5 - Name = NewSel - Locator = sel
Column = 6 - Name = Y.Pb - Locator = NA
Column = 7 - Name = Z.Y.Pb - Locator = z1

ax = gp.correlation(mydb, namex="Pb", namey="Z.Y.Pb", asPoint=True)

Anamorphosis¶

Import packages¶

Reading data¶

Variograms¶

Model¶

Empirical Anamorphosis¶

Normal Score¶

Anamorphosis with Gaussian Dilution¶

Anamorphosis with Lognormal Dilution¶

Gaussian Anamorphosis¶

Variogram in the Gaussian scale¶

Back transform from Gaussian to Raw scale¶