%%javascript
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;
}


import numpy as np
import pandas as pd
import sys
import os
import matplotlib.pyplot as plt
import gstlearn as gl
import gstlearn.plot as gp


gl.OptCst.define(gl.ECst.NTCOL,6)
gl.law_set_random_seed(13414)


nech = 500
mydb = gl.Db.createFromBox(nech, [0,0], [100, 100])
mydb

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 3
Maximum Number of UIDs       = 3
Total number of samples      = 500

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = x-1 - Locator = x1
Column = 2 - Name = x-2 - Locator = x2


ax = mydb.plot()


sel = gl.VectorHelper.simulateBernoulli(nech, 0.2)
gl.VectorHelper.displayStats("Statistics on the Selection vector",sel)
iuid = mydb.addColumns(sel,"sel")

Statistics on the Selection vector
 - Number of samples = 500 / 500
 - Minimum  =      0.000
 - Maximum  =      1.000
 - Mean     =      0.186
 - St. Dev. =      0.389


dbfmt = gl.DbStringFormat.createFromFlags(flag_stats=True, names=["sel"])
mydb.display(dbfmt)

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 4
Maximum Number of UIDs       = 4
Total number of samples      = 500

Data Base Statistics
--------------------
4 - Name sel - Locator NA
 Nb of data          =        500
 Nb of active values =        500
 Minimum value       =      0.000
 Maximum value       =      1.000
 Mean value          =      0.186
 Standard Deviation  =      0.389
 Variance            =      0.151

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = x-1 - Locator = x1
Column = 2 - Name = x-2 - Locator = x2
Column = 3 - Name = sel - Locator = NA


ax = mydb.plot(name_color="sel")


ranks = gl.VectorHelper.sampleRanks(mydb.getSampleNumber(), proportion=0.2)
print("Number of selected samples =", len(ranks))

Number of selected samples = 100


mydbred1 = gl.Db.createReduce(mydb, ranks=ranks)


ax = mydbred1.plot()
ax.decoration(title="Extraction by Ranks")


mydb.setLocator('sel', gl.ELoc.SEL)
mydbred2 = gl.Db.createReduce(mydb)
mydbred2

Data Base Characteristics
=========================

Data Base Summary
-----------------
File is organized as a set of isolated points
Space dimension              = 2
Number of Columns            = 4
Maximum Number of UIDs       = 4
Total number of samples      = 93
Number of active samples     = 93

Variables
---------
Column = 0 - Name = rank - Locator = NA
Column = 1 - Name = x-1 - Locator = x1
Column = 2 - Name = x-2 - Locator = x2
Column = 3 - Name = sel - Locator = sel


ax = mydbred2.plot()
ax.decoration(title="Extraction by Selection")

Demonstration of gstlearn for the use of a Db¶

Import packages¶

Defining a Data set¶

Extracting a new Data Base upon ranks¶

Extracting a new Data Base upon selection¶