import gstlearn.document as gdoc
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import gstlearn as gl 
from IPython.display import Markdown

gdoc.setNoScroll()

data = pd.read_csv(gdoc.loadData("Scotland", "Scotland_Temperatures.csv"))
data

z = data["Elevation"].to_numpy()

Markdown(gdoc.loadDoc("Statistics_mean.md"))

m = np.mean(z)
rounded = np.round(m,decimals=2)
print("Mean = " + str(rounded))

Mean = 146.44

Markdown(gdoc.loadDoc("Statistics_median.md"))

print("Median = " + str(np.median(z)))

Median = 85.5

Markdown(gdoc.loadDoc("Statistics_quartiles.md"))

print("Quartiles = " + str(np.quantile(z,[0,0.25,0.5,0.75,1])))

Quartiles = [  2.    28.5   85.5  216.25 800.  ]

Markdown(gdoc.loadDoc("Statistics_quantiles.md"))

Markdown(gdoc.loadDoc("Statistics_range.md"))

print("Range= " + str(np.max(z)-np.min(z)))

Range= 798

Markdown(gdoc.loadDoc("Statistics_interq.md"))

print("Inter-quartiles distance = " + str(np.diff(np.quantile(z,[0.25,0.75]))))

Inter-quartiles distance = [187.75]

Markdown(gdoc.loadDoc("Statistics_variance.md"))

# Variance
n = len(z)
print("Variance (First formula) = " + str(np.mean((z-np.mean(z))**2)))
print("Variance (Sec.  formula) = " + str(np.mean(z**2)-np.mean(z)**2))
print("Variance (numpy version) = " + str(np.var(z)))

Variance (First formula) = 27270.71258259121
Variance (Sec.  formula) = 27270.712582591204
Variance (numpy version) = 27270.71258259121

Markdown(gdoc.loadDoc("Statistics_std.md"))

print("Variance (numpy version) = " + str(np.std(z)))

Variance (numpy version) = 165.13846487899545

Markdown(gdoc.loadDoc("Statistics_histo.md"))

nbin = 20
ax = plt.hist(z,bins=nbin)

#Histogram (normalized)
ax = plt.hist(z,bins=nbin,density=True)

Markdown(gdoc.loadDoc("Statistics_histocum.md"))

#Cumulative histogram
p = 0.8
x = np.sort(z)
y = np.linspace(1/len(z),1,len(x))
a = plt.plot(x, y)
a = plt.scatter(np.quantile(z,p),p,c="r")

Markdown(gdoc.loadDoc("Statistics_quantileF.md"))

#Quantile function
p = 0.8
plt.plot(y,x)
a = plt.scatter(p,np.quantile(z,p),c="r")

Markdown(gdoc.loadDoc("Statistics_Ore.md"))

#Ore
ore = 1. - y
a = plt.plot(x,ore)

Markdown(gdoc.loadDoc("Statistics_Metal.md"))

#Metal (normalized)
metal = 1/len(x)*(np.sum(x)-np.cumsum(x))
a = plt.plot(x, metal)

Markdown(gdoc.loadDoc("Statistics_Grade.md"))

#Grade
a = plt.plot(x[:-1],metal[:-1]/ore[:-1])

Markdown(gdoc.loadDoc("Statistics_QT.md"))

#Q(T) curve
a = plt.plot(ore, metal/metal[0])
a = plt.plot([0,1],[0,1],"--")

Markdown(gdoc.loadDoc("Statistics_Benefit.md"))

#Benefit
a = plt.plot(x,metal-x*ore)

Markdown(gdoc.loadDoc("Statistics_Bivariate.md"))

temp = data["January_temp"].to_numpy()
elev = data["Elevation"].to_numpy()
sel = temp!="MISS"
z2=temp[sel].astype("float")
z1=elev[sel]

Markdown(gdoc.loadDoc("Statistics_Covariance.md"))

# Covariance
print("Covariance = " + str(np.cov(z1,z2)[0,1]))

Covariance = -72.91027814569537

Markdown(gdoc.loadDoc("Statistics_Correlation.md"))

print("Correlation coefficient",np.round(np.corrcoef(z1,z2)[0,1],4))

Correlation coefficient -0.8023

Markdown(gdoc.loadDoc("Statistics_CovarianceM.md"))

#Covariance matrix
print("Covariance matrix = \n" + str(np.cov(z1,z2)))

Covariance matrix = 
[[ 8.04385263e+03 -7.29102781e+01]
 [-7.29102781e+01  1.02658631e+00]]

print("Variance",np.var(z1) * len(z1)/(len(z1)-1))

Variance 8043.852626931566

print("Covariance matrix = \n" + str(np.cov(z1,z2,bias=True)))

Covariance matrix = 
[[ 7.99058208e+03 -7.24274286e+01]
 [-7.24274286e+01  1.01978773e+00]]

Markdown(gdoc.loadDoc("Statistics_Scatter.md"))

a = plt.scatter(z1,z2,s=1)

Markdown(gdoc.loadDoc("Statistics_Regr.md"))

# Regression 
ahat = np.cov(z1,z2,bias=True)[1,:][0]/np.var(z1)
bhat = np.mean(z2) - ahat*np.mean(z1)
plt.scatter(z1,z2,s=1)
a = plt.plot([np.min(z1),np.max(z1)],[bhat+ahat*np.min(z1),bhat+ahat*np.max(z1)])

Markdown(gdoc.loadDoc("Statistics_MRegr.md"))

Markdown(gdoc.loadDoc("Statistics_hist2d.md"))

# 2d histogram
nbin = 15
ax = plt.hist2d(z1,z2,nbin)

Markdown(gdoc.loadDoc("Statistics_histcond.md"))

#Histogram in a class
axc = plt.hist(z2[np.where((z1<ax[1][2])*(z1>ax[1][1]))],bins=nbin,density=True)

Markdown(gdoc.loadDoc("Statistics_meancond.md"))

## Conditional mean
ax = plt.hist2d(z1,z2,15)
plt.scatter(z1,z2,s=1)
m = np.empty_like(ax[1])
for i in range(ax[1].shape[0]-1):
    ind = np.where(np.logical_and(z1>ax[1][i],z1<ax[1][i+1]))[0]
    if len(ind)>0:
        m[i] = np.mean(z2[ind])
    else:
        m[i] = None
ax=plt.plot(ax[1],m,c="r")

	Longitude	Latitude	Elevation	January_temp
0	372.1	658.9	255	1.7
1	303.5	665.9	125	2
2	218.4	597.9	8	4.6
3	245.0	955.0	90	MISS
4	326.8	691.2	32	3.1
...	...	...	...	...
231	273.2	564.6	47	2.8
232	333.9	730.1	30	2.6
233	185.0	655.0	115	MISS
234	259.8	587.9	119	2.1
235	260.8	668.6	107	2.6

Statistics¶

1) Position¶

Mean¶

Median¶

Quartiles¶

Quantiles (p)¶

2) Dispersion¶

Range¶

Inter-quartiles distance¶

Variance¶

Standard Deviation¶

3) Distribution¶

Histogram¶

Cumulated histogram¶

Quantile function¶

Ore¶

Metal¶

Grade¶

$Q(T)$ curve¶

Conventional benefit¶

4) Bivariate Statistics¶

Covariance¶

Correlation coefficient¶

Covariance matrix¶

Scatter plot¶

Linear regression¶

Simple linear regression¶

Multiple linear regression¶

Bivariate histogram¶

Conditional distribution¶

Conditional mean (or regression)¶