Prof. Francis Petterini

***

Anotação para o encontro de 12/07:

LF Veríssimo
Reforçar que µ = E(x) é computado diferente se a v.a. x é discreta ou contínua, e que esse objeto tem um interpretação diferenciada apesar da sua denominação ser “média populacional”
Fazer os exercícios da LGN e do TLC
Reforçar que esses resultados não são triviais, e são extremamente úteis para se construir ICs e fazer teste de hipóteses
https://www.tse.jus.br/eleicoes/pesquisa-eleitorais/consulta-as-pesquisas-registradas
Antes de avançar para o Modelo de Resultados Potenciais, fazer uma revisão amigável de OLS
1. Carros: potencias vs peso etc; dummy como diferença de média
2. ~~Como nos carros, mas usar ICMS vs PIB~~
3. ~~Max: dummy como variável dependente~~

Anotação para o encontro de 14/07:

https://www.discoveryplus.com/br/show/viagra-a-pilula-que-mudou-o-mundo-discovery-originals-br
O zero está contido no IC? (via teste de hipóteses e via regressão)
1. Como nos carros, mas usar ICMS vs PIB
2. Max: dummy como variável dependente
O R2
Regressão pode ser interpretada como uma expectativa condicionada
O modelo de resultados potencias via regressão
Página 84 da apostila, depois pula para a 104
Faz o exercício 2

***

LGN

https://petterini.ufsc.br/files/2023/07/lgn.xlsx

***

TLC

cls
clear
set seed 54321

set obs 10000
scalar n = _N
scalar a = 2
scalar b = 4

forvalues i = 1/500 {
 gen x`i' = a+(b-a)*runiform()
}

egen y = rowmean(x*)

gen y_bar = (y-(a+b)/2)/(sqrt((b-a)^2/12)/sqrt(n))

histogram y

kdensity y

cls
clear
set seed 54321

set obs 10000
scalar n = _N
scalar lambda = 2

forvalues i = 1/500 {
 gen x`i' = rpoisson(lambda)
}

egen y = rowmean(x*)

gen y_bar = (y-lambda)/(sqrt(lambda)/sqrt(n))

histogram y

kdensity y

***

PIB e ICMS https://petterini.ufsc.br/files/2023/07/pib_receita_mun.xlsx

Educação (Max) https://petterini.ufsc.br/files/2023/07/data_ppp_max.xlsx

Cars https://petterini.ufsc.br/files/2023/07/data_cars.xlsx

***

Anotação para o encontro de 19/07:

Pareamento http://petterini.paginas.ufsc.br/files/2023/07/data_planseq_cola.xlsx
Prison data
Ex1: Pareamento + Dif-in-Dif
Lembrar que na sexta faremos uma revisão de estatística/econometria e depois um “projeto de apresentação”

***

Ex2 no Python

https://colab.research.google.com/drive/1UysMu64znpJfHc3VL00TOz3TsKbFa2VS?usp=sharing
# importar os pacotes
import numpy as np
import pandas as pd
from scipy.stats import t
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', None)
!pip install psmpy
from psmpy import PsmPy

# importar os dados
data = pd.read_excel('https://petterini.ufsc.br/files/2023/07/ex2.xlsx')
data.info()

# mudar o nome das variáveis
data.rename(columns = {‘Identificador’:’id’, ‘Nota no exame’:’Y’, ‘Participação no programa’:’T’, ‘Sexo (mulher=1, homem=0)’:’menina’,
‘Cor ou raça (branco =1, outro=0)’:’branca’, ‘Anos de estudo da mãe’:’edumae’}, inplace = True)
data.head()

# checar as diferenças de médias
vars = [‘Y’,’menina’,’branca’,’edumae’]
data.groupby(‘T’)[vars].mean()

# separar grupos para um test t de diferenças de médias
data0 = data[data['T']==0]
data1 = data[data['T']==1]

alpha = .05
m0 = data0['Y'].mean()
s0 = data0['Y'].std()
gl0 = len(data0['Y'])-1
t0 = np.abs(t.ppf(alpha/2,gl0))
ep0 = s0*t0/np.sqrt(len(data0['Y']))
m1 = data1['Y'].mean()
s1 = data1['Y'].std()
gl1 = len(data1['Y'])-1
t1 = np.abs(t.ppf(alpha/2,gl1))
ep1 = s1*t1/np.sqrt(len(data1['Y']))

(m0-ep0, m0+ep0)

(m1-ep1, m1+ep1)

# definir vetores da análise de regressão
vars = ['menina','branca','edumae','T']
X = data[vars]
X = sm.add_constant(X)
Y = data['Y']

model = sm.OLS(Y, X)
results = model.fit()
print(results.summary())

# definir os dados para um Logit
vars = ['menina','branca','edumae']
X = data[vars]
X = sm.add_constant(X)
T = data['T']
model = sm.Logit(T, X)
results = model.fit()
print(results.summary())

ps = results.predict(X)
data['ps'] = ps

sns.histplot(data=data, x='ps', hue='T')

data['ones'] = 1
psm = PsmPy(data, treatment='T', indx='id', exclude = ['Y','ps'])

psm.logistic_ps(balance=False)
psm.predicted_data

psm.knn_matched(matcher='propensity_logit', replacement=False, caliper=None, drop_unmatched=True)

psm.matched_ids

id0 = pd.DataFrame(psm.matched_ids[‘matched_ID’])
id0.rename(columns = {‘matched_ID’:’id’}, inplace = True)
id0

data00 = pd.merge(id0, data0, on=[‘id’], how=’left’)

data00

par_data = pd.concat([data00, data1], ignore_index=True)
par_data

vars = ['menina','branca','edumae']
X = par_data[vars]
X = sm.add_constant(X)
T = par_data['T']

model = sm.Logit(T, X)

results = model.fit()
print(results.summary())

ps = results.predict(X)
par_data['ps'] = ps
par_data

sns.histplot(data=par_data, x='ps', hue='T')

vars = ['menina','branca','edumae','T']
X = par_data[vars]
X = sm.add_constant(X)
Y = par_data['Y']
model = sm.OLS(Y, X)
results = model.fit()
print(results.summary())

***

Ex7 no Python

https://colab.research.google.com/drive/1V2j4tw9-JOYuweIWfsG95lkKGr8h7pCx?usp=sharing

***

Anotação para o encontro de 26/07 (e 28/07):

Retorno econômico usando Ex3, Ex5 e Ex8: faz IC, OLS, Dif-in-Dif
Controle sintético https://colab.research.google.com/drive/1ZGYVlQya8AbjcRdiOsVeIossgLnBXGcM?usp=sharing + https://colab.research.google.com/drive/1DRD3s_fC5SiWd1wj7_BZqS-mneF5WC6t?usp=sharing
RDD https://blogs.worldbank.org/impactevaluations/regression-discontinuity-porn + https://ose-data-science.readthedocs.io/en/latest/problem-sets/regression-discontinuity-design/notebook.html
https://www.annualreviews.org/doi/pdf/10.1146/annurev-economics-080217-053433
Recados finais
1. Correlação Ñ⇒ Causalidade
2. Muitas técnicas ⇒ É um gato?
3. Econometria Clássica tem modelo teórico, diferente de Machine Learning

Prof. Francis Petterini

TCE SC 2023

Contatos