sexta-feira, setembro 30, 2011

On Liberty

If all mankind minus one, were of one opinion, and only one person were of the contrary opinion, mankind would be no more justified in silencing that one person, than he, if he had the power, would be justified in silencing mankind. Were an opinion a personal possession of no value except to the owner; if to be obstructed in the enjoyment of it were simply a private injury, it would make some difference whether the injury was inflicted only on a few persons or on many. But the peculiar evil of silencing the expression of an opinion is, that it is robbing the human race; posterity as well as the existing generation; those who dissent from the opinion, still more than those who hold it. If the opinion is right, they are deprived of the opportunity of exchanging error for truth: if wrong, they lose, what is almost as great a benefit, the clearer perception and livelier impression of truth, produced by its collision with error.

On Liberty, John Stuart Mill

Pesadelos numéricos II

Normalmente eu rodo meus programas em R no meu laptop (dual boot com linux e windows), e nos computadores no Ibmec usando windows. Uma vantagem de rodar em Linux é que as bibliotecas podem ser compiladas do código fonte de uma forma bem natural, enquanto que no windows é preciso usar o mingw, instalar r-tools, instalar algumas bibliotecas manualmente, etc. Não é difícil, mas é mais trabalhoso.
Mas algo muito irritante no windows é que muitas estruturas de controle de erro não funcionam da forma adequada.
Por exemplo no windows se eu chamo um executável externo pelo R, e ocorre algum erro de execução que leva a finalização do programa, em muitos casos o windows abre uma janela informando que o programa foi finalizado, e pede para o usuário confirmar pressionando um botão. Evidentemente isso em geral é bastante inadequado, já que se eu estou utilizando controle de erro no R (por exemplo utilizando try e try-catch), eu quero manter meu programa funcionando mesmo na possibilidade de algum erro de execução. Por exemplo o tratamento de erro em uma simulação de monte carlo seria descartar a iteração onde ocorre um erro e continuar com as demais execuções.
Dessa forma seria interessante evitar essa janela de erro. Já tentei fazer isso de várias formas, mudando opções no windows, tentando mudar os códigos fonte, etc, mas nada resolve esse maldito comportamento.
Se alguém souber de alguma forma de evitar esse comportamento eu seria muito grato.

quinta-feira, setembro 29, 2011

Pesadelos numéricos

Noites de pouco sono devido a dois pesadelos numéricos. O primeiro está na reimplementação das minhas rotinas de verossimilhança empírica usando bibliotecas de multipla precisão numérica. Em algumas partes as modificações foram fáceis, mas em algumas surgem alguns problemas bem complicados. Outro problema é que com precisão alta (128 bits) por exemplo, a estimação fica muito mais lenta. Mas até agora os resultados foram bons.
O segundo problema está na minha parametrização de modelos SV usando INLA. A formulação standard desses modelos assume estacionaridade e apenas priors gaussianas para a persistência. Precisei reparametrizar totalmente o modelo SV no INLA para retirar essas restrições, mas ainda existem alguns problemas numéricos complicados, e precisei modificar várias partes dos códigos fonte do INLA para obter um resultado confiável, mas para algumas simulações os resultados não estão de acordo com o que eu esperava. Lentamente vou resolvendo os problemas, mas está demorando mais tempo que o previsto.

terça-feira, setembro 27, 2011

Análise Econômica do Direito

Regularização

Um tópico que venho estudando recentemente é sobre métodos de regularização e problemas inversos. Métodos de regularização são aplicados para resolver problemas (muito comuns) de condicionamento de matrizes que surgem nessas duas literaturas, e são normalmente resolvidos através de penalizações nas funções objetivo. O exemplo mais simples desse problema em econometria é a técnica conhecida como Ridge Regression.

Duas referências muito úteis nesse assunto são essa coleção de materiais da Marine Carrasco:


e a documentação e a toolbox em matlab sobre regularização:


Mas para reforçar - uma coleção de resultados fundamentais sobre regularização pode ser encontrada nos trabalhos da Grace Wahba (como colocado post anterior), e o resultado fundamental é que basicamente cada problema de regularização pode ser escrito como um problema de estimação por smoothing splines.


domingo, setembro 25, 2011

No land for old men

Não fui mesmo ao Rock and Rio. Acho que a idade já abateu meu entusiasmo. O lado bom é que nesse fim de semana consegui resolver dois problemas que estavam travando duas pesquisas. Ainda falta outra pesquisa travada por um problema computacional, mas acho que logo resolvo também.

sexta-feira, setembro 23, 2011

Rock and Rio ...

Embora eu tenha um ingresso para o Rock and Rio para o dia 25, muito provavelmente não irei. O primeiro motivo são as aulas na segunda - uma aula pela manhã e mais uma aula de 3.5 horas a noite no mestrado demandam um bom descanso anterior.
Mas não posso negar que o caos total na organização do transporte também é um fator fundamental. Meu principal interesse era assistir o Motorhead, já que já assisti o Metallica, mas enfrentar esse caos para um show que deve ter menos de uma hora não vale o sofrimento.

p.s. - Vi que a abertura do festival é uma homenagem ao Freddie Mercury, com titãs, paralamas do sucesso, maria gaduh e milton nascimento. arghhh, da até arrepios em pensar.
Pobre Freddie, merecia ser respeitado. E lembrar do lendário show de tributo ao Queen, com Roger Daltrey, Tony Iommi, James Hetfield ... Cada país tem o rock que merece.

quinta-feira, setembro 22, 2011

Doping

Qualquer pessoa não muito ingênua sabe que o esporte profissional (e amador ...) é dominado pelo doping. Ok, sem novidades.
Mas doping em torneios de computer chess não pode ser tolerado:

Computer Chess Champion Caught Injecting Performance-Enhancing Code

Aonde chegamos.

quarta-feira, setembro 21, 2011

A origem

É impressionante como quase todos os desenvolvimentos recentes em métodos semi ou não-paramétricos tem sua origem nos trabalhos da Grace Wahba sobre splines (em parte sumarizados no fundamental Spline Models for Observational Data).
Reproducing kernel Hilbert spaces, estimação por momentos condicionais usando sieves, regularização de problemas inversos, etc. Escolhendo uma base adequada, a solução está sempre lá.

terça-feira, setembro 20, 2011

33 Encontro Brasileiro de Econometria

Boas notícias - os meus artigos "Ajuste e Previsão de Curvas por Métodos Não-Paramétricos em
Espaço de Estados" e "Forecasting the Term Structure of Interest Rates using Integrated Nested Laplace Approximations" (em co-autoria com Luiz Hotta) foram aceitos para o 33 Encontro Brasileiro de Econometria.
Na lista de aprovados vi muitos artigos interessantes, e além disso, vários amigos estarão lá apresentando também. Notícias triplamente boas.

the theory that would not die…

Excelente resenha de Christian Robert sobre o livro "the theory that would not die…", que conta a história da estatística Bayesiana e suas aplicações.

Aproveitando, eu já coloco o "Bayesian Core", do Jean-Michel Marin e do Christian Robert como um dos melhores livros sobre o tema (e um dos melhores textos de métodos estatísticos em geral).

Avalanche

Avalanche de trabalho até o final do ano. O lado bom é que é tudo relacionado a pesquisa.

sexta-feira, setembro 16, 2011

Novas Aquisições - Mais estranho que a ficção

Chuck Palahniuk - Mais estranho que a ficção.
Como qualquer livro de Palahniuk, não é literatura para qualquer paladar. Mas algumas partes tem o mesmo impacto de outros livros (Clube da Luta, No Sufoco) sem precisar de nenhuma ficção, especialmente a primeira parte (Pessoas juntas).
No entanto o livro merece uma tradução mais cuidadosa, já que algumas frases estão totalmente perdidas.

quinta-feira, setembro 15, 2011

velho amigo

Estamos implementando um teste sobre formas funcionais em uma estimação semi não-paramétrica, e uma das escolhas possíveis na construção do teste era sobre a norma utilizada na construção do estatpistica de teste. Duas escolhas naturais eram a norma do sup (em um teste a la Kolmogorov-Smirnov) ou então a norma L2.
Mas uma consulta rápida ao meu velho amigo Bootstrap Methods and their Application (Cambridge Series in Statistical and Probabilistic Mathematics) resolveu a questão. Definitivamente esse livro é um dos mais úteis para um pesquisador, em qualquer área que envolva testes de hipóteses. No nosso problema a norma sup levaria a um teste com baixa eficiência, e assim a escolha é para um teste na L2. Também foi interessante rever no livro a derivação original da idéia de exponential tilting e empirical likelihood no contexto de bootstrap.

FEA-RP

Ontem estava em Ribeirão Preto, participando de uma banca de contratação de professor. Uma tarefa realmente difícil, já que julgar a trajetória acadêmica passada, e principalmente a possível trajetória futura de um pesquisador é algo um tanto complexo. Mas acredito que fizemos um julgamento justo.
Foi muito bom encontrar velhos amigos e conhecer alguns professores que eu já admirava e não conhecia, e também voltar a Ribeirão Preto.

terça-feira, setembro 13, 2011

Leitura do dia - Panel Data Econometrics in R: The plm Package

Panel Data Econometrics in R: The plm Package

Yves Croissant
Universitte Lumiere Lyon 2

Giovanni Millo
University of Trieste and Generali SpA

Abstract
This introduction to the plm package is a slightly modi ed version of Croissant and Millo (2008), published in the Journal of Statistical Software.
Panel data econometrics is obviously one of the main fi elds in the profession, but most of the models used are difficult to estimate with R. plm is a package for R which intends to make the estimation of linear panel models straightforward. plm provides functions to estimate a wide variety of models and to make (robust) inference.

Keywords:~panel data, covariance matrix estimators, generalized method of moments, R.


Uma dupla recomendação - A primeira é pelo excelente pacote de estimação de modelos de dados em painel no R, que implementa quase todas as metodologias de dados em painel utilizadas.
A segunda, e extremamente útil, é a discussão dos distintos significados de efeitos fixos e aleatórios em modelos de dados em painel (econometria) e modelos de efeito mixto (estatística), uma fonte de confusão bastante comum. Isso está na seção 7 do artigo (na verdade uma vignette do R):

7. plm versus nlme/lme4

The models termed panel by the econometricians have counterparts in the statistics literature
on mixed models (or hierarchical models, or models for longitudinal data), although there are both diff erences in jargon and more substantial distinctions. This language inconsistency
between the two communities, together with the more complicated general structure of statistical models for longitudinal data and the associated notation in the software, is likely to
scare some practicing econometricians away from some potentially useful features of the R
environment, so it may be useful to provide here a brief reconciliation between the typical
panel data speci cations used in econometrics and the general framework used in statistics
for mixed models

Um dos melhores pacotes do R, sem dúvida.

segunda-feira, setembro 12, 2011

My other computer is a 4000 unit Beowulf cluster

Mais um passo na minha implementação das funções de verossimilhança empírica generalizada - agora elas estão paralelizadas, e o procecimento de bootstrap pode rodar automaticamente distribuindo o processamento nos cores da maquina ou então em um cluster.
Isso é especialmente util para obter propriedades em amostras finitas usando Monte Carlo, ou então como já comentei obter intervalos e testes via bootstrap.
Mas quero ir um passo além e paralelizar mais partes do algoritmo - em especial os procedimentos de algebra linear e as funções de otimização. Nesta situação mesmo uma única estimação seria realizada de forma paralela.
Não é tão complicado, mas é um tanto trabalhoso já que preciso modificar os códigos fontes em c/c++ das biblioteca de otimização que eu uso. Já testei para um das funções e funciona bem.

domingo, setembro 11, 2011

Samba

No Estadão:



Embora eu acredite em DSGEs como instrumentos relevantes de análise de política econômica, sou um pouco cético em relação a modelos DSGE de média-grande escala. Minha limitada experiência com estes modelos é que existem problemas importantes de identificação. Embora em teoria isso possa ser resolvido com o uso de priores informativas nestes parâmetros, na prática isso pode ser um tanto complicado. O primeiro problema é descobrir quais parâmetros não são identificados (o que fica mais complicado com a maior dimensão e complexidade do modelo). Uma regra simples é olhar para posteriores que são parecidas com as priores (e olhando os resultados existem várias posteriores nesta situação), mas esta regra pode falhar em algumas situações.
Este problema é fundamental na metodologia de estimação por Metropolis-Hastings utilizada no Dynare, que calibra o parâmetro de escala que determina a aceitação do passo de Metropolis-Hastings através de um algoritmo de Newton-Raphson para determinar a moda da função de verossimilhança em uma primeira etapa. Na presença de problemas de identificação a matriz de informação não é invertível ou numericamente próxima de não invertibilidade, o que torna este estágio pouco confiável. Isso pode resultar em uma cadeia que converge lentamente no melhor dos casos, e no pior a cadeia não cobre todo o espaço da posterior. A eficiência desse primeiro passo também depende fundamentalmente da proximidade entre a moda da prior e da posterior, o que pode ser bastante problemático caso se usem priores muito informativas.
Outro problema é que em muitos casos as soluções de equilíbrio obtidas só são confiáveis em uma vizinhança muito pequena dos parâmetros estimados. Isso fica evidente quando pequenas mudanças na especificação das priores geram problemas na solução de equilíbrio. Nesse caso muitos parâmetros são especificados com variâncias tão pequenas que são basicamente fixados a priori. Neste aspecto também existe uma crítica relevante da validade do uso destes modelos em situações de crise.
Em um modelo com um número grande de parâmetros, também seria fundamental a implementação de algum procedimento de shrinkage, eliminando parâmetros insignificantes do modelo. Procedimentos desse tipo são o principal motivo do sucesso de modelos BVAR, onde a estrutura de priores (usualmente via a prior de Litterman) usualmente impõe uma estrutura bastante eficaz em termos de previsão out-of-sample.
Outro ponto é que estes modelos são fundamentalmente modelos Bayesianos Empíricos, o que significa que as priores são efetivamente calibradas para melhorar propriedades do modelo. Embora seja um ponto filosófico que a princípio só teria importância para Bayesianos fundamentalistas, isso significa que exercícios de previsão out-of-sample tem que ser olhados com muito cuidado, já que mesmo não utilizando a parte final da amostra na construção da verossimilhança, o pesquisador pode calibrar a prior para encontrar o melhor desempenho preditivo, o que efetivamente pode ser um exemplo de data mining.
Tenho certeza que a equipe do Samba tem consciência destes problemas, e parte do longo ciclo de desenvolvimento é dado pela busca de uma especificação adequada, por exemplo fixando vários parâmetros, e o modelo final deve ser significantemente robusto, mas sempre é fundamental lembrar das limitações da sua metodologia.
Citando Antoine de Saint Exupéry - "It seems that perfection is reached not when there is nothing left to add, but when there is nothing left to take away".

sexta-feira, setembro 09, 2011

Novas Aquisições - Bayesian Core


Bayesian Core - A Practial Approach to Computational Bayesian Statistics - Jean-Michel Marin e Christian P. Robert.

E falando de favoritos, meu livro número um de métodos de simulação é o Monte Carlo Statistical Methods, do Christian P. Robert e George Casella (que já está desmontando de tanto uso). Por isso eu precisava ter também o Bayesian Core, escrito no mesmo estilo, mas com uma abordagem mais focada em modelos particulares - regressão, modelos de mistura, Glm, e modelos de séries temporais.
Muito bem escrito, motivador, graciosamente formatado (nessa edição com figuras coloridas), com códigos disponíveis, um excelente site acompanhante, etc, etc, etc. Obrigatório.

Novas Aquisições - Numerical Analysis for Statisticians

Numerical Analysis for Statisticians - Kenneth Lange.

Para resumir, quando vi o lançamento deste livro na Amazon, minha boca já começou a salivar ... E depois que vi a excelente resenha do livro do blog do Christian Robert, não tinha como não comprar.
Acho que é um tanto evidente que este é meu tópico de pesquisa favorito.

Novas Aquisições - Dynamic Linear Models with R

Dynamic Linear Models with R. Giovanni Petris, Sonia Petrone e Patrizia Campagnoli.

Mais um livro da excelente coleção Use R! da Springer. Uma excelente recomendação para implementações clássicas e Bayesianas de modelos em espaço de estado, utilizando o pacote dlm em R criado pelos autores do livro. Também serve como uma boa introdução a modelos em espaço de estado em geral.
Já estava na minha lista de comprar, mas subiu de preferência depois de ter lido o artigo especial sobre o dlm na edição especial sobre modelos em espaço de estado no Journal os Statistical Software, e o empurrão final foi ver que a Sonia Petroni é uma das convidadas do próximo Encontro Brasileiro de Estatística Bayesiana.

quinta-feira, setembro 08, 2011

Leitura do dia - How to Detect an Asset Bubble

How to Detect an Asset Bubble

Robert Jarrow, Younes Kchia, Philip Protter

February 24, 2011

Abstract


After the 2007 credit crisis, nancial bubbles have once again emerged as a topic
of current concern. An open problem is to determine in real time whether or not a
given asset's price process exhibits a bubble. Due to recent progress in the characterization of asset price bubbles using the arbitrage-free martingale pricing technology, we are able to propose a new methodology for answering this question based on the asset's price volatility. We limit ourselves to the special case of a risky asset's price being modeled by a Brownian driven stochastic di fferential equation.
Such models are ubiquitous both in theory and in practice. Our methods use sophisticated volatility estimation techniques combined with the method of reproducing kernel Hilbert spaces.
We illustrate these techniques using several stocks from the alleged internet dot-com
episode of 1998 - 2001, where price bubbles were widely thought to have existed. Our
results support these beliefs.


Um belo artigo propondo técnicas não-paramétricas de detecção de bolhas, usando a teoria de reproducing kernel Hilbert Spaces. Uma única colocação é que o artigo não cita a conexão fundamental entre reproducing kernel Hilbert Spaces e splines e smoothing splines, o que possibilitaria uma técnica estatística de estimação da função de extrapolação.

quarta-feira, setembro 07, 2011

Otimização

Terminei de implementar os novos algoritmos de otimização nos meus programas de verossimilhança empírica e mínimo contraste generalizado. Eu outra etapa eu já havia implementado uma série de algoritmos com restrições de intervalo, mas agora coloquei restrições não-lineares e lineares de igualdade e desigualdade, bem como alguns algoritmos globais. Também deixei a interface bem mais amigável, e agora ficou bem simples dizer qual algoritmo será utilizada em cada etapa (estimação de parâmetros e probabilidades implícitas) na chamada de função.
O passo seguinte é implementar as rotinas de iid e block bootstrap como opção automática na função.

Figura




Eis uma figura interessante. E com uma bela teoria subjacente (e econometria também).

segunda-feira, setembro 05, 2011

EBEB XI

Já está no ar a home page do XI Encontro Brasileiro de Estatística Bayesiana. O local ainda não foi definido, mas a lista de convidados ja é impressionante.
O outro encontro (X) que eu participei foi excelente. Assistindo algumas apresentações tive várias idéias para novas pesquisas. Por exemplo a apresentação do Havärd Rue sobre o INLA motivou muitos dos temas que eu estou trabalhando agora.
Vou fazer todo o esforço para poder participar novamente.

sábado, setembro 03, 2011

Conference on Inductive Statistics

Olhando a distribuição posterior da Conferência em Estatística Indutiva, noto que realmente eu tinha formulado uma priore muito precisa sobre o evento. Realmente o evento foi muito bom. Não pude participar do terceiro dia, mas os dois primeiros foram excelentes.
Pude conhecer uma parte relevante das primeiras gerações do IME-USP, que contribuíram de forma gigantesca para o estabelecimento da Estatística no Brasil, e também publicaram artigos de grande importância para a pesquisa em Estatística. Em particular algumas contribuições teóricas, como o Full Bayesian Significance Test e vários outras aplicações. Também achei muito interessante algumas discussões sobre aspectos epistemológicos de procedimentos de teste de hipóteses, uma área bastante complexa (e fundamental).
Também vi vários artigos interessantes na sessão poster (muitas idéias de pesquisa surgiram lendo os posters). Outra coisa notável foi a organização impecável do evento (Adriano, Márcio, Marcelo, Júlio, Tereza) que foram extremamente eficientes na organização do evento e prestativos com todos os participantes.
Mas a parte mais notável é ver o carinho e o respeito entre estes pesquisadores e seus alunos, em especial para Prof. Carlos Alberto de Bragança Pereira, o homenageado do evento, e como esse aspecto humano contribuiu para um avanço significante da pesquisa em Estatística aqui no Brasil.