AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas mais antigas serão removidas ou arquivadas de tal forma que não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Stat ao oferecer um presente Módulo de Aprendizagem Stata Combinando dados Este módulo irá ilustrar como você pode combinar arquivos no Stata. Os exemplos incluirão anexos de arquivos, fusão de uma a uma combinação de fósforo e fusão de uma a várias combinações. Anexando arquivos de dados Quando você tem dois arquivos de dados, você pode combiná-los empilhando-os um sobre o outro. Por exemplo, temos um arquivo contendo papéis e um arquivo contendo mães como mostrado abaixo. Se quisermos combinar esses arquivos empilhando-os um sobre o outro, podemos usar o comando append como mostrado abaixo. Podemos usar o comando list para ver se isso funcionou corretamente. O append funcionou corretamente. Os pais e as mães são empilhados juntos em um arquivo. Mas, há um pequeno problema. Nós não podemos dizer os pais das mães. Vamos tentar fazer isso novamente, mas primeiro vamos criar uma variável chamada momdad no arquivo de dados dos pais e mães que conterá papai para o arquivo de dados dos pais e mãe para o arquivo de dados das mães. Quando combinamos os dois arquivos juntos, a variável momdad nos informará de quem são as mães e os pais. Aqui fazemos a variável momdad para o arquivo de dados dos pais. Salvar o arquivo chamando-lhe dads1. Aqui nós tornamos a variável momdad para o arquivo de dados das mães. Gravamos o arquivo chamando-o moms1. Agora, vamos acrescentar dads1 e moms1 juntos. Agora, quando listamos os dados, a variável momdad mostra quem são as mães e os pais. Combinar fusão Outra forma de combinar arquivos de dados é fusão de correspondência. Digamos que queríamos combinar os pais com o arquivo de dados faminc, tendo a informação dos pais e a informação familiar lado a lado. Podemos fazer isso com uma correspondência. Deixa para ter um olhar nos paizinhos e no arquivo do faminc. Nós queremos combinar os arquivos de dados para que eles se parecem com isso. Observe que a variável familiar é usada para associar a observação do arquivo de papéis à observação apropriada do arquivo faminc. A estratégia para mesclar os arquivos é assim. 1. ordenar pais em famid e salvar esse arquivo (chamando-lhe dads2). 2. classifique o faminc em famid e excepto esse arquivo (chamando o faminc2). 3. use o arquivo dads2. 4. Misture o arquivo dads2 com o arquivo faminc2 usando famid para combiná-los. Aqui estão os quatro passos. 1. Classifique o arquivo de pais por famid e salve-o como dads2 2. Classifique o arquivo faminc por famid e salve-o como faminc2. 3. Use o arquivo dads2 4. Misture com o arquivo faminc2 usando famed como variável chave. Parece que isso funcionou bem, mas qual é essa variável de mesclagem. A variável de mesclagem indica, para cada observação, como foi a fusão. Isso é útil para identificar registros incompatíveis. A fusão pode ter um dos três valores 1 - O registro contém informações apenas do arquivo1 (por exemplo, uma gravação dad2 com nenhuma gravação faminc2 correspondente. 2 - A gravação contém informações apenas do arquivo 2 (por exemplo, uma gravação faminc2 sem registro correspondente de dad2). O registro contém informações de ambos os arquivos (por exemplo, os registros dad2 e faminc2 correspondem). Quando você tem muitos registros, a tabulação de mesclagem é muito útil para resumir quantos incompatíveis você tem. No nosso caso, todos os registros correspondem de modo que o valor para a mesclagem Foi sempre 3. Combinações de fósforos de um a outro O outro tipo de fusão é chamado de fundação de um para muitos. Nossa união de uma a uma combinava pais e faminc e havia uma correspondência de um a um. Se fundir papás com Crianças, pode haver várias crianças por pai e, portanto, esta é uma fusão de uma a outra. Como você vê abaixo, a estratégia para a fusão de um para muitos é realmente a mesma coisa que a união de um para um. 1. classificar os pais no famoso e Salvar esse arquivo como dads3 2. classificar crianças em famid e salvar que Arquivo como kids3 3. use o arquivo dads3 4. mescla o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. As 4 etapas são mostradas abaixo. 1. Classifique o arquivo de dados dos pais em famid e salve esse arquivo como dads3. 2. Classifique o arquivo de dados de crianças no famid e salve esse arquivo como kids3. 3. Utilize o ficheiro dads3. 4. Mesclar o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. Permite listar os resultados. Os resultados são um pouco mais fáceis de ler se classificamos os dados sobre famid e birth. Como você vê, isso é basicamente o mesmo que um um para um mesclar. Você pode se perguntar se a ordem dos arquivos na instrução de mesclagem é relevante. Aqui, trocamos a ordem dos arquivos e os resultados são os mesmos. A única diferença é a ordem dos registros após a mesclagem. Exemplo de anexos de dados Exemplo de mesclar etapas de exemplo (one-to-one e one-to-many) Programa de exemplo de mesclagem de correspondência O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pelo University of California. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas mais antigas serão removidas ou arquivadas de tal forma que não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital, ajudando o Grupo de Consultoria Estatal, dando um presente. Perguntas frequentes sobre Stata: Como mesclar vários arquivos no Stata. Este FAQ é baseado em uma página desenvolvida pelo Programa de Assistentes de Estatística de Graduação da Boston College. Agradecemos sua permissão para reproduzir este FAQ aqui. Não é incomum que os dados, especialmente os dados da pesquisa, sejam encontrados em vários conjuntos de dados (existem razões práticas para a distribuição de conjuntos de dados desta forma). Quando os dados são distribuídos em vários arquivos, as variáveis que você deseja usar serão muitas vezes espalhadas por vários conjuntos de dados. Para trabalhar com informações contidas em dois ou mais arquivos de dados é necessário mesclar os segmentos em um novo arquivo que contém todas as variáveis com as quais você pretende trabalhar. Primeiro, você precisará descobrir quais variáveis você precisa e quais conjuntos de dados contêm, você pode fazer isso consultando o livro de códigos. Além de encontrar as variáveis desejadas para sua análise, você precisa saber o nome da variável id. Uma variável id é uma variável que é exclusiva de um caso (observação) no conjunto de dados. Para um determinado indivíduo, o id deve ser o mesmo em todos os conjuntos de dados. Isso permitirá que você combine os dados de diferentes conjuntos de dados com a pessoa certa. Para dados transversais, isso geralmente será uma única variável, em outros casos, são necessárias duas ou mais variáveis, isso geralmente é visto nos dados do painel, onde a identificação do assunto e a data ou a onda são muitas vezes necessárias para identificar uma observação de forma exclusiva. Para que o Stata mescle os conjuntos de dados, a variável id, ou variáveis, terá que ter o mesmo nome em todos os arquivos. Além disso, se a variável for uma string em um conjunto de dados, ela também deve ser uma string em todos os outros conjuntos de dados, e o mesmo é verdadeiro para as variáveis numéricas (o tipo de armazenamento específico não é importante, desde que sejam numéricos). Depois de identificar todas as variáveis que você precisa e saber qual é a variável de identificação, você pode começar a mesclar os conjuntos de dados. Um exemplo simples Um bom primeiro passo é descrever os nossos dados. Podemos fazer isso sem realmente abrir o arquivo (isso pode ser útil se os arquivos são muito grandes), tudo o que temos a fazer é abrir o Stata e emitir o comando. O comando de descrição nos fornece muitas informações úteis, para os nossos propósitos, as coisas mais importantes que mostra é que o ID da variável é numérico e que os dados não são classificados (os dados devem ser ordenados pela variável id ou variáveis para fundir ). Observamos também que as variáveis que queremos deste conjunto de dados são de fato no conjunto de dados. Gostaríamos de fazer isso para todos os três de nossos conjuntos de dados, mas para economizar espaço bem apenas mostrar a saída para um dos conjuntos de dados. Vamos assumir que os conjuntos de dados são todos não classificados e que a variável id tem o mesmo nome (ID) nos três conjuntos de dados. Uma vez que os conjuntos de dados não são classificados, precisamos abrir cada conjunto de dados, classificá-lo e, em seguida, guarde o conjunto de dados ordenado. Embora possamos usar os dados de um site facilmente dentro do Stata, não podemos salvá-lo lá. Portanto, note que todos os comandos de uso extraem conjuntos de dados do nosso site, mas guarde-os no diretório d: dados no computador do usuário. A sintaxe abaixo abre cada conjunto de dados, classifica-o por identificação e, em seguida, salva-o em uma nova localização com um novo nome. Se o conjunto de dados já estivesse no nosso computador, poderíamos salvá-lo no mesmo local e, possivelmente, mesmo sob o mesmo nome (substituindo o conjunto de dados antigo), essa é a escolha dos usuários. Em seguida, nós realmente mesclar os conjuntos de dados. O comando de mesclagem mescla as observações correspondentes do conjunto de dados atualmente na memória (chamado de conjunto de dados mestre) com as de um conjunto de dados Stata diferente (chamado de conjunto de dados) em observações únicas. Supondo que temos data3 aberto a partir da execução da sintaxe acima, que será o nosso conjunto de dados mestre. A primeira linha de sintaxe abaixo mescla os dados. Diretamente após o comando de mesclagem é o nome da variável (ou variáveis) que atendem as variáveis id, neste caso id. Em seguida é o argumento usando este diz Stata que estamos feito listagem as variáveis de id, e que o que se segue são os dataset (s) a ser mesclado. Os nomes estão listados, com apenas espaços (sem vírgulas, etc.) entre eles. (Observe se os nomes ou caminhos de seus conjuntos de dados incluem espaços, certifique-se de colocá-los entre aspas, ou seja.) A próxima linha de sintaxe salva nosso novo conjunto de dados mesclado. Observe que mesclar não produz saída. Agora podemos dar uma olhada em nosso conjunto de dados recentemente mesclado. Na saída acima, vemos o número de casos (200), que está correto. Isso é importante, pois os problemas com o processo de mesclagem muitas vezes resultam em casos muito poucos, ou mais frequentemente muitos, no conjunto de dados mesclado. Também vemos uma lista das variáveis, que inclui todas as variáveis que queremos. O conjunto de dados mesclado contém três variáveis extras. Essas novas variáveis são mesclagem. Merge1 e Merge2. A mesclagem de comando sempre gerará pelo menos uma variável adicional denominada mesclar. Quando vários arquivos são especificados no uso. O comando produzirá variáveis de mesclagem adicionais, uma para cada um dos conjuntos de dados na lista usando (em nosso caso, merge1 e merge2). Essas variáveis nos dizem para onde veio cada observação no conjunto de dados, isso é útil como um cheque de que seus dados se fundiam corretamente. Às vezes, uma observação não estará presente em um determinado conjunto de dados, isso não significa necessariamente que algo deu errado no processo de mesclagem, mas este é outro lugar onde muitas vezes você pode obter pistas sobre o que poderia ter dado errado no processo de mesclagem. Porque neste exemplo todos os conjuntos de dados incluem todos os casos, e porque a mesclagem foi como deveria, as variáveis de mesclagem arent muito interessante. Vamos discutir essas variáveis em maior detalhe abaixo, quando lidamos com conjuntos de dados onde nem todos os casos estão presentes em todos os conjuntos de dados. Eliminando variáveis indesejadas Não é incomum descobrir que um conjunto de dados grande contém muitas variáveis que você não vai usar em sua análise. Você pode apenas deixar essas variáveis em seus conjuntos de dados quando você mesclá-los juntos, no entanto, existem várias razões que você pode não querer fazer isso. Primeiro, há um limite no número de variáveis que o Stata pode manipular. Em Small Stata o limite é 99, em StataIC o limite é 2.047 e em StataSE e StataMP o limite é 32.767. Esses limites podem ser altos, mas se você mesclar vários conjuntos de dados, cada um com um grande número de variáveis, você pode exceder o limite para o seu tipo de Stata. A segunda razão pela qual você não deseja deixar variáveis desnecessárias em seu conjunto de dados é que cada variável na memória usa recursos adicionais do sistema. Algumas variáveis extras não vão prejudicar nada, mas se você tiver um grande número de variáveis indesejadas, você pode estar desperdiçando recursos do sistema. Abaixo apresentamos vários métodos de eliminação de variáveis extras. Uma opção é que quando você abre os conjuntos de dados para classificá-los, você também pode eliminar as variáveis que você não planeja usar. Dependendo se é mais fácil listar as variáveis que você deseja que você planeja usar em sua análise, ou listar as variáveis que você não precisa, você pode usar os comandos keep or drop. Há pelo menos uma opção adicional, você pode abrir os conjuntos de dados colocando apenas as variáveis que você precisa na memória. Se eu tiver um conjunto de dados contendo um número de variáveis, mas as únicas variáveis que eu preciso dela são id e ler. Posso adicionar nomes de variáveis ao meu comando de uso como mostrado na primeira linha de sintaxe abaixo. Isso é particularmente útil com arquivos muito grandes que exigem muita memória para abrir. Depois de abrir o subconjunto desejado de variáveis, tudo o que você precisa fazer é salvar o subconjunto de dados sob um novo nome. No exemplo acima, o conjunto de dados2 continha as seguintes variáveis: id, read, write, math, science e socst. Suponha que minha análise requer apenas as variáveis ler e escrever. As únicas variáveis do conjunto de dados2 que são necessárias são essas duas e a ID da variável para fundir os dados com outro conjunto de dados. Abaixo estão exemplos do mesmo tipo de preparação de dados feita acima, utilizando cada uma das técnicas descritas. Estas técnicas são equivalentes, na medida em que produzem o mesmo resultado final. A eficiência de cada técnica varia de acordo com a situação. Usando manter para selecionar variáveis: Usando drop para remover variáveis indesejadas: Abrindo um subconjunto dos dados: as variáveis de mesclagem As variáveis de mesclagem criadas pelo comando de mesclagem são fáceis de perder, mas são muito importantes. Como discutido acima, eles nos dizem de que dataset (s) cada caso veio. Isso é importante porque muitos valores provenientes de apenas um conjunto de dados podem sugerir um problema no processo de mesclagem. No entanto, não é incomum que alguns casos estejam em um conjunto de dados, mas não outro. Nos dados do painel, isto pode ocorrer quando um determinado inquirido não participou em todas as ondas do estudo. Também pode ocorrer por vários outros motivos. Por exemplo, uma entrevistada pode aparecer no subconjunto dos dados com informações demográficas, mas estar completamente ausente do subconjunto de dados com informações sobre crianças entrevistadas, porque ela não tem filhos. Porque os casos que não estão presentes em todos os conjuntos de dados não são necessariamente um problema, para que as informações em variáveis de mesclagem sejam úteis, você precisa saber o que esperar se os conjuntos de dados mesclados corretamente. No exemplo acima, onde os mesmos 200 casos apareceram em três conjuntos de dados, eu esperaria ver 200 casos, todos os quais vieram de todos os três conjuntos de dados. Se houver alguns casos em falta em alguns conjuntos de dados, espero ver um certo número de casos que não vieram de todos os conjuntos de dados, mas ainda preciso ter certeza de que não existem muitos que provêm de apenas alguns dos Conjuntos de dados. Ter muitos ou todos os casos no seu conjunto de dados mesclado vêm de um, ou apenas alguns dos conjuntos de dados que você mesclou é um sinal de que a variável id não coincide corretamente entre os conjuntos de dados. Isso é particularmente comum quando a variável id é uma string. Abaixo examinamos um conjunto de dados após a fusão para ver se tudo correu como esperado. A saída abaixo mostra o arquivo descrito para um conjunto de dados data1m. dta, se olharmos o número de observações (obs), vemos que o conjunto de dados contém apenas 197 casos, mas sabemos que o estudo global inclui 200 casos, então sabemos que lá Três casos faltam inteiramente de data1m. Esta é uma informação importante se vamos interpretar corretamente as variáveis de mesclagem posteriormente. Finalmente, classificamos os dados e os guardamos sob um novo nome. Para economizar espaço, não mostraremos a saída para os outros dois conjuntos de dados (o código aparece abaixo caso você queira executá-lo). Suponha que quando executamos descrevemos em data2m e data3m descobrimos que eles também estão faltando casos. Dataset data2m contém 196 observações e dataet3m contém 197. É possível que alguns desses casos estejam faltando nos três conjuntos de dados (ou seja, as observações faltantes se sobrepõem em conjuntos de dados), mas também é possível que todas as 200 observações ocorram em pelo menos uma das Conjuntos de dados. Nós descobriremos uma vez que fundiremos os dados. Depois de examinarmos e classificarmos os conjuntos de dados, podemos fundí-los. A sintaxe abaixo faz isso, observe que o comando é o mesmo que no primeiro exemplo. Por padrão, o Stata permitirá que os casos venham de qualquer um dos três conjuntos de dados. Existem opções que lhe permitem controlar quais conjuntos de dados os casos vêm, você pode descobrir sobre eles digitando ajuda mesclar (sem as aspas) no Stata. Como antes, o comando de mesclagem criou três novas variáveis fundidas. Merge1. E mesclar2. A mesclagem de variáveis fornece informações sobre quais casos estavam presentes no conjunto de dados mestre, ele assume um dos três valores: a observação está presente apenas no conjunto de dados mestre
No comments:
Post a Comment