Introdução à Ciência de Dados - 20h
Conceitos de Ciência de Dados. Ciclo de vida da informação. Frameworks e pacotes utilizados em Ciência de Dados. Pensamento analítico de dados. Modelagem preditiva e modelo de dados. Ciência de Dados e estratégias de negócio. Relação de dados com descoberta de conhecimento, estatística, inteligência computacional. Tipos de Algoritmos: classificação, regressão, associação e agrupamento
Conceitos de Ciência de Dados. Ciclo de vida da informação. Frameworks e pacotes utilizados em Ciência de Dados. Pensamento analítico de dados. Modelagem preditiva e modelo de dados. Ciência de Dados e estratégias de negócio. Tipos de Algoritmos.
Introdução a Python para Ciência de Dados - 40h
Introdução ao Python 3. Módulos, Pacotes e Funções Built-in. Aritmética. Funções. Strings (cadeia de caracteres). Exceções. Listas. Tuplas. Dicionários. Conjuntos. Controle de Fluxo. Ordenação. Compressores de Lista. Geradores e Iteradores. Expressões Regulares. Programação Orientada a Objetos. Ferramentas Funcionais. Bibliotecas Python para Análise de Dados
Introdução ao Python 3. Módulos, Pacotes e Funções Built-in. Aritmética. Funções. Strings (cadeia de caracteres). Exceções. Listas. Tuplas. Dicionários. Conjuntos. Controle de Fluxo. Ordenação. Compressores de Lista. Geradores e Iteradores. Expressões Regulares. Programação Orientada a Objetos. Ferramentas Funcionais. Bibliotecas Python para Análise de Dados.
Linguagem SQL. Select From Limit Order By Where Like Not And Between e Or. Agregações. Joins.
Análise Estatística de Dados - 40h
Conjunto Único de Dados. Tendências Centrais e Dispersão. Correlação. Paradoxo de Simpson. Correlação e Causalidade. Probabilidade. Dependência e Independência. Teorema de Bayes. Variáveis Aleatórias. Distribuições Contínuas. Distribuição Normal. Teorema do Limite Central. Regressões lineares e múltiplas. Regressão polinomial e Splines. Teste Estatístico de Hipótese. P-values. P-Hacking. Inferência Bayesiana. Anova.
Conjuntos Únicos de Dados. Tendências Centrais e Dispersão. Correlação. Paradoxo de Simpson. Correlação e Causalidade. Probabilidade. Dependência e Independência. Teorema de Bayes. Variáveis Aleatórias. Distribuições Contínuas. Distribuição Normal. Teorema do Limite Central. Regressões lineares e múltiplas. Regressão polinomial e Splines. Teste Estatístico de Hipótese. P-values. P-Hacking. Inferência Bayesiana. Anova.
Coleta e Gestão de Dados (Data Collection e Data Preparation) - 20h
Fases de um processo de descoberta de conhecimento: obtenção e normalização de dados, limpeza de dados, seleção e transformação, redução de dados, mineração, avaliação do conhecimento, seleção de atributos, discretização, binarização, feature engineering, e transformação de variáveis com Impala.
Fases de um processo de descoberta de conhecimento: obtenção e normalização de dados, limpeza de dados, seleção e transformação, redução de dados, mineração, avaliação do conhecimento, seleção de atributos, discretização, binarização, feature engineering, e transformação de variáveis com Impala.
Web Scraping com BeautifulSoup, Selenium e Scrapy. Crawlers. Spiders. Json. Requests.
Introdução à Aprendizagem de Máquina - 50h
Evolução do conceito de aprendizagem. Tipos de aprendizagem. Classificação e Regressão. Limites de aprendizagem: risco empírico vs. risco estrutural, Dimensão VC, dilema bias-variance, aprendizagem viciada (overfitting) e teorema No Free Lunch. Métodos Preditivos: baseados em distância (kNN), probabilísticos (Naive Bayes) árvores (ID3 e Random Forest) e regras, baseados em otimização (SVM e Redes Neurais – Perceptron). Métodos Descritivos: Agrupamento e Regras de Associação. Redução de dimensionalidades. Optimização de hiperparâmetros.
Evolução do conceito de aprendizagem. Tipos de aprendizagem. Classificação e Regressão. Limites de aprendizagem: risco empírico vs. risco estrutural, Dimensão VC, dilema bias-variance, aprendizagem viciada (overfitting) e teorema No Free Lunch. Métodos Preditivos: baseados em distância (kNN), probabilísticos (Naive Bayes) árvores (ID3 e Randon Forest) e regras, baseados em otimização (SVM e Redes Neurais – Perceptron). Métodos Descritivos: Agrupamento e Regras de Associação. Redução de dimensionalidades. Optimização de hiperparâmetros.
Fundamentos de Deep Learning - 50h
Redes Neurais Artificiais: MLP - Multilayer Perceptron, Regressão Logística, Estrutura do neurônio artificial, Funções de Ativação, Perda e Custo, Descida do Gradiente, Learning Rate, Treinamento e Técnicas de Aprendizado (Supervisionado, Semi-supervisionado e Não-Supervisionado), Algoritmo Backpropagation, Redes de Função de Base Radial e GAN, GRU e LSTM. Aplicações de Redes Neurais Artificiais: Reconhecimento de padrões, Classificação de imagens, Séries Temporais, Geração de Conteúdo e Precificação Dinâmica. Características de Deep Learning: Introdução ao Deep Learning, Convolutional Neural Networks (CNN), Definição da quantidade de camadas e do número de neurônios, Redes Neurais Recorrentes (RNN) e Recursivas (Recurrent and Recursive Neural Networks) e Tensorflow. Ensembles e Fine Tuning em Redes Neurais.
Redes Neurais Artificiais: MLP - Multilayer Perceptron, Regressão Logística, Estrutura do neurônio artificial, Funções de Ativação, Perda e Custo, Descida do Gradiente, Learning Rate, Treinamento e Técnicas de Aprendizado, Algoritmo Backpropagation, Redes de Função de Base Radial e GAN, GRU e LSTM. Aplicações de Redes Neurais Artificiais: Reconhecimento de padrões, Classificação de imagens, Séries Temporais, Geração de Conteúdo e Precificação Dinâmica. Características de Deep Learning: Introdução ao Deep Learning, Convolutional Neural Networks (CNN), Definição da quantidade de camadas e do número de neurônios, Redes Neurais Recorrentes (RNN) e Recursivas (Recurrent and Recursive Neural Networks) e Tensorflow. Ensembles e Fine Tuning em Redes Neurais.
Repositórios Git. Integração continua (CI). Entrega contínua (CD). MLFlow. Jenkins. Docker. FastAPI.
Processamento de Linguagem Natural - 20h
Apresentação dos princípios da Linguística Computacional, por meio das descrições e formalizações de estruturas para o processamento de linguagem natural. Fundamentos Linguísticos. Gramáticas e Análise sintática. Gramáticas Aumentadas. Análise Semântica. Resolução de Ambiguidade. Análise pragmática. Representação de Conhecimento. Mineração de textos. Clusterização e Classificação de textos.
Apresentação dos princípios da Linguística Computacional, por meio das descrições e formalizações de estruturas para o processamento de linguagem natural. Fundamentos Linguísticos. Gramáticas e Análise sintática. Gramáticas Aumentadas. Análise Semântica. Resolução de Ambiguidade. Análise pragmática. Representação de Conhecimento. Mineração de textos. Clusterização e Classificação de textos.
Persistência de Dados em Bancos NoSQL (Data Storage) - 30h
Banco de Dados não-convencional: Introdução aos principais modelos de dados NoSQL. Banco de Dados NoSQL: Modelo Orientado a documentos. Banco de Dados NoSQL: Modelo Orientado a chave/valor. Banco de Dados NoSQL: Modelo Orientado à família de colunas. Banco de Dados NoSQL: Modelo Orientado a grafos. Usando Elastic Search.
Banco de Dados não-convencional: Introdução aos principais modelos de dados NoSQL. Banco de Dados NoSQL: Modelo Orientado a documentos. Banco de Dados NoSQL: Modelo Orientado a chave/valor. Banco de Dados NoSQL: Modelo Orientado à família de colunas. Banco de Dados NoSQL: Modelo Orientado a grafos. Usando Elastic Search.
Big Data com MapReduce – Spark - 30h
Entendendo MapReduce: Arquitetura, Projeto Básico de Algoritmos, Dados Estrutudados e Não-Estruturados. Introdução ao Apache Spark, Spark Framework. Aplicação do PySpark.
Entendendo MapReduce: Arquitetura, Projeto Básico de Algoritmos, Dados Estrutudados e Não-Estruturados. Introdução ao Apache Spark, Spark Framework. Aplicação do PySpark.
Projeto em Ciência de Dados - 30h
Estruturação e guias técnicos. Técnicas que favoreçam aprovação para publicação em fóruns científicos. Redação científica. Técnica de elaboração do artigo técnico. Normas ABNT aplicáveis ao artigo. O processo de desenvolvimento do trabalho.
Estruturação e guias técnicos. Técnicas que favoreçam aprovação para publicação em fóruns científicos. Redação científica. Técnica de elaboração do artigo técnico. Normas ABNT aplicáveis ao artigo. O processo de desenvolvimento do trabalho.