Código Google: Criação de um modelo de classificação de texto com TensorFlow Hub e estimadores

Criação de um modelo de classificação de texto com TensorFlow Hub e estimadores

29/08/2018

Sara RobinsonVemos com frequência o aprendizado por transferência aplicado a modelos de visão computacional, mas será que funcionaria também para classificação de texto? Apresentamos o TensorFlow Hub, uma biblioteca para aprimorar modelos de TF com aprendizado por transferência. O aprendizado por transferência é o processo de obter os pesos e variáveis de um modelo existente já treinado com muitos dados e usá-lo na sua própria tarefa de dados e previsão.Um dos muitos benefícios do aprendizado por transferência é que você não precisa fornecer tantos dados de treinamento, como se começasse do zero. Mas, de onde vêm esses modelos pré-existentes? É aí que o TensorFlow Hub ajuda, oferecendo um repositório completo de pontos de controle já existentes para vários tipos de modelo: imagens, texto e outros. Nesta postagem, mostrarei como criar um modelo para prever o gênero de um filme com base na sua descrição usando o módulo de texto do TensorFlow Hub.Você pode executar esse modelo no navegador usando o Colab, sem necessidade de configurar nada.Importação e pré-processamento de dadosPara esse modelo, usaremos este conjunto de dados de filmes incrível da Kaggle, que é de domínio público e contém dados de mais de 45.000 filmes. O conjunto tem diversos dados sobre cada filme, mas, para simplificar as coisas, vamos usar somente as descrições (chamadas de "overview", ou visão geral) e os gêneros. Esta é uma visualização do conjunto de dados do Kaggle:

Primeiro, importamos as bibliotecas que usaremos para criar o modelo:<a href="https://medium.com/media/97d3727da2a20f72c32cacac5c92a7e4/href">https://medium.com/media/97d3727da2a20f72c32cacac5c92a7e4/href</a>Disponibilizei um arquivo CSV desse conjunto de dados em um bucket público do Cloud Storage. Executaremos o comando abaixo para fazer download dos dados da nossa instância do Colab e lê-los como um dataframe do Pandas:<a href="https://medium.com/media/8883aaba5a568e7d8780225c18bef024/href">https://medium.com/media/8883aaba5a568e7d8780225c18bef024/href</a>Para manter a simplicidade, vamos limitar os gêneros possíveis:<a href="https://medium.com/media/1aeec70771ffccac98585c5e98dc0688/href">https://medium.com/media/1aeec70771ffccac98585c5e98dc0688/href</a>Limitaremos o conjunto de dados a filmes desses gêneros que tenham descrição. Depois, poderemos dividir os dados em conjuntos de treinamento e de teste aplicando uma divisão de 80% para treinamento e 20% para teste:<a href="https://medium.com/media/6e14ba2cef44f6931398cf2f28a4c495/href">https://medium.com/media/6e14ba2cef44f6931398cf2f28a4c495/href</a>Criação da camada de incorporação com o TF HubÉ surpreendente como uma incorporação com o TF Hub usa tão pouco código. Nosso modelo só terá um recurso (a descrição) e será representado por uma coluna incorporada. As incorporações de texto criam uma forma de representar partes do texto em espaço de vetor. Portanto, palavras ou frases parecidas ficam mais próximas no espaço de incorporação (leia mais sobre esse assunto aqui). Você pode criar vetores de incorporação de texto do zero usando apenas seus próprios dados. O TF Hub simplifica esse processo disponibilizando incorporações de texto já treinadas com diversos dados de texto.Para texto em inglês, o TF Hub oferece diversas incorporações treinadas com vários tipos de dado de texto:

Codificador universal de sentenças: para entradas de texto mais longas

ELMo: incorporações profundas treinadas com o 1B Word Benchmark

Incorporações do modelo de linguagem de rede neural: treinadas com o Google Notícias

Word2vec: treinada com a Wikipédia

As incorporações de texto pré-treinadas que você escolher são um hiperparâmetro no seu modelo. Por isso, é melhor experimentar com outras e ver qual delas tem a maior precisão. Comece com o modelo que foi treinado com textos mais parecidos ao seu. Como nossas descrições de filme são entradas mais longas, notei que consegui a maior precisão com as incorporações do codificador universal de sentenças. Ele codifica as descrições em vetores de texto altamente dimensionais. Note que esse modelo em particular é bem grande e vai ocupar 1 GB.Podemos usar hub.text_embedding_column para criar uma coluna de recursos para essa camada em uma linha de código, passando a ela o nome da camada ("movie_descriptions") e o URL do modelo do TF Hub que usaremos:<a href="https://medium.com/media/83f9a1bdb20f28c576f27a5947e0f151/href">https://medium.com/media/83f9a1bdb20f28c576f27a5947e0f151/href</a>Veja que pode levar algum tempo para a execução dessa célula, já que está fazendo o download das incorporações pré-treinadas.O melhor é que não precisamos de pré-processamento para inserir as descrições em texto nas incorporações de palavras pré-treinadas. Se fôssemos criar esse modelo do zero, teríamos que converter as descrições em vetores. No entanto, com a coluna TF Hub, podemos passar as strings de descrição diretamente para o modelo.Transformação de rótulos em codificações multi-hotComo um filme muitas vezes tem diversos gêneros, nosso modelo retornará os vários rótulos possíveis para cada filme. No momento, nossos gêneros são uma lista de strings de cada filme (como ["Action", "Adventure"], ou ação, aventura). Como todos os rótulos têm que ter o mesmo tamanho, transformaremos essas listas em vetores multi-hot de dígitos 1 e 0, que correspondem aos gêneros presentes em uma determinada descrição. O vetor multi-hot de um filme de ação e aventura (Action e Adventure) ficaria assim:<a href="https://medium.com/media/eec3cb4490796fe96bc0d60cee441fd3/href">https://medium.com/media/eec3cb4490796fe96bc0d60cee441fd3/href</a>Para transformar os rótulos de string em vetores multi-hot em poucas linhas de código, usaremos um utilitário da biblioteca scikit-learn chamado MultiLabelBinarizer:<a href="https://medium.com/media/5a1bb0c1a4933ec65c07a37411dabd7b/href">https://medium.com/media/5a1bb0c1a4933ec65c07a37411dabd7b/href</a>Você pode imprimir encoder.classes_ para ver uma lista de todas as classes de string que o modelo está prevendo.Desenvolvimento e treinamento de um modelo de DNNEstimatorPara o nosso modelo, usaremos um DNNEstimator para criar uma rede neural profunda que retorna um vetor multi-hot, já que todo filme pode ter 0 ou mais rótulos possíveis (isso é diferente de um modelo em que cada entrada tem exatamente um rótulo). O primeiro parâmetro que passamos ao DNNEstimator é chamado de "head" (cabeça) e define o tipo de rótulos que nosso modelo deve esperar. Como queremos que o nosso modelo gere diversos rótulos, usaremos "multi_label_head":<a href="https://medium.com/media/ffc095999d9031dae32f474ee7d1872d/href">https://medium.com/media/ffc095999d9031dae32f474ee7d1872d/href</a>Agora, podemos passar isso quando instanciarmos o DNNEstimator. O parâmetro "hidden_units" indica quantas camadas teremos na nossa rede. Esse modelo usa 2 camadas: a primeira tem 64 neurônios e a segunda tem 10. O número e o tamanho das camadas é um hiperparâmetro. Portanto, o ideal é experimentar valores diferentes para ver qual funciona melhor com o conjunto de dados. Por fim, passamos nossas colunas de recurso ao Estimator. Nesse caso, só temos uma (a descrição), e já a definimos como uma coluna de incorporação do TF Hub acima para podermos passá-la aqui como uma lista:<a href="https://medium.com/media/9f28242b0d6c8f181b18ebdd01ca5ddc/href">https://medium.com/media/9f28242b0d6c8f181b18ebdd01ca5ddc/href</a>Já está quase tudo pronto para treinar o modelo. Antes de podermos treinar nossa instância do estimador, precisamos definir a função "input" (entrada) do treinamento. Essa função conecta nossos dados ao modelo. Aqui, vamos usar um "numpy_input_fn" e inserir os dados no nosso modelo como matrizes "numpy":<a href="https://medium.com/media/7bb7749e029a7f9eaadfe2e9cb524151/href">https://medium.com/media/7bb7749e029a7f9eaadfe2e9cb524151/href</a>Os parâmetros "batch_size" e "num_epochs" da nossa função "input" são hiperparâmetros. "batch_size" diz ao modelo quantos exemplos serão passados ao modelo em uma iteração e "num_epochs" é o número de vezes que nosso modelo analisará todo o conjunto de treinamento.Chegou a hora de treinar o modelo. Fazemos isso com uma linha de código:<a href="https://medium.com/media/62e6792db3617a345627f3e78b1e29b1/href">https://medium.com/media/62e6792db3617a345627f3e78b1e29b1/href</a>Para avaliar a precisão do nosso modelo, criamos um eval "input_function" com os dados do teste e chamamos "estimator.evaluate()":<a href="https://medium.com/media/3dde4159984bbef42446021035801138/href">https://medium.com/media/3dde4159984bbef42446021035801138/href</a>Esse modelo atingiu 91,5% de área abaixo da curva (AUC) e 74% de precisão/recall. Os seus resultados podem variar um pouco.Geração de previsões no modelo treinadoChegamos na melhor parte: gerar previsões com dados que o nosso modelo nunca viu. Primeiro, vamos criar uma matriz com algumas descrições (peguei as descrições abaixo no IMDB):<a href="https://medium.com/media/500321f5f6a849e2a155cfbe6fcfda80/href">https://medium.com/media/500321f5f6a849e2a155cfbe6fcfda80/href</a>Em seguida, vamos definir nossa função "input" de previsão e chamar "predict()":<a href="https://medium.com/media/5368313e3e0d7016ed08ba986ee13975/href">https://medium.com/media/5368313e3e0d7016ed08ba986ee13975/href</a>Por fim, podemos iterar os resultados e exibir os 2 principais gêneros encontrados para cada filme junto com os valores de confiança:<a href="https://medium.com/media/8c54a017ecdaca6aad0fc034d32dd575/href">https://medium.com/media/8c54a017ecdaca6aad0fc034d32dd575/href</a>Nosso modelo consegue marcar todas as descrições de filme acima corretamente.Primeiros passosQuer começar a desenvolver o seu próprio modelo com o TF Hub? Confira a documentação e os tutoriais. Veja o código completo do modelo que usamos aqui no GitHub ou no Colab. Em uma postagem futura, mostrarei como exportar esse modelo para operar no TensorFlow Serving ou no Cloud ML Engine, e como criar um aplicativo que gera previsões sobre novas descrições.Se tiver alguma dúvida ou quiser fazer uma observação, fale comigo no Twitter: @SRobTweets.

7 comentários :

SteveLong disse...: Google AdSense menyediakan cara bagi pemilik situs web untuk mendapatkan uang dari konten online mereka. AdSense bekerja dengan mencocokkan iklan teks dan iklan bergambar dengan situs Anda berdasarkan konten dan pengunjung.

Mendapatkan untung besar dari bermain judi poker online terbilang menarik. Tak banyak kalangan mengetahui bahwa permainan judi online memiliki potensi cukup besar untuk mendatangkan keuntungan. Judi online dan poker online masih dianggap sebagai permainan favorit yang membuat pemainnya mendapatkan keuntungan yang sangat besar.
Sebenarnya ada hal sederhana bisa didapatkan dari permainan judi online bahkan bisa membuat Anda mendapatkan bonus agen poker online. Menjadi agen dalam permainan judi poker online menjadi satu keuntungan tersendiri, maka dari itu sebisa mungkin Anda mengenali hal-hal sederhana yang bisa membuat pemain mendapatkan bonus. Besarnya bonus biasanya cukup besar, sehingga pemain poker online selalu memperhatikan berbagai hal yang saat ini menentukan besarnya bonus sebagai agen poker online.Bergabung lah di situs terbaik dan terpecaya di link bawah ini :

situs dominoqq
poker online
judi bola online
dewa bet
capsa
judi bola online; 18 de março de 2019 às 23:56
luffy disse...: Anda pengen game yang asyik dan seru? Mungkin game kartupoker yang mempunyai konsep atau memiliki jenis game kartu bisa menjadi salah satu solusi terbaik untuk Anda. remipoker 2019 Selain game kartu remi ataupun game domino, Anda bisa mengandalkan game poker sebagai salah satu game kartu yang tergolong paling seru dan menarik untuk dimainkan di HP Android. sekarang bukan jamannya repot main game poker cukup dengan gadget atau komputer dirumah anda semua sudah bisa memainkan rajaqq dirumah sambil tiduran atau bersantai. anda bisa bermain mengajak teman-teman anda, cukup dengan login dengan facebook atau media sosial lainnya anda sudah bisa memainkan game indoqq ini. segera daftar di link alternatif dominoqq 2019dan raih hoki anda sebanyak-banyaknya.; 20 de março de 2019 às 01:04
Richard Majece disse...: By the way, this important info will help you to learn more about Keyloggers for Android. I had such experience recently; 21 de setembro de 2019 às 02:49
Paolo Gassip disse...: I was concerned about my son's installed applications and websites he visits. So, I look through some reliable parental control tools and decided to install the one developed by https://www.mspy.com/. I can say it's efficient and convenient, and it works with both iOs and android well. At least now I can be sure my kid doesn't visit inappropriate websites. Even so, I can easily block those.; 29 de abril de 2020 às 05:07
Unknown disse...: As a parent, I frequently find myself worried about whether my kid is safe online. You know - with all those bullying issues and scammers everywhere. A solution that I found being efficient for me is an app from ultimate phone spy With it, it's easy to
track a phone and monitor calls and messages; 13 de novembro de 2020 às 11:53
spydetection disse...: As employees are using these devices to communicate with their bosses and clients, they are at times likely to write down things in their notebooks or emails. Author is an expert of mobile tracker,
Go here for more interesting information.; 3 de abril de 2021 às 17:22
Ehsaas Program 8171 BISP disse...: This post is going straight to my saved collection! Ehsaas Program Requirements; 6 de março de 2025 às 03:20

Postar um comentário

Criação de um modelo de classificação de texto com TensorFlow Hub e estimadores

7 comentários :

Labels

Archive

Feed