Pesquisa de domínio público / Pesquisando Gutenberg.org
Gutenberg será removido temporariamente da Pesquisa de Domínio Público da Appropedia até que uma pesquisa filtrada separada possa ser feita, como um componente da Pesquisa de Domínio Público.
Os motivos em mais detalhes:
- Não tem muito conteúdo de domínio público relevante para a Appropedia e
- É mais difícil do que o esperado encontrar conteúdo de domínio público no Gutenberg. Quando olhei os resultados da pesquisa, muitos deles estavam marcados como protegidos por direitos autorais. No entanto, a página de direitos autorais diz que a maioria do conteúdo é de domínio público. Em qualquer caso, uma pesquisa especial filtrada será necessária. Qualquer ajuda é apreciada (edite esta página, adicione informações/sugestões aqui ou na página de discussão, ou entre em contato com Chriswaterguy em sua página de discussão ).
A busca filtrada será tentada primeiro usando a pesquisa regular do Google com o termo site:gutenberg.org e, depois que descobrirmos o filtro certo, encontraremos uma maneira de integrá-lo ao APDS .
Primeiras tentativas de uma busca filtrada
Observação: esta tentativa falhou porque estava filtrando por termos encontrados na página do link, e não no documento em si.
- Resultados mistos em pesquisa filtrada: pesquisar no Google por site:gutenberg.org "é uma obra de domínio público" dá 2100 resultados. (Grandes números são encontrados somente após clicar em "repetir a pesquisa com os resultados omitidos incluídos" na parte inferior, mas isso não deve ser um problema no mecanismo de pesquisa final, pois outro texto será adicionado a cada pesquisa.) Pesquisar por site:gutenberg.org "Não protegido por direitos autorais nos Estados Unidos" dá 11.000. Pesquisar por qualquer frase, site:gutenberg.org "Não protegido por direitos autorais nos Estados Unidos" OU "é uma obra de domínio público" dá 11.500. Os números parecem variar de dia para dia - isso indica um problema com o quão completa é a indexação? Quão abrangentes são essas pesquisas? E qual é a mais abrangente?
- Tentei usar as palavras-chave do mecanismo de busca: (painel de controle do mecanismo de busca personalizado do Google -> Noções básicas). Usar -(site:gutenberg.org "Verificar a licença") não funcionou. Por exemplo, pesquisar por "vários marinheiros tumultuosos" (texto de PD encontrado aqui ) não deu resultados. Usar isso pareceu quebrar a busca - nenhum resultado encontrado nem mesmo para uma busca básica como água ou filtro - mas quando foi reimplementado, pareceu funcionar novamente. Isso foi estranho, mas de qualquer forma, não deu os resultados desejados, então as palavras-chave foram removidas, a caixa deixada vazia.
Problema : O motivo pelo qual isso falhou é identificado. Pesquisar no Google por uma frase encontrada em um documento de domínio público, por exemplo, site:gutenberg.org "vários marinheiros tumultuosos" , funciona (desde que a frase não seja muito longa, por algum motivo). No entanto, com o filtro, não funciona, ou seja, site:gutenberg.org "é uma obra de domínio público" "vários marinheiros tumultuosos" , pois o filtro funciona no texto encontrado na página do link, não no documento em si. Pesquisar no Yahoo tem o mesmo problema. Essa percepção nos leva ao próximo estágio...
Próximas tentativas: pesquisando os textos dos documentos
Queremos uma frase do texto real dos documentos de domínio público , e essa frase pode estar enterrada nas declarações verbose nos arquivos de texto. Esses arquivos têm apenas a licença boilerplate? Qual frase específica é usada nas páginas de documentos de domínio público de Gutenberg, e somente nas páginas de domínio público?
É aqui que o progresso estagnou - não tenho tempo para trabalhar neste aspecto da pesquisa nos próximos meses, pois não é uma prioridade para o tipo de conteúdo que a Appropedia precisa. -- Chriswaterguy · discussão 22:29, 10 de fevereiro de 2008 (PST)
Veja também
- A Busca Anacleto de E-books do Projeto Gutenberg pode valer a pena dar uma olhada, mas não tem opção de domínio público.