{"id":42131,"date":"2025-10-04T06:49:26","date_gmt":"2025-10-04T06:49:26","guid":{"rendered":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/"},"modified":"2025-10-04T06:49:26","modified_gmt":"2025-10-04T06:49:26","slug":"can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes","status":"publish","type":"post","link":"https:\/\/youzum.net\/es\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/","title":{"rendered":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes"},"content":{"rendered":"<p><strong>Researchers from Cornell and Google introduce a unified Regression Language Model (RLM) that predicts numeric outcomes directly from code strings\u2014covering GPU kernel latency, program memory usage, and even neural network accuracy and latency\u2014without hand-engineered features.<\/strong> A 300M-parameter encoder\u2013decoder initialized from T5-Gemma achieves strong rank correlations across heterogeneous tasks and languages, using a single text-to-number decoder that emits digits with constrained decoding.<\/p>\n<h3 class=\"wp-block-heading\"><strong>What exactly is new?<\/strong><\/h3>\n<ul class=\"wp-block-list\">\n<li><strong>Unified code-to-metric regression<\/strong>: One RLM predicts (i) peak memory from high-level code (Python\/C\/C++ and more), (ii) latency for Triton GPU kernels, and (iii) accuracy and hardware-specific latency from ONNX graphs\u2014by reading raw text representations and decoding numeric outputs. No feature engineering, graph encoders, or zero-cost proxies are required.<\/li>\n<li><strong>Concrete results<\/strong>: Reported correlations include <strong>Spearman \u03c1 \u2248 0.93<\/strong> on APPS LeetCode memory, <strong>\u03c1 \u2248 0.52<\/strong> for Triton kernel latency, <strong>\u03c1 &gt; 0.5<\/strong> average across <strong>17 CodeNet languages<\/strong>, and <strong>Kendall \u03c4 \u2248 0.46<\/strong> across five classic NAS spaces\u2014competitive with and in some cases surpassing graph-based predictors.<\/li>\n<li><strong>Multi-objective decoding<\/strong>: Because the decoder is autoregressive, the model conditions later metrics on earlier ones (e.g., accuracy \u2192 per-device latencies), capturing realistic trade-offs along Pareto fronts.<\/li>\n<\/ul>\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1424\" height=\"700\" data-attachment-id=\"75060\" data-permalink=\"https:\/\/www.marktechpost.com\/2025\/10\/03\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/screenshot-2025-10-03-at-10-49-38-pm-2\/\" data-orig-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1.png\" data-orig-size=\"1424,700\" data-comments-opened=\"1\" data-image-meta='{\"aperture\":\"0\",\"credit\":\"\",\"camera\":\"\",\"caption\":\"\",\"created_timestamp\":\"0\",\"copyright\":\"\",\"focal_length\":\"0\",\"iso\":\"0\",\"shutter_speed\":\"0\",\"title\":\"\",\"orientation\":\"0\"}' data-image-title=\"Screenshot 2025-10-03 at 10.49.38\u202fPM\" data-image-description=\"\" data-image-caption=\"\" data-medium-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-300x147.png\" data-large-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-1024x503.png\" src=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1.png\" alt=\"\" class=\"wp-image-75060\" \/><figcaption class=\"wp-element-caption\">https:\/\/arxiv.org\/abs\/2509.26476<\/figcaption><\/figure>\n<\/div>\n<h3 class=\"wp-block-heading\"><strong>Why is this important?<\/strong><\/h3>\n<p>Performance prediction pipelines in compilers, GPU kernel selection, and NAS typically rely on bespoke features, syntax trees, or GNN encoders that are brittle to new ops\/languages. Treating regression as <strong>next-token prediction over numbers<\/strong> standardizes the stack: tokenize inputs as plain text (source code, Triton IR, ONNX), then decode calibrated numeric strings digit-by-digit with constrained sampling. This reduces maintenance cost and improves transfer to new tasks via fine-tuning. <\/p>\n<h3 class=\"wp-block-heading\"><strong>Data and benchmarks<\/strong><\/h3>\n<ul class=\"wp-block-list\">\n<li><strong>Code-Regression dataset (HF)<\/strong>: Curated to support <strong>code-to-metric<\/strong> tasks spanning APPS\/LeetCode runs, Triton kernel latencies (KernelBook-derived), and CodeNet memory footprints. <\/li>\n<li><strong>NAS\/ONNX suite<\/strong>: Architectures from NASBench-101\/201, FBNet, Once-for-All (MB\/PN\/RN), Twopath, Hiaml, Inception, and NDS are exported to <strong>ONNX text<\/strong> to predict accuracy and device-specific latency.<\/li>\n<\/ul>\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img decoding=\"async\" width=\"1450\" height=\"542\" data-attachment-id=\"75061\" data-permalink=\"https:\/\/www.marktechpost.com\/2025\/10\/03\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/screenshot-2025-10-03-at-10-50-14-pm\/\" data-orig-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.50.14-PM.png\" data-orig-size=\"1450,542\" data-comments-opened=\"1\" data-image-meta='{\"aperture\":\"0\",\"credit\":\"\",\"camera\":\"\",\"caption\":\"\",\"created_timestamp\":\"0\",\"copyright\":\"\",\"focal_length\":\"0\",\"iso\":\"0\",\"shutter_speed\":\"0\",\"title\":\"\",\"orientation\":\"0\"}' data-image-title=\"Screenshot 2025-10-03 at 10.50.14\u202fPM\" data-image-description=\"\" data-image-caption=\"\" data-medium-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.50.14-PM-300x112.png\" data-large-file=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.50.14-PM-1024x383.png\" src=\"https:\/\/www.marktechpost.com\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.50.14-PM.png\" alt=\"\" class=\"wp-image-75061\" \/><\/figure>\n<\/div>\n<h3 class=\"wp-block-heading\"><strong>How does it work?<\/strong><\/h3>\n<ul class=\"wp-block-list\">\n<li><strong>Backbone<\/strong>: Encoder\u2013decoder with a <strong>T5-Gemma<\/strong> encoder initialization (~300M params). Inputs are raw strings (code or ONNX). Outputs are numbers emitted as <strong>sign\/exponent\/mantissa digit tokens<\/strong>; constrained decoding enforces valid numerals and supports uncertainty via sampling.<\/li>\n<li><strong>Ablations<\/strong>: (i) Language pretraining accelerates convergence and improves Triton latency prediction; (ii) <strong>decoder-only numeric emission<\/strong> outperforms MSE regression heads even with y-normalization; (iii) learned tokenizers specialized for ONNX operators increase effective context; (iv) longer contexts help; (v) scaling to a larger Gemma encoder further improves correlation with adequate tuning.<\/li>\n<li><strong>Training code.<\/strong> The <strong>regress-lm<\/strong> library provides text-to-text regression utilities, constrained decoding, and multi-task pretraining\/fine-tuning recipes.<\/li>\n<\/ul>\n<h3 class=\"wp-block-heading\"><strong>Stats that matters<\/strong><\/h3>\n<ul class=\"wp-block-list\">\n<li><strong>APPS (Python) memory:<\/strong> Spearman <strong>\u03c1 &gt; 0.9<\/strong>.<\/li>\n<li><strong>CodeNet (17 languages) memory:<\/strong> average <strong>\u03c1 &gt; 0.5<\/strong>; strongest languages include C\/C++ (~0.74\u20130.75).<\/li>\n<li><strong>Triton kernels (A6000) latency:<\/strong> <strong>\u03c1 \u2248 0.52<\/strong>.<\/li>\n<li><strong>NAS ranking:<\/strong> average <strong>Kendall \u03c4 \u2248 0.46<\/strong> across NASNet, Amoeba, PNAS, ENAS, DARTS; competitive with FLAN and GNN baselines.<\/li>\n<\/ul>\n<h3 class=\"wp-block-heading\"><strong>Key Takeaways<\/strong><\/h3>\n<ol class=\"wp-block-list\">\n<li>Unified code-to-metric regression works. A single ~300M-parameter T5Gemma-initialized model (\u201cRLM\u201d) predicts: (a) memory from high-level code, (b) Triton GPU kernel latency, and (c) model accuracy + device latency from ONNX\u2014directly from text, no hand-engineered features.<\/li>\n<li>The research shows Spearman \u03c1 &gt; 0.9 on APPS memory, \u22480.52 on Triton latency, &gt;0.5 average across 17 CodeNet languages, and Kendall-\u03c4 \u2248 0.46 on five NAS spaces.<\/li>\n<li>Numbers are decoded as text with constraints. Instead of a regression head, RLM emits numeric tokens with constrained decoding, enabling multi-metric, autoregressive outputs (e.g., accuracy followed by multi-device latencies) and uncertainty via sampling.<\/li>\n<li>The <strong>Code-Regression<\/strong> dataset unifies APPS\/LeetCode memory, Triton kernel latency, and CodeNet memory; the <strong>regress-lm<\/strong> library provides the training\/decoding stack.<\/li>\n<\/ol>\n<h3 class=\"wp-block-heading\"><strong>Our Comments<\/strong><\/h3>\n<p>It is very interesting how this work reframes performance prediction as text-to-number generation: a compact T5Gemma-initialized RLM reads source (Python\/C++), Triton kernels, or ONNX graphs and emits calibrated numerics via constrained decoding. The reported correlations\u2014APPS memory (\u03c1&gt;0.9), Triton latency on RTX A6000 (~0.52), and NAS Kendall-\u03c4 \u22480.46\u2014are strong enough to matter for compiler heuristics, kernel pruning, and multi-objective NAS triage without bespoke features or GNNs. The open dataset and library make replication straightforward and lower the barrier to fine-tuning on new hardware or languages.<\/p>\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n<p>Check out the<a href=\"https:\/\/arxiv.org\/abs\/2509.26476\" target=\"_blank\" rel=\"noreferrer noopener\">\u00a0<strong>Paper<\/strong><\/a><strong>, <a href=\"https:\/\/github.com\/google-deepmind\/regress-lm\" target=\"_blank\" rel=\"noreferrer noopener\">GitHub Page<\/a> <\/strong>and<strong> <a href=\"https:\/\/huggingface.co\/datasets\/akhauriyash\/Code-Regression\" target=\"_blank\" rel=\"noreferrer noopener\">Dataset Card<\/a><\/strong>. Feel free to check out our\u00a0<strong><mark><a href=\"https:\/\/github.com\/Marktechpost\/AI-Tutorial-Codes-Included\" target=\"_blank\" rel=\"noreferrer noopener\">GitHub Page for Tutorials, Codes and Notebooks<\/a><\/mark><\/strong>.\u00a0Also,\u00a0feel free to follow us on\u00a0<strong><a href=\"https:\/\/x.com\/intent\/follow?screen_name=marktechpost\" target=\"_blank\" rel=\"noreferrer noopener\"><mark>Twitter<\/mark><\/a><\/strong>\u00a0and don\u2019t forget to join our\u00a0<strong><a href=\"https:\/\/www.reddit.com\/r\/machinelearningnews\/\" target=\"_blank\" rel=\"noreferrer noopener\">100k+ ML SubReddit<\/a><\/strong>\u00a0and Subscribe to\u00a0<strong><a href=\"https:\/\/www.aidevsignals.com\/\" target=\"_blank\" rel=\"noreferrer noopener\">our Newsletter<\/a><\/strong>. Wait! are you on telegram?\u00a0<strong><a href=\"https:\/\/t.me\/machinelearningresearchnews\" target=\"_blank\" rel=\"noreferrer noopener\">now you can join us on telegram as well.<\/a><\/strong><\/p>\n<p>The post <a href=\"https:\/\/www.marktechpost.com\/2025\/10\/03\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\">Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes<\/a> appeared first on <a href=\"https:\/\/www.marktechpost.com\/\">MarkTechPost<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>Researchers from Cornell and Google introduce a unified Regression Language Model (RLM) that predicts numeric outcomes directly from code strings\u2014covering GPU kernel latency, program memory usage, and even neural network accuracy and latency\u2014without hand-engineered features. A 300M-parameter encoder\u2013decoder initialized from T5-Gemma achieves strong rank correlations across heterogeneous tasks and languages, using a single text-to-number decoder that emits digits with constrained decoding. What exactly is new? Unified code-to-metric regression: One RLM predicts (i) peak memory from high-level code (Python\/C\/C++ and more), (ii) latency for Triton GPU kernels, and (iii) accuracy and hardware-specific latency from ONNX graphs\u2014by reading raw text representations and decoding numeric outputs. No feature engineering, graph encoders, or zero-cost proxies are required. Concrete results: Reported correlations include Spearman \u03c1 \u2248 0.93 on APPS LeetCode memory, \u03c1 \u2248 0.52 for Triton kernel latency, \u03c1 &gt; 0.5 average across 17 CodeNet languages, and Kendall \u03c4 \u2248 0.46 across five classic NAS spaces\u2014competitive with and in some cases surpassing graph-based predictors. Multi-objective decoding: Because the decoder is autoregressive, the model conditions later metrics on earlier ones (e.g., accuracy \u2192 per-device latencies), capturing realistic trade-offs along Pareto fronts. https:\/\/arxiv.org\/abs\/2509.26476 Why is this important? Performance prediction pipelines in compilers, GPU kernel selection, and NAS typically rely on bespoke features, syntax trees, or GNN encoders that are brittle to new ops\/languages. Treating regression as next-token prediction over numbers standardizes the stack: tokenize inputs as plain text (source code, Triton IR, ONNX), then decode calibrated numeric strings digit-by-digit with constrained sampling. This reduces maintenance cost and improves transfer to new tasks via fine-tuning. Data and benchmarks Code-Regression dataset (HF): Curated to support code-to-metric tasks spanning APPS\/LeetCode runs, Triton kernel latencies (KernelBook-derived), and CodeNet memory footprints. NAS\/ONNX suite: Architectures from NASBench-101\/201, FBNet, Once-for-All (MB\/PN\/RN), Twopath, Hiaml, Inception, and NDS are exported to ONNX text to predict accuracy and device-specific latency. How does it work? Backbone: Encoder\u2013decoder with a T5-Gemma encoder initialization (~300M params). Inputs are raw strings (code or ONNX). Outputs are numbers emitted as sign\/exponent\/mantissa digit tokens; constrained decoding enforces valid numerals and supports uncertainty via sampling. Ablations: (i) Language pretraining accelerates convergence and improves Triton latency prediction; (ii) decoder-only numeric emission outperforms MSE regression heads even with y-normalization; (iii) learned tokenizers specialized for ONNX operators increase effective context; (iv) longer contexts help; (v) scaling to a larger Gemma encoder further improves correlation with adequate tuning. Training code. The regress-lm library provides text-to-text regression utilities, constrained decoding, and multi-task pretraining\/fine-tuning recipes. Stats that matters APPS (Python) memory: Spearman \u03c1 &gt; 0.9. CodeNet (17 languages) memory: average \u03c1 &gt; 0.5; strongest languages include C\/C++ (~0.74\u20130.75). Triton kernels (A6000) latency: \u03c1 \u2248 0.52. NAS ranking: average Kendall \u03c4 \u2248 0.46 across NASNet, Amoeba, PNAS, ENAS, DARTS; competitive with FLAN and GNN baselines. Key Takeaways Unified code-to-metric regression works. A single ~300M-parameter T5Gemma-initialized model (\u201cRLM\u201d) predicts: (a) memory from high-level code, (b) Triton GPU kernel latency, and (c) model accuracy + device latency from ONNX\u2014directly from text, no hand-engineered features. The research shows Spearman \u03c1 &gt; 0.9 on APPS memory, \u22480.52 on Triton latency, &gt;0.5 average across 17 CodeNet languages, and Kendall-\u03c4 \u2248 0.46 on five NAS spaces. Numbers are decoded as text with constraints. Instead of a regression head, RLM emits numeric tokens with constrained decoding, enabling multi-metric, autoregressive outputs (e.g., accuracy followed by multi-device latencies) and uncertainty via sampling. The Code-Regression dataset unifies APPS\/LeetCode memory, Triton kernel latency, and CodeNet memory; the regress-lm library provides the training\/decoding stack. Our Comments It is very interesting how this work reframes performance prediction as text-to-number generation: a compact T5Gemma-initialized RLM reads source (Python\/C++), Triton kernels, or ONNX graphs and emits calibrated numerics via constrained decoding. The reported correlations\u2014APPS memory (\u03c1&gt;0.9), Triton latency on RTX A6000 (~0.52), and NAS Kendall-\u03c4 \u22480.46\u2014are strong enough to matter for compiler heuristics, kernel pruning, and multi-objective NAS triage without bespoke features or GNNs. The open dataset and library make replication straightforward and lower the barrier to fine-tuning on new hardware or languages. Check out the\u00a0Paper, GitHub Page and Dataset Card. Feel free to check out our\u00a0GitHub Page for Tutorials, Codes and Notebooks.\u00a0Also,\u00a0feel free to follow us on\u00a0Twitter\u00a0and don\u2019t forget to join our\u00a0100k+ ML SubReddit\u00a0and Subscribe to\u00a0our Newsletter. Wait! are you on telegram?\u00a0now you can join us on telegram as well. The post Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes appeared first on MarkTechPost.<\/p>","protected":false},"author":2,"featured_media":42132,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"_pvb_checkbox_block_on_post":false,"footnotes":""},"categories":[52,5,7,1],"tags":[],"class_list":["post-42131","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-club","category-committee","category-news","category-uncategorized","pmpro-has-access"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v25.3 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum<\/title>\n<meta name=\"description\" content=\"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/youzum.net\/es\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum\" \/>\n<meta property=\"og:description\" content=\"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19\" \/>\n<meta property=\"og:url\" content=\"https:\/\/youzum.net\/es\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\" \/>\n<meta property=\"og:site_name\" content=\"YouZum\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/DroneAssociationTH\/\" \/>\n<meta property=\"article:published_time\" content=\"2025-10-04T06:49:26+00:00\" \/>\n<meta name=\"author\" content=\"admin NU\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"admin NU\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\"},\"author\":{\"name\":\"admin NU\",\"@id\":\"https:\/\/yousum.gpucore.co\/#\/schema\/person\/97fa48242daf3908e4d9a5f26f4a059c\"},\"headline\":\"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes\",\"datePublished\":\"2025-10-04T06:49:26+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\"},\"wordCount\":764,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/yousum.gpucore.co\/#organization\"},\"image\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png\",\"articleSection\":[\"AI\",\"Committee\",\"News\",\"Uncategorized\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\",\"url\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\",\"name\":\"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum\",\"isPartOf\":{\"@id\":\"https:\/\/yousum.gpucore.co\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png\",\"datePublished\":\"2025-10-04T06:49:26+00:00\",\"description\":\"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19\",\"breadcrumb\":{\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage\",\"url\":\"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png\",\"contentUrl\":\"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png\",\"width\":1424,\"height\":700},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/youzum.net\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/yousum.gpucore.co\/#website\",\"url\":\"https:\/\/yousum.gpucore.co\/\",\"name\":\"YouSum\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/yousum.gpucore.co\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/yousum.gpucore.co\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/yousum.gpucore.co\/#organization\",\"name\":\"Drone Association Thailand\",\"url\":\"https:\/\/yousum.gpucore.co\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/yousum.gpucore.co\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/youzum.net\/wp-content\/uploads\/2024\/11\/tranparent-logo.png\",\"contentUrl\":\"https:\/\/youzum.net\/wp-content\/uploads\/2024\/11\/tranparent-logo.png\",\"width\":300,\"height\":300,\"caption\":\"Drone Association Thailand\"},\"image\":{\"@id\":\"https:\/\/yousum.gpucore.co\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/DroneAssociationTH\/\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/yousum.gpucore.co\/#\/schema\/person\/97fa48242daf3908e4d9a5f26f4a059c\",\"name\":\"admin NU\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/yousum.gpucore.co\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/youzum.net\/wp-content\/uploads\/avatars\/2\/1746849356-bpfull.png\",\"contentUrl\":\"https:\/\/youzum.net\/wp-content\/uploads\/avatars\/2\/1746849356-bpfull.png\",\"caption\":\"admin NU\"},\"url\":\"https:\/\/youzum.net\/es\/members\/adminnu\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum","description":"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/youzum.net\/es\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/","og_locale":"es_ES","og_type":"article","og_title":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum","og_description":"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19","og_url":"https:\/\/youzum.net\/es\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/","og_site_name":"YouZum","article_publisher":"https:\/\/www.facebook.com\/DroneAssociationTH\/","article_published_time":"2025-10-04T06:49:26+00:00","author":"admin NU","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"admin NU","Tiempo de lectura":"4 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#article","isPartOf":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/"},"author":{"name":"admin NU","@id":"https:\/\/yousum.gpucore.co\/#\/schema\/person\/97fa48242daf3908e4d9a5f26f4a059c"},"headline":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes","datePublished":"2025-10-04T06:49:26+00:00","mainEntityOfPage":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/"},"wordCount":764,"commentCount":0,"publisher":{"@id":"https:\/\/yousum.gpucore.co\/#organization"},"image":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage"},"thumbnailUrl":"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png","articleSection":["AI","Committee","News","Uncategorized"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/","url":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/","name":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes - YouZum","isPartOf":{"@id":"https:\/\/yousum.gpucore.co\/#website"},"primaryImageOfPage":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage"},"image":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage"},"thumbnailUrl":"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png","datePublished":"2025-10-04T06:49:26+00:00","description":"\u0e01\u0e34\u0e08\u0e01\u0e23\u0e23\u0e21\u0e40\u0e01\u0e35\u0e48\u0e22\u0e27\u0e01\u0e31\u0e1a\u0e42\u0e14\u0e23\u0e19","breadcrumb":{"@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#primaryimage","url":"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png","contentUrl":"https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png","width":1424,"height":700},{"@type":"BreadcrumbList","@id":"https:\/\/youzum.net\/can-a-small-language-model-predict-kernel-latency-memory-and-model-accuracy-from-code-a-new-regression-language-model-rlm-says-yes\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/youzum.net\/"},{"@type":"ListItem","position":2,"name":"Can a Small Language Model Predict Kernel Latency, Memory, and Model Accuracy from Code? A New Regression Language Model (RLM) Says Yes"}]},{"@type":"WebSite","@id":"https:\/\/yousum.gpucore.co\/#website","url":"https:\/\/yousum.gpucore.co\/","name":"YouSum","description":"","publisher":{"@id":"https:\/\/yousum.gpucore.co\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/yousum.gpucore.co\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/yousum.gpucore.co\/#organization","name":"Drone Association Thailand","url":"https:\/\/yousum.gpucore.co\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/yousum.gpucore.co\/#\/schema\/logo\/image\/","url":"https:\/\/youzum.net\/wp-content\/uploads\/2024\/11\/tranparent-logo.png","contentUrl":"https:\/\/youzum.net\/wp-content\/uploads\/2024\/11\/tranparent-logo.png","width":300,"height":300,"caption":"Drone Association Thailand"},"image":{"@id":"https:\/\/yousum.gpucore.co\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/DroneAssociationTH\/"]},{"@type":"Person","@id":"https:\/\/yousum.gpucore.co\/#\/schema\/person\/97fa48242daf3908e4d9a5f26f4a059c","name":"admin NU","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/yousum.gpucore.co\/#\/schema\/person\/image\/","url":"https:\/\/youzum.net\/wp-content\/uploads\/avatars\/2\/1746849356-bpfull.png","contentUrl":"https:\/\/youzum.net\/wp-content\/uploads\/avatars\/2\/1746849356-bpfull.png","caption":"admin NU"},"url":"https:\/\/youzum.net\/es\/members\/adminnu\/"}]}},"rttpg_featured_image_url":{"full":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png",1424,700,false],"landscape":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png",1424,700,false],"portraits":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png",1424,700,false],"thumbnail":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-150x150.png",150,150,true],"medium":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-300x147.png",300,147,true],"large":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-1024x503.png",1024,503,true],"1536x1536":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png",1424,700,false],"2048x2048":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur.png",1424,700,false],"trp-custom-language-flag":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-18x9.png",18,9,true],"woocommerce_thumbnail":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-300x300.png",300,300,true],"woocommerce_single":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-600x295.png",600,295,true],"woocommerce_gallery_thumbnail":["https:\/\/youzum.net\/wp-content\/uploads\/2025\/10\/Screenshot-2025-10-03-at-10.49.38-PM-1-IrX1ur-100x100.png",100,100,true]},"rttpg_author":{"display_name":"admin NU","author_link":"https:\/\/youzum.net\/es\/members\/adminnu\/"},"rttpg_comment":0,"rttpg_category":"<a href=\"https:\/\/youzum.net\/es\/category\/ai-club\/\" rel=\"category tag\">AI<\/a> <a href=\"https:\/\/youzum.net\/es\/category\/committee\/\" rel=\"category tag\">Committee<\/a> <a href=\"https:\/\/youzum.net\/es\/category\/news\/\" rel=\"category tag\">News<\/a> <a href=\"https:\/\/youzum.net\/es\/category\/uncategorized\/\" rel=\"category tag\">Uncategorized<\/a>","rttpg_excerpt":"Researchers from Cornell and Google introduce a unified Regression Language Model (RLM) that predicts numeric outcomes directly from code strings\u2014covering GPU kernel latency, program memory usage, and even neural network accuracy and latency\u2014without hand-engineered features. A 300M-parameter encoder\u2013decoder initialized from T5-Gemma achieves strong rank correlations across heterogeneous tasks and languages, using a single text-to-number decoder&hellip;","_links":{"self":[{"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/posts\/42131","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/comments?post=42131"}],"version-history":[{"count":0,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/posts\/42131\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/media\/42132"}],"wp:attachment":[{"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/media?parent=42131"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/categories?post=42131"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/youzum.net\/es\/wp-json\/wp\/v2\/tags?post=42131"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}